DeepSeek公布推理新論文提升獎勵模型可擴展性

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-04-05 15:41:35 澎湃新聞

DeepSeek R2的研究成果已經接近。最近,，DeepSeek和清華大學的研究者發(fā)表了一篇論文,，探討了獎勵模型在推理時的Scaling方法。

強化學習（RL）已廣泛應用于大規(guī)模語言模型（LLM）的后訓練階段,。通過RL激勵LLM的推理能力表明,，采用合適的學習方法可以實現(xiàn)有效的推理時可擴展性。然而,，RL面臨的一個關鍵挑戰(zhàn)是在多種領域中為LLM獲得準確的獎勵信號,。

研究者發(fā)現(xiàn)，在獎勵建模（RM）方法上采用點式生成式獎勵建模（GRM）,，可以提升模型對不同輸入類型的靈活適應能力,，并具備推理階段可擴展的潛力,。為此,，他們提出了一種自我原則點評調優(yōu)（SPCT）的學習方法。這種方法通過在線RL訓練促進GRM生成具備可擴展獎勵能力的行為,，即能夠自適應生成評判原則并準確生成點評內容,，從而得到DeepSeek-GRM模型。

DeepSeek-GRM-27B是基于Gemma-2-27B經過SPCT后訓練的,。實驗結果表明,，SPCT顯著提高了GRM的質量和可擴展性，在多個綜合RM基準測試中優(yōu)于現(xiàn)有方法和模型,。研究者還比較了DeepSeek-GRM-27B與671B更大模型的推理時間擴展性能,，發(fā)現(xiàn)它在模型大小上的訓練時間擴展性能更好。此外,，他們引入了一個元獎勵模型（meta RM）來引導投票過程,，以提升擴展性能。

研究者的貢獻包括：提出了一種新方法——自我原則點評調優(yōu)（SPCT）,，用于推動通用獎勵建模在推理階段實現(xiàn)有效的可擴展性,；SPCT顯著提升了GRM在獎勵質量和推理擴展性能方面的表現(xiàn)，超過了現(xiàn)有方法及多個強勁的公開模型,；將SPCT的訓練流程應用于更大規(guī)模的LLM,，并發(fā)現(xiàn)相比于訓練階段擴大模型參數(shù)量,，推理階段的擴展策略在性能上更具優(yōu)勢。

SPCT方法包括兩個階段：拒絕式微調作為冷啟動階段,，以及基于規(guī)則的在線強化學習,。拒絕式微調的核心思想是讓GRM適應不同輸入類型，并以正確的格式生成原則與點評內容,?；谝?guī)則的在線強化學習則進一步微調GRM，通過提升生成的原則和點評內容來強化通用獎勵的生成過程,。

為了提升DeepSeek-GRM在生成通用獎勵上的性能,，研究團隊探索了如何利用更多的推理計算，通過基于采樣的策略來實現(xiàn)有效的推理時擴展,。逐點GRM投票過程被定義為將獎勵求和,，這實際上將獎勵空間擴大了k倍，使GRM能生成大量原則,，從而提升最終獎勵的質量和細膩度,。為了避免位置偏差并增加多樣性，研究人員在采樣前會對回答進行隨機打亂,。

研究團隊還訓練了一個元獎勵模型（meta RM）來引導投票過程,。這個meta RM是一個逐點標量模型，訓練目標是判斷DeepSeek-GRM生成的原則和評論是否正確,。引導投票的實現(xiàn)很簡單：meta RM為k個采樣獎勵輸出元獎勵,，然后從這些獎勵中選出前k_meta個高質量的獎勵進行最終投票，從而過濾掉低質量樣本,。

結果顯示,，DeepSeek-GRM-27B在整體性能上超過了基線方法，并且與一些強大的公開RM表現(xiàn)相當,。如果通過推理時擴展,，DeepSeek-GRM-27B還能進一步提升，達到最佳整體結果,。隨著推理計算量增加,，DeepSeek-GRM-27B展現(xiàn)出進一步提升性能的潛力。meta RM也在每個基準測試中證明了其過濾低質量軌跡的有效性,。

消融研究表明,，即使沒有使用拒絕采樣的評論數(shù)據進行冷啟動，經過在線強化學習后,，通用指令調整的GRM仍然顯著提升,。非提示采樣似乎比提示采樣更重要，可能是因為提示采樣軌跡中出現(xiàn)了捷徑,。這表明在線訓練對GRM的重要性,。原則生成對DeepSeek-GRM-27B的貪婪解碼和推理時擴展性能都至關重要,。在推理時擴展中，meta RM指導的投票在不同k_meta下表現(xiàn)出魯棒性,。

研究團隊進一步研究了DeepSeek-GRM-27B在不同規(guī)模LLM后訓練下的推理時和訓練時擴展性能,。使用32個樣本直接投票的DeepSeek-GRM-27B可以達到與671B MoE模型相當?shù)男阅埽鴐eta RM指導的投票僅用8個樣本就能取得最佳結果,，證明了DeepSeek-GRM-27B在推理時擴展上的有效性,，優(yōu)于單純擴大模型規(guī)模。

(責任編輯：張蕾)

關閉

DeepSeek公布推理新論文 提升獎勵模型可擴展性

相關新聞

今日熱點

頻道熱點

DeepSeek公布推理新論文提升獎勵模型可擴展性