DeepSeek R2的研究成果已經(jīng)接近,。最近,,DeepSeek和清華大學(xué)的研究者發(fā)表了一篇論文,探討了獎勵模型在推理時的Scaling方法,。
強(qiáng)化學(xué)習(xí)(RL)已廣泛應(yīng)用于大規(guī)模語言模型(LLM)的后訓(xùn)練階段,。通過RL激勵LLM的推理能力表明,采用合適的學(xué)習(xí)方法可以實現(xiàn)有效的推理時可擴(kuò)展性,。然而,,RL面臨的一個關(guān)鍵挑戰(zhàn)是在多種領(lǐng)域中為LLM獲得準(zhǔn)確的獎勵信號。
研究者發(fā)現(xiàn),,在獎勵建模(RM)方法上采用點式生成式獎勵建模(GRM),,可以提升模型對不同輸入類型的靈活適應(yīng)能力,并具備推理階段可擴(kuò)展的潛力,。為此,,他們提出了一種自我原則點評調(diào)優(yōu)(SPCT)的學(xué)習(xí)方法。這種方法通過在線RL訓(xùn)練促進(jìn)GRM生成具備可擴(kuò)展獎勵能力的行為,,即能夠自適應(yīng)生成評判原則并準(zhǔn)確生成點評內(nèi)容,,從而得到DeepSeek-GRM模型。
DeepSeek-GRM-27B是基于Gemma-2-27B經(jīng)過SPCT后訓(xùn)練的,。實驗結(jié)果表明,,SPCT顯著提高了GRM的質(zhì)量和可擴(kuò)展性,在多個綜合RM基準(zhǔn)測試中優(yōu)于現(xiàn)有方法和模型,。研究者還比較了DeepSeek-GRM-27B與671B更大模型的推理時間擴(kuò)展性能,,發(fā)現(xiàn)它在模型大小上的訓(xùn)練時間擴(kuò)展性能更好。此外,他們引入了一個元獎勵模型(meta RM)來引導(dǎo)投票過程,,以提升擴(kuò)展性能,。
研究者的貢獻(xiàn)包括:提出了一種新方法——自我原則點評調(diào)優(yōu)(SPCT),用于推動通用獎勵建模在推理階段實現(xiàn)有效的可擴(kuò)展性,;SPCT顯著提升了GRM在獎勵質(zhì)量和推理擴(kuò)展性能方面的表現(xiàn),,超過了現(xiàn)有方法及多個強(qiáng)勁的公開模型;將SPCT的訓(xùn)練流程應(yīng)用于更大規(guī)模的LLM,,并發(fā)現(xiàn)相比于訓(xùn)練階段擴(kuò)大模型參數(shù)量,,推理階段的擴(kuò)展策略在性能上更具優(yōu)勢。
SPCT方法包括兩個階段:拒絕式微調(diào)作為冷啟動階段,,以及基于規(guī)則的在線強(qiáng)化學(xué)習(xí),。拒絕式微調(diào)的核心思想是讓GRM適應(yīng)不同輸入類型,并以正確的格式生成原則與點評內(nèi)容,?;谝?guī)則的在線強(qiáng)化學(xué)習(xí)則進(jìn)一步微調(diào)GRM,通過提升生成的原則和點評內(nèi)容來強(qiáng)化通用獎勵的生成過程,。
為了提升DeepSeek-GRM在生成通用獎勵上的性能,,研究團(tuán)隊探索了如何利用更多的推理計算,通過基于采樣的策略來實現(xiàn)有效的推理時擴(kuò)展,。逐點GRM投票過程被定義為將獎勵求和,,這實際上將獎勵空間擴(kuò)大了k倍,使GRM能生成大量原則,,從而提升最終獎勵的質(zhì)量和細(xì)膩度,。為了避免位置偏差并增加多樣性,研究人員在采樣前會對回答進(jìn)行隨機(jī)打亂,。
研究團(tuán)隊還訓(xùn)練了一個元獎勵模型(meta RM)來引導(dǎo)投票過程,。這個meta RM是一個逐點標(biāo)量模型,訓(xùn)練目標(biāo)是判斷DeepSeek-GRM生成的原則和評論是否正確,。引導(dǎo)投票的實現(xiàn)很簡單:meta RM為k個采樣獎勵輸出元獎勵,,然后從這些獎勵中選出前k_meta個高質(zhì)量的獎勵進(jìn)行最終投票,從而過濾掉低質(zhì)量樣本,。
結(jié)果顯示,,DeepSeek-GRM-27B在整體性能上超過了基線方法,并且與一些強(qiáng)大的公開RM表現(xiàn)相當(dāng),。如果通過推理時擴(kuò)展,,DeepSeek-GRM-27B還能進(jìn)一步提升,達(dá)到最佳整體結(jié)果,。隨著推理計算量增加,,DeepSeek-GRM-27B展現(xiàn)出進(jìn)一步提升性能的潛力,。meta RM也在每個基準(zhǔn)測試中證明了其過濾低質(zhì)量軌跡的有效性。
消融研究表明,,即使沒有使用拒絕采樣的評論數(shù)據(jù)進(jìn)行冷啟動,,經(jīng)過在線強(qiáng)化學(xué)習(xí)后,通用指令調(diào)整的GRM仍然顯著提升,。非提示采樣似乎比提示采樣更重要,可能是因為提示采樣軌跡中出現(xiàn)了捷徑,。這表明在線訓(xùn)練對GRM的重要性,。原則生成對DeepSeek-GRM-27B的貪婪解碼和推理時擴(kuò)展性能都至關(guān)重要。在推理時擴(kuò)展中,,meta RM指導(dǎo)的投票在不同k_meta下表現(xiàn)出魯棒性,。
研究團(tuán)隊進(jìn)一步研究了DeepSeek-GRM-27B在不同規(guī)模LLM后訓(xùn)練下的推理時和訓(xùn)練時擴(kuò)展性能。使用32個樣本直接投票的DeepSeek-GRM-27B可以達(dá)到與671B MoE模型相當(dāng)?shù)男阅?,而meta RM指導(dǎo)的投票僅用8個樣本就能取得最佳結(jié)果,,證明了DeepSeek-GRM-27B在推理時擴(kuò)展上的有效性,優(yōu)于單純擴(kuò)大模型規(guī)模,。
英偉達(dá)在NVIDIA GTC 2025上宣布,其NVIDIA Blackwell DGX系統(tǒng)創(chuàng)下DeepSeek-R1大模型推理性能的世界紀(jì)錄
2025-03-20 09:03:59英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄DeepSeek震動硅谷,,其高性價比的訓(xùn)練技術(shù)引發(fā)了市場的廣泛關(guān)注
2025-02-02 11:44:50DeepSeek利好哪些AI基建產(chǎn)業(yè)鏈環(huán)節(jié)