DeepSeek公布推理新論文提升獎勵模型可擴(kuò)展性

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-04-05 15:41:35 澎湃新聞

DeepSeek R2的研究成果已經(jīng)接近,。最近,，DeepSeek和清華大學(xué)的研究者發(fā)表了一篇論文，探討了獎勵模型在推理時的Scaling方法,。

強(qiáng)化學(xué)習(xí)（RL）已廣泛應(yīng)用于大規(guī)模語言模型（LLM）的后訓(xùn)練階段。通過RL激勵LLM的推理能力表明,，采用合適的學(xué)習(xí)方法可以實(shí)現(xiàn)有效的推理時可擴(kuò)展性,。然而，RL面臨的一個關(guān)鍵挑戰(zhàn)是在多種領(lǐng)域中為LLM獲得準(zhǔn)確的獎勵信號,。

研究者發(fā)現(xiàn),，在獎勵建模（RM）方法上采用點(diǎn)式生成式獎勵建模（GRM），可以提升模型對不同輸入類型的靈活適應(yīng)能力,，并具備推理階段可擴(kuò)展的潛力,。為此，他們提出了一種自我原則點(diǎn)評調(diào)優(yōu)（SPCT）的學(xué)習(xí)方法,。這種方法通過在線RL訓(xùn)練促進(jìn)GRM生成具備可擴(kuò)展獎勵能力的行為,，即能夠自適應(yīng)生成評判原則并準(zhǔn)確生成點(diǎn)評內(nèi)容，從而得到DeepSeek-GRM模型,。

DeepSeek-GRM-27B是基于Gemma-2-27B經(jīng)過SPCT后訓(xùn)練的,。實(shí)驗(yàn)結(jié)果表明，SPCT顯著提高了GRM的質(zhì)量和可擴(kuò)展性,，在多個綜合RM基準(zhǔn)測試中優(yōu)于現(xiàn)有方法和模型,。研究者還比較了DeepSeek-GRM-27B與671B更大模型的推理時間擴(kuò)展性能，發(fā)現(xiàn)它在模型大小上的訓(xùn)練時間擴(kuò)展性能更好。此外,，他們引入了一個元獎勵模型（meta RM）來引導(dǎo)投票過程,，以提升擴(kuò)展性能。

研究者的貢獻(xiàn)包括：提出了一種新方法——自我原則點(diǎn)評調(diào)優(yōu)（SPCT）,，用于推動通用獎勵建模在推理階段實(shí)現(xiàn)有效的可擴(kuò)展性,；SPCT顯著提升了GRM在獎勵質(zhì)量和推理擴(kuò)展性能方面的表現(xiàn)，超過了現(xiàn)有方法及多個強(qiáng)勁的公開模型,；將SPCT的訓(xùn)練流程應(yīng)用于更大規(guī)模的LLM,，并發(fā)現(xiàn)相比于訓(xùn)練階段擴(kuò)大模型參數(shù)量，推理階段的擴(kuò)展策略在性能上更具優(yōu)勢,。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek公布推理新論文 提升獎勵模型可擴(kuò)展性

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek公布推理新論文提升獎勵模型可擴(kuò)展性