DeepSeek R2的研究成果已經(jīng)接近,。最近,,DeepSeek和清華大學(xué)的研究者發(fā)表了一篇論文,探討了獎勵模型在推理時的Scaling方法,。
強(qiáng)化學(xué)習(xí)(RL)已廣泛應(yīng)用于大規(guī)模語言模型(LLM)的后訓(xùn)練階段,。通過RL激勵LLM的推理能力表明,,采用合適的學(xué)習(xí)方法可以實(shí)現(xiàn)有效的推理時可擴(kuò)展性。然而,,RL面臨的一個關(guān)鍵挑戰(zhàn)是在多種領(lǐng)域中為LLM獲得準(zhǔn)確的獎勵信號,。
研究者發(fā)現(xiàn),在獎勵建模(RM)方法上采用點(diǎn)式生成式獎勵建模(GRM),,可以提升模型對不同輸入類型的靈活適應(yīng)能力,,并具備推理階段可擴(kuò)展的潛力。為此,,他們提出了一種自我原則點(diǎn)評調(diào)優(yōu)(SPCT)的學(xué)習(xí)方法,。這種方法通過在線RL訓(xùn)練促進(jìn)GRM生成具備可擴(kuò)展獎勵能力的行為,即能夠自適應(yīng)生成評判原則并準(zhǔn)確生成點(diǎn)評內(nèi)容,,從而得到DeepSeek-GRM模型,。
DeepSeek-GRM-27B是基于Gemma-2-27B經(jīng)過SPCT后訓(xùn)練的。實(shí)驗(yàn)結(jié)果表明,,SPCT顯著提高了GRM的質(zhì)量和可擴(kuò)展性,,在多個綜合RM基準(zhǔn)測試中優(yōu)于現(xiàn)有方法和模型。研究者還比較了DeepSeek-GRM-27B與671B更大模型的推理時間擴(kuò)展性能,,發(fā)現(xiàn)它在模型大小上的訓(xùn)練時間擴(kuò)展性能更好,。此外,他們引入了一個元獎勵模型(meta RM)來引導(dǎo)投票過程,,以提升擴(kuò)展性能,。
英偉達(dá)在NVIDIA GTC 2025上宣布,,其NVIDIA Blackwell DGX系統(tǒng)創(chuàng)下DeepSeek-R1大模型推理性能的世界紀(jì)錄
2025-03-20 09:03:59英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄DeepSeek震動硅谷,其高性價比的訓(xùn)練技術(shù)引發(fā)了市場的廣泛關(guān)注
2025-02-02 11:44:50DeepSeek利好哪些AI基建產(chǎn)業(yè)鏈環(huán)節(jié)