研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)元獎(jiǎng)勵(lì)模型(meta RM)來引導(dǎo)投票過程,。這個(gè)meta RM是一個(gè)逐點(diǎn)標(biāo)量模型,,訓(xùn)練目標(biāo)是判斷DeepSeek-GRM生成的原則和評(píng)論是否正確。引導(dǎo)投票的實(shí)現(xiàn)很簡(jiǎn)單:meta RM為k個(gè)采樣獎(jiǎng)勵(lì)輸出元獎(jiǎng)勵(lì),,然后從這些獎(jiǎng)勵(lì)中選出前k_meta個(gè)高質(zhì)量的獎(jiǎng)勵(lì)進(jìn)行最終投票,,從而過濾掉低質(zhì)量樣本,。
結(jié)果顯示,DeepSeek-GRM-27B在整體性能上超過了基線方法,,并且與一些強(qiáng)大的公開RM表現(xiàn)相當(dāng),。如果通過推理時(shí)擴(kuò)展,DeepSeek-GRM-27B還能進(jìn)一步提升,,達(dá)到最佳整體結(jié)果,。隨著推理計(jì)算量增加,DeepSeek-GRM-27B展現(xiàn)出進(jìn)一步提升性能的潛力,。meta RM也在每個(gè)基準(zhǔn)測(cè)試中證明了其過濾低質(zhì)量軌跡的有效性,。
消融研究表明,即使沒有使用拒絕采樣的評(píng)論數(shù)據(jù)進(jìn)行冷啟動(dòng),,經(jīng)過在線強(qiáng)化學(xué)習(xí)后,,通用指令調(diào)整的GRM仍然顯著提升。非提示采樣似乎比提示采樣更重要,,可能是因?yàn)樘崾静蓸榆壽E中出現(xiàn)了捷徑,。這表明在線訓(xùn)練對(duì)GRM的重要性。原則生成對(duì)DeepSeek-GRM-27B的貪婪解碼和推理時(shí)擴(kuò)展性能都至關(guān)重要,。在推理時(shí)擴(kuò)展中,,meta RM指導(dǎo)的投票在不同k_meta下表現(xiàn)出魯棒性。
英偉達(dá)在NVIDIA GTC 2025上宣布,,其NVIDIA Blackwell DGX系統(tǒng)創(chuàng)下DeepSeek-R1大模型推理性能的世界紀(jì)錄
2025-03-20 09:03:59英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄DeepSeek震動(dòng)硅谷,,其高性價(jià)比的訓(xùn)練技術(shù)引發(fā)了市場(chǎng)的廣泛關(guān)注
2025-02-02 11:44:50DeepSeek利好哪些AI基建產(chǎn)業(yè)鏈環(huán)節(jié)