DeepSeek推出了新模型DeepSeek-Prover-V2,專注于數(shù)學(xué)定理證明,,并在多項(xiàng)高難度基準(zhǔn)測試中刷新了記錄,。在普特南測試上,Prover-V2解決了49道題,,遠(yuǎn)超當(dāng)前第一名的10道和未針對定理證明優(yōu)化的DeepSeek-R1的1道,。
論文中特別提到“通過強(qiáng)化學(xué)習(xí)發(fā)現(xiàn)新技能”的現(xiàn)象。例如,,在普特南測試中,,參數(shù)量較小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解決了13個671B模型未能解決的問題。團(tuán)隊(duì)檢查后發(fā)現(xiàn),,7B模型處理涉及有限基數(shù)的問題時,,經(jīng)常使用Cardinal.toNat和Cardinal.natCast_inj,,而671B模型沒有這些內(nèi)容。這表明7B模型學(xué)會了671B模型未學(xué)會的新技能,。
DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover,、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通過大規(guī)模合成數(shù)據(jù)集微調(diào)DeepSeek-Math-7B來推進(jìn)定理證明,。Prover-V1.5增加了證明助手反饋的強(qiáng)化學(xué)習(xí)(RLPAF)和蒙特卡洛樹搜索方法,。Prover-V2進(jìn)一步提出“子目標(biāo)分解的強(qiáng)化學(xué)習(xí)”,基礎(chǔ)模型從DeepSeek-Math-7B升級到DeepSeek-V3,,整合了高上下文窗口和強(qiáng)大的自然語言推理能力,,統(tǒng)一了形式化和非形式化數(shù)學(xué)證明。
Prover-V2還繼承了Prover-V1.5提出的CoT和非CoT生成兩種模式,。通過遞歸證明搜索合成冷啟動推理數(shù)據(jù),,利用DeepSeek-V3將定理分解為高級證明草圖并在Lean 4中形式化,從而產(chǎn)生一系列子目標(biāo),。使用70億參數(shù)模型處理每個子目標(biāo),,減輕計算負(fù)擔(dān)。一旦具有挑戰(zhàn)性的問題的分解步驟得到解決,,就將完整的逐步形式化證明與來自DeepSeek-V3的相應(yīng)思維鏈配對,,創(chuàng)建冷啟動推理數(shù)據(jù)。
12月23日(采訪)廣東廣州,男子用電鉆爆改刷鞋神器,,怕麻煩,,完全是為了省時省力,“感覺還挺干凈的,,思路對了,。”...
2024-12-24 10:52:18男子用電鉆爆改刷鞋神器3月1日,,賦音樂FUMUSIC 發(fā)文稱音樂人方大同于2025年2月21日去世,享年41歲,。消息發(fā)布后引發(fā)了廣泛關(guān)注和討論
2025-03-02 13:32:29方大同賬號被歌迷留言刷爆