復(fù)旦教授談DeepSeek AI界的“鯰魚”效應(yīng)(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-05 22:00:03 新浪新聞

R1 的訓(xùn)練分為四個(gè)關(guān)鍵階段：冷啟動(dòng)階段,、推理導(dǎo)向的強(qiáng)化學(xué)習(xí)階段,、拒絕抽樣與監(jiān)督微調(diào)階段,，以及全任務(wù)強(qiáng)化學(xué)習(xí)階段,。值得注意的是，R1 并未采用傳統(tǒng)的過程監(jiān)督或蒙特卡洛樹搜索等技術(shù),，而是通過 majority vote 大幅提高推理效果,。尤其令人意外的是，R1 在寫作能力方面表現(xiàn)突出,。

DeepSeek-R1 引起廣泛關(guān)注的原因在于其獨(dú)特的技術(shù)路線和開源策略,。劉知遠(yuǎn)指出，DeepSeek 是全球首個(gè)通過純強(qiáng)化學(xué)習(xí)技術(shù)成功復(fù)現(xiàn) o1 能力并開源相關(guān)技術(shù)細(xì)節(jié)的團(tuán)隊(duì),。R1 基于 Deep Seek-V3 的基礎(chǔ)模型,，通過大規(guī)模強(qiáng)化學(xué)習(xí)增強(qiáng)推理能力，并將強(qiáng)推理能力泛化到其他領(lǐng)域,。此外,，DeepSeek 選擇了開源的道路，這一決定具有深遠(yuǎn)的戰(zhàn)略意義,，展示了“有限算力+算法創(chuàng)新”的發(fā)展模式,。

除了算法層面的創(chuàng)新，DeepSeek 降低訓(xùn)練成本的方法也是引起關(guān)注的重要原因,。翟季冬從系統(tǒng)軟件層面分析了 DeepSeek 降低訓(xùn)練成本的方法,。DeepSeek 開發(fā)了并行訓(xùn)練框架 HAI-LLM，采用了 16 路流水線并行,、64 路專家并行 (跨越 8 個(gè)物理節(jié)點(diǎn)) 和基于 ZeRO-1 的數(shù)據(jù)并行方案。DeepSeek 針對(duì)系統(tǒng)的負(fù)載均衡,、通信優(yōu)化,、內(nèi)存管理和計(jì)算優(yōu)化進(jìn)行了深度優(yōu)化,。

戴國浩從軟硬件協(xié)同視角分析了 DeepSeek 的未來方向。他指出,，了解硬件細(xì)節(jié),、極致底層優(yōu)化、打通軟件硬件,、聯(lián)合協(xié)同優(yōu)化是關(guān)鍵,。DeepSeek 的成功證明，通過系統(tǒng)架構(gòu)的優(yōu)化結(jié)合國產(chǎn)芯片和硬件,，中國的 AI 技術(shù)完全可以逐步超越國際競爭者,。

研討會(huì)上，專家們討論了 MoE 架構(gòu)是否是當(dāng)前最優(yōu)解的問題,。劉知遠(yuǎn)認(rèn)為這是一個(gè)開放性的問題,，技術(shù)在不斷變化。翟季冬強(qiáng)調(diào)技術(shù)在不停地變化,，新的技術(shù)可能會(huì)顛覆現(xiàn)有技術(shù),。戴國浩從歷史角度分析了神經(jīng)網(wǎng)絡(luò)的發(fā)展，指出 MoE 在當(dāng)前取得了不錯(cuò)的效果,，但不是最優(yōu)解,。

DeepSeek-R1 的出現(xiàn)標(biāo)志著 AI 領(lǐng)域格局的重要轉(zhuǎn)變。美國目前仍占據(jù)領(lǐng)先地位,，但形勢正在發(fā)生微妙變化,。DeepSeek 展現(xiàn)的高效創(chuàng)新路徑或?qū)⒅匦露x AI 發(fā)展的范式。

首頁上一頁 12共 2 頁

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

復(fù)旦教授談DeepSeek AI界的“鯰魚”效應(yīng)(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)