DeepSeek-R1 引起廣泛關注的原因在于其獨特的技術路線和開源策略。劉知遠指出,,DeepSeek 是全球首個通過純強化學習技術成功復現(xiàn) o1 能力并開源相關技術細節(jié)的團隊,。R1 基于 Deep Seek-V3 的基礎模型,,通過大規(guī)模強化學習增強推理能力,,并將強推理能力泛化到其他領域。此外,,DeepSeek 選擇了開源的道路,,這一決定具有深遠的戰(zhàn)略意義,展示了“有限算力+算法創(chuàng)新”的發(fā)展模式,。
除了算法層面的創(chuàng)新,,DeepSeek 降低訓練成本的方法也是引起關注的重要原因。翟季冬從系統(tǒng)軟件層面分析了 DeepSeek 降低訓練成本的方法,。DeepSeek 開發(fā)了并行訓練框架 HAI-LLM,,采用了 16 路流水線并行、64 路專家并行 (跨越 8 個物理節(jié)點) 和基于 ZeRO-1 的數(shù)據(jù)并行方案,。DeepSeek 針對系統(tǒng)的負載均衡,、通信優(yōu)化、內(nèi)存管理和計算優(yōu)化進行了深度優(yōu)化,。
戴國浩從軟硬件協(xié)同視角分析了 DeepSeek 的未來方向,。他指出,了解硬件細節(jié),、極致底層優(yōu)化、打通軟件硬件,、聯(lián)合協(xié)同優(yōu)化是關鍵,。DeepSeek 的成功證明,通過系統(tǒng)架構的優(yōu)化結合國產(chǎn)芯片和硬件,,中國的 AI 技術完全可以逐步超越國際競爭者,。
研討會上,專家們討論了 MoE 架構是否是當前最優(yōu)解的問題,。劉知遠認為這是一個開放性的問題,,技術在不斷變化。翟季冬強調(diào)技術在不停地變化,,新的技術可能會顛覆現(xiàn)有技術,。戴國浩從歷史角度分析了神經(jīng)網(wǎng)絡的發(fā)展,指出 MoE 在當前取得了不錯的效果,,但不是最優(yōu)解,。
復旦大學教授梁永安是一位年輕人頗為喜歡的“專家”,,經(jīng)常在網(wǎng)絡上給“95后”、“00后”解答人生煩惱,。
2024-10-30 10:42:24復旦教授提倡有條件年輕人啃幾年老