科技圈從來不缺新聞,,但 DeepSeek-R1 的出現(xiàn)卻像一顆石子投入平靜的湖面,激起了層層漣漪,。這家來自中國的 AI 初創(chuàng)公司以其開源的推理大模型 R1 攪動了全球 AI 格局,。R1 不僅性能媲美甚至超越 OpenAI o1,還以低廉的成本和開放的姿態(tài)贏得了全世界的關注,。DeepSeek-R1 的開源策略和高效性能正在迫使整個行業(yè)重新思考 AI 的未來,。
中國計算機學會青年計算機科學與技術論壇(CCF YOCSEF)近期組織了一場研討會,邀請了復旦大學邱錫鵬教授,、清華大學劉知遠長聘副教授,、清華大學翟季冬教授以及上海交通大學戴國浩副教授四位專家,從不同角度深入解析了 DeepSeek-R1 的技術突破與未來影響,。
要理解 R1 的突破,,需要從 o1 類推理模型說起。邱錫鵬認為當前人工智能領域正面臨一個重要轉折點,。此前 Ilya 稱“預訓練時代可能即將結束”,,主要源于數據增長的停滯。OpenAI 開始轉向強化學習和推理式計算,,試圖通過增加推理長度來改進模型性能,,為下一代大模型的發(fā)展注入新動力。
o1 模型的訓練在強化學習框架下進行,,大語言模型充當一個 Agent,,每個動作生成下一個 token,最終生成整個 step 或 solution,。o1 這類大型推理模型可以分為四個核心要素:策略初始化,、獎勵函數設計、搜索策略和學習過程。策略初始化要求模型具備初始的類人推理行為能力,,包括問題理解,、任務分解及驗證和修正錯誤的能力。獎勵函數設計則涉及從環(huán)境中直接獲得獎勵信號或通過專家偏好數據訓練獎勵模型,。搜索策略包括基于樹的搜索和基于順序修改的搜索,。學習過程主要包括使用強化學習和其他方法優(yōu)化模型,分為預熱階段和強化學習階段,。
R1 發(fā)布了兩個版本:R1-Zero 和 R1,。R1-Zero 完全依靠強化學習驅動,不經過預熱階段,,沒有任何初始的人工調節(jié),。在訓練過程中,隨著步驟的增加,,模型逐漸展現(xiàn)出長文本推理能力,,尤其是長鏈推理,并表現(xiàn)出自我修正能力,。不過也存在一些問題,,如語言混合的問題。
R1 的訓練分為四個關鍵階段:冷啟動階段,、推理導向的強化學習階段,、拒絕抽樣與監(jiān)督微調階段,以及全任務強化學習階段,。值得注意的是,,R1 并未采用傳統(tǒng)的過程監(jiān)督或蒙特卡洛樹搜索等技術,而是通過 majority vote 大幅提高推理效果,。尤其令人意外的是,,R1 在寫作能力方面表現(xiàn)突出。
DeepSeek-R1 引起廣泛關注的原因在于其獨特的技術路線和開源策略,。劉知遠指出,,DeepSeek 是全球首個通過純強化學習技術成功復現(xiàn) o1 能力并開源相關技術細節(jié)的團隊。R1 基于 Deep Seek-V3 的基礎模型,,通過大規(guī)模強化學習增強推理能力,,并將強推理能力泛化到其他領域。此外,,DeepSeek 選擇了開源的道路,,這一決定具有深遠的戰(zhàn)略意義,展示了“有限算力+算法創(chuàng)新”的發(fā)展模式,。
除了算法層面的創(chuàng)新,,DeepSeek 降低訓練成本的方法也是引起關注的重要原因,。翟季冬從系統(tǒng)軟件層面分析了 DeepSeek 降低訓練成本的方法。DeepSeek 開發(fā)了并行訓練框架 HAI-LLM,,采用了 16 路流水線并行,、64 路專家并行 (跨越 8 個物理節(jié)點) 和基于 ZeRO-1 的數據并行方案。DeepSeek 針對系統(tǒng)的負載均衡,、通信優(yōu)化,、內存管理和計算優(yōu)化進行了深度優(yōu)化,。
戴國浩從軟硬件協(xié)同視角分析了 DeepSeek 的未來方向,。他指出,了解硬件細節(jié),、極致底層優(yōu)化,、打通軟件硬件、聯(lián)合協(xié)同優(yōu)化是關鍵,。DeepSeek 的成功證明,,通過系統(tǒng)架構的優(yōu)化結合國產芯片和硬件,中國的 AI 技術完全可以逐步超越國際競爭者,。
研討會上,,專家們討論了 MoE 架構是否是當前最優(yōu)解的問題。劉知遠認為這是一個開放性的問題,,技術在不斷變化,。翟季冬強調技術在不停地變化,新的技術可能會顛覆現(xiàn)有技術,。戴國浩從歷史角度分析了神經網絡的發(fā)展,,指出 MoE 在當前取得了不錯的效果,但不是最優(yōu)解,。
DeepSeek-R1 的出現(xiàn)標志著 AI 領域格局的重要轉變,。美國目前仍占據領先地位,但形勢正在發(fā)生微妙變化,。DeepSeek 展現(xiàn)的高效創(chuàng)新路徑或將重新定義 AI 發(fā)展的范式,。
復旦大學教授梁永安是一位年輕人頗為喜歡的“專家”,,經常在網絡上給“95后”、“00后”解答人生煩惱,。
2024-10-30 10:42:24復旦教授提倡有條件年輕人啃幾年老