揭秘DeepSeek內幕,,為什么強化學習是下一個 Scaling Law,?近期,中國企業(yè)DeepSeek(以下簡稱DS)全面開源了其創(chuàng)新成果,,引發(fā)了市場對生成式AI技術發(fā)展與算力硬件需求的熱烈討論,。DS的V3版本模型以僅1/10訓練成本消耗便獲得了與海外領先模型GPT-4o/Llama3.3對標的能力,并通過對V3同一基礎模型的后訓練,,獲得了能力對齊GPT-o1的R1模型,。這種創(chuàng)新在中美貿易摩擦背景下AI硬件采購受限的情況下顯得尤為重要,它并未提出任何反“Scaling Law”的趨勢,,而是通過提高全行業(yè)算力資源使用效率來創(chuàng)造更大的需求,。
DS V3通過多種方式優(yōu)化算力使用:在MLP層引入稀疏化的MoE架構,,只需根據(jù)輸入數(shù)據(jù)特點調動部分專家模型進行處理,無需復用所有參數(shù),;引入FP8精度訓練,,采用MTP(多token生成)優(yōu)化訓練效率;在后訓練階段簡化模型數(shù)量,,優(yōu)化獎勵機制,,獨創(chuàng)GRPO算法為強化學習提供方向。
PTX代碼的加持進一步釋放了硬件使用效率。確定創(chuàng)新的模型網(wǎng)絡結構后,,有針對性地設計和優(yōu)化AI基礎設施變得迫切,。DS團隊具有軟硬件一體化系統(tǒng)性的思考能力,這為其成功提供了重要支持,。隨著“大模型平權”帶來的進一步硬件需求釋放,,未來AI基礎設施的重要性有望日益凸顯。
MoE結構可能帶來對處理器架構的定制化需求,如更大的計算單元,、高效的通信內核和近存計算單元等,。雖然大量使用專家并行減少了張量并行,但并不能證明高速互聯(lián)需求在更強基礎模型訓練中呈下降趨勢,。國產算力若要運行訓練場景,,需對FP8數(shù)據(jù)類型及高算力做好進一步支持,。
中國國產大模型Deepseek在硅谷引起了轟動,。從斯坦福到麻省理工,Deepseek R1幾乎一夜之間成為美國頂尖大學研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產大模型DeepSeek