揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law,?近期,中國(guó)企業(yè)DeepSeek(以下簡(jiǎn)稱DS)全面開源了其創(chuàng)新成果,,引發(fā)了市場(chǎng)對(duì)生成式AI技術(shù)發(fā)展與算力硬件需求的熱烈討論,。DS的V3版本模型以僅1/10訓(xùn)練成本消耗便獲得了與海外領(lǐng)先模型GPT-4o/Llama3.3對(duì)標(biāo)的能力,并通過對(duì)V3同一基礎(chǔ)模型的后訓(xùn)練,,獲得了能力對(duì)齊GPT-o1的R1模型,。這種創(chuàng)新在中美貿(mào)易摩擦背景下AI硬件采購(gòu)受限的情況下顯得尤為重要,它并未提出任何反“Scaling Law”的趨勢(shì),,而是通過提高全行業(yè)算力資源使用效率來創(chuàng)造更大的需求,。
DS V3通過多種方式優(yōu)化算力使用:在MLP層引入稀疏化的MoE架構(gòu),,只需根據(jù)輸入數(shù)據(jù)特點(diǎn)調(diào)動(dòng)部分專家模型進(jìn)行處理,無(wú)需復(fù)用所有參數(shù),;引入FP8精度訓(xùn)練,,采用MTP(多token生成)優(yōu)化訓(xùn)練效率;在后訓(xùn)練階段簡(jiǎn)化模型數(shù)量,,優(yōu)化獎(jiǎng)勵(lì)機(jī)制,,獨(dú)創(chuàng)GRPO算法為強(qiáng)化學(xué)習(xí)提供方向。
PTX代碼的加持進(jìn)一步釋放了硬件使用效率,。確定創(chuàng)新的模型網(wǎng)絡(luò)結(jié)構(gòu)后,,有針對(duì)性地設(shè)計(jì)和優(yōu)化AI基礎(chǔ)設(shè)施變得迫切。DS團(tuán)隊(duì)具有軟硬件一體化系統(tǒng)性的思考能力,,這為其成功提供了重要支持,。隨著“大模型平權(quán)”帶來的進(jìn)一步硬件需求釋放,未來AI基礎(chǔ)設(shè)施的重要性有望日益凸顯,。
MoE結(jié)構(gòu)可能帶來對(duì)處理器架構(gòu)的定制化需求,,如更大的計(jì)算單元、高效的通信內(nèi)核和近存計(jì)算單元等,。雖然大量使用專家并行減少了張量并行,,但并不能證明高速互聯(lián)需求在更強(qiáng)基礎(chǔ)模型訓(xùn)練中呈下降趨勢(shì)。國(guó)產(chǎn)算力若要運(yùn)行訓(xùn)練場(chǎng)景,,需對(duì)FP8數(shù)據(jù)類型及高算力做好進(jìn)一步支持,。
分析顯示,DeepSeek在模型訓(xùn)練過程中引入了多項(xiàng)創(chuàng)新,。堅(jiān)定不移延續(xù)MoE路徑,,稀疏化架構(gòu)減少算力消耗。MoE最早在1991年被提出,,是一種網(wǎng)絡(luò)層結(jié)構(gòu),,主要由專家網(wǎng)絡(luò)、門控網(wǎng)絡(luò)與選擇器組成,。DeepSeek在訓(xùn)練上采用稀疏MoE架構(gòu),,其門控機(jī)制僅激活少數(shù)設(shè)備上的少量專家,在擴(kuò)大模型容量同時(shí)控制訓(xùn)練資源消耗,。