專家并行策略將MoE架構(gòu)下的各個(gè)“專家”子模型部署到不同的GPU或計(jì)算節(jié)點(diǎn)上,,使其獨(dú)立運(yùn)算,。DeepSeek團(tuán)隊(duì)在訓(xùn)練中所使用的EP策略中引入了無輔助損耗的負(fù)載平衡,通過動(dòng)態(tài)偏置項(xiàng)實(shí)現(xiàn)對(duì)每個(gè)專家的訓(xùn)練程度的平衡,。
雙重流水線策略通過將一個(gè)較大數(shù)據(jù)批次分解為多個(gè)微批次,,減少了計(jì)算設(shè)備的空閑時(shí)間。DeepSeek團(tuán)隊(duì)在傳統(tǒng)PP策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual Pipe技術(shù),,有效地融合了前向和后向計(jì)算加速通信,。
PTX代碼加持為硬件工程化創(chuàng)新帶來進(jìn)一步可能。DS團(tuán)隊(duì)在實(shí)施硬件工程優(yōu)化的過程中使用了PTX代碼,,顯著提升了CUDA程序的可移植性和硬件調(diào)度效率,。PTX指令集可以實(shí)現(xiàn)矩陣乘法加速、數(shù)據(jù)精度轉(zhuǎn)化等多項(xiàng)硬件調(diào)度優(yōu)化方向,。
未來計(jì)算架構(gòu)設(shè)計(jì)可能會(huì)受到稀疏化MLP層的影響,,芯片架構(gòu)可能發(fā)生變化,設(shè)計(jì)針對(duì)不同MLP層的定制化架構(gòu)加速專家運(yùn)算,。通信設(shè)計(jì)方面,,MoE架構(gòu)下的專家并行并不一定減少高速通信的需求,具體問題需要具體分析,。
對(duì)于訓(xùn)練硬件市場(chǎng)需求的變化,,DS團(tuán)隊(duì)的創(chuàng)新成果使得“大模型平權(quán)”成為可能。盡管短期內(nèi)更大的邊際成本投入不會(huì)停止,,但開源模型的勝利加速了行業(yè)技術(shù)革新,,利好預(yù)訓(xùn)練硬件需求。后訓(xùn)練方面,,GRPO算法的引入使得DS團(tuán)隊(duì)找到了讓模型自我學(xué)習(xí)的方法,,加速了后訓(xùn)練端算力需求釋放,。
國產(chǎn)算力支持DeepSeek訓(xùn)練存在一些挑戰(zhàn),尤其是缺少對(duì)FP8精度的支持,??梢酝ㄟ^多級(jí)路由實(shí)現(xiàn)更精細(xì)化的專家顆粒度,解決部分問題,。通信庫的優(yōu)化也非常重要,,第三方AI基礎(chǔ)設(shè)施企業(yè)的商業(yè)機(jī)會(huì)與價(jià)值也會(huì)被凸顯出來。
風(fēng)險(xiǎn)包括生成式AI模型創(chuàng)新不及預(yù)期,、AI算力硬件技術(shù)迭代不及預(yù)期以及AI應(yīng)用落地進(jìn)展不及預(yù)期,。這些因素都可能影響技術(shù)迭代與產(chǎn)業(yè)升級(jí)進(jìn)程。
中國國產(chǎn)大模型Deepseek在硅谷引起了轟動(dòng),。從斯坦福到麻省理工,Deepseek R1幾乎一夜之間成為美國頂尖大學(xué)研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek