專家并行策略將MoE架構(gòu)下的各個“專家”子模型部署到不同的GPU或計(jì)算節(jié)點(diǎn)上,,使其獨(dú)立運(yùn)算。DeepSeek團(tuán)隊(duì)在訓(xùn)練中所使用的EP策略中引入了無輔助損耗的負(fù)載平衡,,通過動態(tài)偏置項(xiàng)實(shí)現(xiàn)對每個專家的訓(xùn)練程度的平衡,。
雙重流水線策略通過將一個較大數(shù)據(jù)批次分解為多個微批次,減少了計(jì)算設(shè)備的空閑時間,。DeepSeek團(tuán)隊(duì)在傳統(tǒng)PP策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual Pipe技術(shù),,有效地融合了前向和后向計(jì)算加速通信。
PTX代碼加持為硬件工程化創(chuàng)新帶來進(jìn)一步可能,。DS團(tuán)隊(duì)在實(shí)施硬件工程優(yōu)化的過程中使用了PTX代碼,,顯著提升了CUDA程序的可移植性和硬件調(diào)度效率。PTX指令集可以實(shí)現(xiàn)矩陣乘法加速,、數(shù)據(jù)精度轉(zhuǎn)化等多項(xiàng)硬件調(diào)度優(yōu)化方向,。
未來計(jì)算架構(gòu)設(shè)計(jì)可能會受到稀疏化MLP層的影響,芯片架構(gòu)可能發(fā)生變化,,設(shè)計(jì)針對不同MLP層的定制化架構(gòu)加速專家運(yùn)算,。通信設(shè)計(jì)方面,MoE架構(gòu)下的專家并行并不一定減少高速通信的需求,,具體問題需要具體分析,。
對于訓(xùn)練硬件市場需求的變化,DS團(tuán)隊(duì)的創(chuàng)新成果使得“大模型平權(quán)”成為可能,。盡管短期內(nèi)更大的邊際成本投入不會停止,,但開源模型的勝利加速了行業(yè)技術(shù)革新,利好預(yù)訓(xùn)練硬件需求,。后訓(xùn)練方面,,GRPO算法的引入使得DS團(tuán)隊(duì)找到了讓模型自我學(xué)習(xí)的方法,加速了后訓(xùn)練端算力需求釋放,。
國產(chǎn)算力支持DeepSeek訓(xùn)練存在一些挑戰(zhàn),,尤其是缺少對FP8精度的支持??梢酝ㄟ^多級路由實(shí)現(xiàn)更精細(xì)化的專家顆粒度,,解決部分問題,。通信庫的優(yōu)化也非常重要,第三方AI基礎(chǔ)設(shè)施企業(yè)的商業(yè)機(jī)會與價值也會被凸顯出來,。
風(fēng)險包括生成式AI模型創(chuàng)新不及預(yù)期,、AI算力硬件技術(shù)迭代不及預(yù)期以及AI應(yīng)用落地進(jìn)展不及預(yù)期。這些因素都可能影響技術(shù)迭代與產(chǎn)業(yè)升級進(jìn)程,。
中國國產(chǎn)大模型Deepseek在硅谷引起了轟動。從斯坦福到麻省理工,,Deepseek R1幾乎一夜之間成為美國頂尖大學(xué)研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek