揭秘DeepSeek內(nèi)幕,，為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law？創(chuàng)新引領(lǐng)算力革命(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-28 10:21:35 新浪財(cái)經(jīng)

專家并行策略將MoE架構(gòu)下的各個(gè)“專家”子模型部署到不同的GPU或計(jì)算節(jié)點(diǎn)上,，使其獨(dú)立運(yùn)算,。DeepSeek團(tuán)隊(duì)在訓(xùn)練中所使用的EP策略中引入了無輔助損耗的負(fù)載平衡，通過動(dòng)態(tài)偏置項(xiàng)實(shí)現(xiàn)對(duì)每個(gè)專家的訓(xùn)練程度的平衡,。

雙重流水線策略通過將一個(gè)較大數(shù)據(jù)批次分解為多個(gè)微批次,，減少了計(jì)算設(shè)備的空閑時(shí)間。DeepSeek團(tuán)隊(duì)在傳統(tǒng)PP策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual Pipe技術(shù),，有效地融合了前向和后向計(jì)算加速通信,。

PTX代碼加持為硬件工程化創(chuàng)新帶來進(jìn)一步可能。DS團(tuán)隊(duì)在實(shí)施硬件工程優(yōu)化的過程中使用了PTX代碼,，顯著提升了CUDA程序的可移植性和硬件調(diào)度效率,。PTX指令集可以實(shí)現(xiàn)矩陣乘法加速、數(shù)據(jù)精度轉(zhuǎn)化等多項(xiàng)硬件調(diào)度優(yōu)化方向,。

未來計(jì)算架構(gòu)設(shè)計(jì)可能會(huì)受到稀疏化MLP層的影響,，芯片架構(gòu)可能發(fā)生變化，設(shè)計(jì)針對(duì)不同MLP層的定制化架構(gòu)加速專家運(yùn)算,。通信設(shè)計(jì)方面,，MoE架構(gòu)下的專家并行并不一定減少高速通信的需求，具體問題需要具體分析,。

對(duì)于訓(xùn)練硬件市場(chǎng)需求的變化,，DS團(tuán)隊(duì)的創(chuàng)新成果使得“大模型平權(quán)”成為可能。盡管短期內(nèi)更大的邊際成本投入不會(huì)停止,，但開源模型的勝利加速了行業(yè)技術(shù)革新,，利好預(yù)訓(xùn)練硬件需求。后訓(xùn)練方面,，GRPO算法的引入使得DS團(tuán)隊(duì)找到了讓模型自我學(xué)習(xí)的方法,，加速了后訓(xùn)練端算力需求釋放,。

國產(chǎn)算力支持DeepSeek訓(xùn)練存在一些挑戰(zhàn)，尤其是缺少對(duì)FP8精度的支持,?？梢酝ㄟ^多級(jí)路由實(shí)現(xiàn)更精細(xì)化的專家顆粒度，解決部分問題,。通信庫的優(yōu)化也非常重要,，第三方AI基礎(chǔ)設(shè)施企業(yè)的商業(yè)機(jī)會(huì)與價(jià)值也會(huì)被凸顯出來。

風(fēng)險(xiǎn)包括生成式AI模型創(chuàng)新不及預(yù)期,、AI算力硬件技術(shù)迭代不及預(yù)期以及AI應(yīng)用落地進(jìn)展不及預(yù)期,。這些因素都可能影響技術(shù)迭代與產(chǎn)業(yè)升級(jí)進(jìn)程。

首頁上一頁 1 23共 3 頁

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

揭秘DeepSeek內(nèi)幕,，為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law？ 創(chuàng)新引領(lǐng)算力革命(3)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

揭秘DeepSeek內(nèi)幕,，為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law？創(chuàng)新引領(lǐng)算力革命(3)