揭秘DeepSeek內(nèi)幕,，為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law,？創(chuàng)新引領(lǐng)算力革命

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-28 10:21:35 新浪財(cái)經(jīng)

揭秘DeepSeek內(nèi)幕,，為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law,？近期,，中國(guó)企業(yè)DeepSeek（以下簡(jiǎn)稱DS）全面開源了其創(chuàng)新成果,，引發(fā)了市場(chǎng)對(duì)生成式AI技術(shù)發(fā)展與算力硬件需求的熱烈討論,。DS的V3版本模型以僅1/10訓(xùn)練成本消耗便獲得了與海外領(lǐng)先模型GPT-4o/Llama3.3對(duì)標(biāo)的能力,，并通過對(duì)V3同一基礎(chǔ)模型的后訓(xùn)練,，獲得了能力對(duì)齊GPT-o1的R1模型,。這種創(chuàng)新在中美貿(mào)易摩擦背景下AI硬件采購(gòu)受限的情況下顯得尤為重要，它并未提出任何反“Scaling Law”的趨勢(shì),，而是通過提高全行業(yè)算力資源使用效率來創(chuàng)造更大的需求,。

DS V3通過多種方式優(yōu)化算力使用：在MLP層引入稀疏化的MoE架構(gòu)，只需根據(jù)輸入數(shù)據(jù)特點(diǎn)調(diào)動(dòng)部分專家模型進(jìn)行處理,，無需復(fù)用所有參數(shù),；引入FP8精度訓(xùn)練，采用MTP（多token生成）優(yōu)化訓(xùn)練效率,；在后訓(xùn)練階段簡(jiǎn)化模型數(shù)量,，優(yōu)化獎(jiǎng)勵(lì)機(jī)制，獨(dú)創(chuàng)GRPO算法為強(qiáng)化學(xué)習(xí)提供方向,。

PTX代碼的加持進(jìn)一步釋放了硬件使用效率,。確定創(chuàng)新的模型網(wǎng)絡(luò)結(jié)構(gòu)后，有針對(duì)性地設(shè)計(jì)和優(yōu)化AI基礎(chǔ)設(shè)施變得迫切,。DS團(tuán)隊(duì)具有軟硬件一體化系統(tǒng)性的思考能力,，這為其成功提供了重要支持。隨著“大模型平權(quán)”帶來的進(jìn)一步硬件需求釋放,，未來AI基礎(chǔ)設(shè)施的重要性有望日益凸顯,。

MoE結(jié)構(gòu)可能帶來對(duì)處理器架構(gòu)的定制化需求,，如更大的計(jì)算單元、高效的通信內(nèi)核和近存計(jì)算單元等,。雖然大量使用專家并行減少了張量并行,，但并不能證明高速互聯(lián)需求在更強(qiáng)基礎(chǔ)模型訓(xùn)練中呈下降趨勢(shì)。國(guó)產(chǎn)算力若要運(yùn)行訓(xùn)練場(chǎng)景,，需對(duì)FP8數(shù)據(jù)類型及高算力做好進(jìn)一步支持,。

分析顯示，DeepSeek在模型訓(xùn)練過程中引入了多項(xiàng)創(chuàng)新,。堅(jiān)定不移延續(xù)MoE路徑,，稀疏化架構(gòu)減少算力消耗。MoE最早在1991年被提出,，是一種網(wǎng)絡(luò)層結(jié)構(gòu),，主要由專家網(wǎng)絡(luò)、門控網(wǎng)絡(luò)與選擇器組成,。DeepSeek在訓(xùn)練上采用稀疏MoE架構(gòu),，其門控機(jī)制僅激活少數(shù)設(shè)備上的少量專家，在擴(kuò)大模型容量同時(shí)控制訓(xùn)練資源消耗,。

實(shí)證結(jié)果表明,，DeepSeek MoE 2B的性能與GShard 2.9B相當(dāng)，而后者專家參數(shù)量和計(jì)算量均為前者的1.5倍,。擴(kuò)展至16B參數(shù)規(guī)模時(shí),，DeepSeek MoE的性能與LLaMA2 7B相當(dāng)，而計(jì)算量?jī)H需后者的約40%,。在145B參數(shù)規(guī)模的初步實(shí)驗(yàn)中,，DeepSeek MoE較GShard展現(xiàn)出顯著優(yōu)勢(shì)，性能媲美DeepSeek 67B,，而計(jì)算量?jī)H需后者的28.5%,。

采用FP8精度訓(xùn)練，節(jié)省計(jì)算單元占用,，進(jìn)而節(jié)省算力資源,。低數(shù)據(jù)精度訓(xùn)練是降低訓(xùn)練成本的較有前景的方向之一。通常的大模型訓(xùn)練會(huì)采用BF16或FP32/TF32精度作為數(shù)據(jù)計(jì)算和存儲(chǔ)的格式,，相比之下,，F(xiàn)P8占用的數(shù)據(jù)位寬僅為FP32的1/4，F(xiàn)P16的1/2,，可以有力地提升計(jì)算速度,，降低對(duì)存儲(chǔ)的消耗。DeepSeek團(tuán)隊(duì)在訓(xùn)練DeepSeek-V3時(shí),，采用的是混合精度框架,，大部分密集計(jì)算操作都以FP8格式進(jìn)行,，而少數(shù)關(guān)鍵操作則策略性地保留其原始數(shù)據(jù)格式，以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性,。

采用MTP方法,，多token預(yù)測(cè)提高模型訓(xùn)練效率。Meta發(fā)布的論文《Better & Faster Large Language Models via Multi-token Prediction》提出了讓大模型一次性預(yù)測(cè)多個(gè)token,，并依據(jù)多個(gè)token計(jì)算損失的方法,。在訓(xùn)練中使用MTP技術(shù)主要會(huì)通過增加給定數(shù)據(jù)量下獲得的訓(xùn)練信號(hào)密度和改變傳統(tǒng)模型的計(jì)算模式來降低模型的訓(xùn)練成本。

后訓(xùn)練階段引入GRPO算法,，拋棄MCTS等傳統(tǒng)方法,，優(yōu)化算力開銷,。DeepSeek團(tuán)隊(duì)首次提出了GRPO的概念并將其應(yīng)用于強(qiáng)化學(xué)習(xí)過程中,，指出應(yīng)用了GRPO技術(shù)的強(qiáng)化學(xué)習(xí)對(duì)于強(qiáng)化LLMs的數(shù)學(xué)推理能力非常有效。在訓(xùn)練R1-Zero的過程中,，DeepSeek團(tuán)隊(duì)完全依賴于應(yīng)用了GRPO技術(shù)的強(qiáng)化學(xué)習(xí),。

硬件工程化創(chuàng)新方面，隨著大模型不斷發(fā)展,，全球各團(tuán)隊(duì)面臨模型參數(shù)越來越大,、數(shù)據(jù)量越來越多的問題。單臺(tái)計(jì)算設(shè)備難以獨(dú)自滿足大模型的要求,，使用多臺(tái)設(shè)備同時(shí)運(yùn)算的“分布式并行”策略成為主流選擇,。DeepSeek團(tuán)隊(duì)在硬件工程優(yōu)化中使用了PTX代碼，顯著提升了CUDA程序的可移植性,，便于優(yōu)化和精確控制硬件調(diào)度,。

專家并行策略將MoE架構(gòu)下的各個(gè)“專家”子模型部署到不同的GPU或計(jì)算節(jié)點(diǎn)上，使其獨(dú)立運(yùn)算,。DeepSeek團(tuán)隊(duì)在訓(xùn)練中所使用的EP策略中引入了無輔助損耗的負(fù)載平衡,，通過動(dòng)態(tài)偏置項(xiàng)實(shí)現(xiàn)對(duì)每個(gè)專家的訓(xùn)練程度的平衡。

雙重流水線策略通過將一個(gè)較大數(shù)據(jù)批次分解為多個(gè)微批次,，減少了計(jì)算設(shè)備的空閑時(shí)間,。DeepSeek團(tuán)隊(duì)在傳統(tǒng)PP策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual Pipe技術(shù)，有效地融合了前向和后向計(jì)算加速通信,。

PTX代碼加持為硬件工程化創(chuàng)新帶來進(jìn)一步可能,。DS團(tuán)隊(duì)在實(shí)施硬件工程優(yōu)化的過程中使用了PTX代碼，顯著提升了CUDA程序的可移植性和硬件調(diào)度效率,。PTX指令集可以實(shí)現(xiàn)矩陣乘法加速,、數(shù)據(jù)精度轉(zhuǎn)化等多項(xiàng)硬件調(diào)度優(yōu)化方向。

未來計(jì)算架構(gòu)設(shè)計(jì)可能會(huì)受到稀疏化MLP層的影響,，芯片架構(gòu)可能發(fā)生變化,，設(shè)計(jì)針對(duì)不同MLP層的定制化架構(gòu)加速專家運(yùn)算,。通信設(shè)計(jì)方面，MoE架構(gòu)下的專家并行并不一定減少高速通信的需求,，具體問題需要具體分析,。

對(duì)于訓(xùn)練硬件市場(chǎng)需求的變化，DS團(tuán)隊(duì)的創(chuàng)新成果使得“大模型平權(quán)”成為可能,。盡管短期內(nèi)更大的邊際成本投入不會(huì)停止,，但開源模型的勝利加速了行業(yè)技術(shù)革新，利好預(yù)訓(xùn)練硬件需求,。后訓(xùn)練方面,，GRPO算法的引入使得DS團(tuán)隊(duì)找到了讓模型自我學(xué)習(xí)的方法，加速了后訓(xùn)練端算力需求釋放,。

國(guó)產(chǎn)算力支持DeepSeek訓(xùn)練存在一些挑戰(zhàn),，尤其是缺少對(duì)FP8精度的支持?？梢酝ㄟ^多級(jí)路由實(shí)現(xiàn)更精細(xì)化的專家顆粒度,，解決部分問題。通信庫的優(yōu)化也非常重要,，第三方AI基礎(chǔ)設(shè)施企業(yè)的商業(yè)機(jī)會(huì)與價(jià)值也會(huì)被凸顯出來,。

風(fēng)險(xiǎn)包括生成式AI模型創(chuàng)新不及預(yù)期、AI算力硬件技術(shù)迭代不及預(yù)期以及AI應(yīng)用落地進(jìn)展不及預(yù)期,。這些因素都可能影響技術(shù)迭代與產(chǎn)業(yè)升級(jí)進(jìn)程,。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

揭秘DeepSeek內(nèi)幕,，為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law,？ 創(chuàng)新引領(lǐng)算力革命

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

揭秘DeepSeek內(nèi)幕,，為什么強(qiáng)化學(xué)習(xí)是下一個(gè) Scaling Law,？創(chuàng)新引領(lǐng)算力革命