實證結(jié)果表明,DeepSeek MoE 2B的性能與GShard 2.9B相當(dāng),而后者專家參數(shù)量和計算量均為前者的1.5倍,。擴展至16B參數(shù)規(guī)模時,,DeepSeek MoE的性能與LLaMA2 7B相當(dāng),,而計算量僅需后者的約40%。在145B參數(shù)規(guī)模的初步實驗中,DeepSeek MoE較GShard展現(xiàn)出顯著優(yōu)勢,,性能媲美DeepSeek 67B,而計算量僅需后者的28.5%。
采用FP8精度訓(xùn)練,節(jié)省計算單元占用,進而節(jié)省算力資源,。低數(shù)據(jù)精度訓(xùn)練是降低訓(xùn)練成本的較有前景的方向之一。通常的大模型訓(xùn)練會采用BF16或FP32/TF32精度作為數(shù)據(jù)計算和存儲的格式,,相比之下,,F(xiàn)P8占用的數(shù)據(jù)位寬僅為FP32的1/4,F(xiàn)P16的1/2,,可以有力地提升計算速度,,降低對存儲的消耗。DeepSeek團隊在訓(xùn)練DeepSeek-V3時,,采用的是混合精度框架,,大部分密集計算操作都以FP8格式進行,而少數(shù)關(guān)鍵操作則策略性地保留其原始數(shù)據(jù)格式,,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性,。
采用MTP方法,,多token預(yù)測提高模型訓(xùn)練效率。Meta發(fā)布的論文《Better & Faster Large Language Models via Multi-token Prediction》提出了讓大模型一次性預(yù)測多個token,,并依據(jù)多個token計算損失的方法,。在訓(xùn)練中使用MTP技術(shù)主要會通過增加給定數(shù)據(jù)量下獲得的訓(xùn)練信號密度和改變傳統(tǒng)模型的計算模式來降低模型的訓(xùn)練成本。
后訓(xùn)練階段引入GRPO算法,,拋棄MCTS等傳統(tǒng)方法,,優(yōu)化算力開銷。DeepSeek團隊首次提出了GRPO的概念并將其應(yīng)用于強化學(xué)習(xí)過程中,,指出應(yīng)用了GRPO技術(shù)的強化學(xué)習(xí)對于強化LLMs的數(shù)學(xué)推理能力非常有效,。在訓(xùn)練R1-Zero的過程中,DeepSeek團隊完全依賴于應(yīng)用了GRPO技術(shù)的強化學(xué)習(xí),。
硬件工程化創(chuàng)新方面,,隨著大模型不斷發(fā)展,全球各團隊面臨模型參數(shù)越來越大,、數(shù)據(jù)量越來越多的問題,。單臺計算設(shè)備難以獨自滿足大模型的要求,,使用多臺設(shè)備同時運算的“分布式并行”策略成為主流選擇,。DeepSeek團隊在硬件工程優(yōu)化中使用了PTX代碼,,顯著提升了CUDA程序的可移植性,,便于優(yōu)化和精確控制硬件調(diào)度。
中國國產(chǎn)大模型Deepseek在硅谷引起了轟動,。從斯坦福到麻省理工,Deepseek R1幾乎一夜之間成為美國頂尖大學(xué)研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek