分析顯示,DeepSeek在模型訓(xùn)練過程中引入了多項(xiàng)創(chuàng)新,。堅(jiān)定不移延續(xù)MoE路徑,,稀疏化架構(gòu)減少算力消耗。MoE最早在1991年被提出,,是一種網(wǎng)絡(luò)層結(jié)構(gòu),,主要由專家網(wǎng)絡(luò)、門控網(wǎng)絡(luò)與選擇器組成,。DeepSeek在訓(xùn)練上采用稀疏MoE架構(gòu),,其門控機(jī)制僅激活少數(shù)設(shè)備上的少量專家,在擴(kuò)大模型容量同時(shí)控制訓(xùn)練資源消耗,。
實(shí)證結(jié)果表明,,DeepSeek MoE 2B的性能與GShard 2.9B相當(dāng),,而后者專家參數(shù)量和計(jì)算量均為前者的1.5倍。擴(kuò)展至16B參數(shù)規(guī)模時(shí),,DeepSeek MoE的性能與LLaMA2 7B相當(dāng),,而計(jì)算量僅需后者的約40%。在145B參數(shù)規(guī)模的初步實(shí)驗(yàn)中,,DeepSeek MoE較GShard展現(xiàn)出顯著優(yōu)勢,,性能媲美DeepSeek 67B,而計(jì)算量僅需后者的28.5%,。
采用FP8精度訓(xùn)練,,節(jié)省計(jì)算單元占用,,進(jìn)而節(jié)省算力資源。低數(shù)據(jù)精度訓(xùn)練是降低訓(xùn)練成本的較有前景的方向之一。通常的大模型訓(xùn)練會采用BF16或FP32/TF32精度作為數(shù)據(jù)計(jì)算和存儲的格式,,相比之下,,F(xiàn)P8占用的數(shù)據(jù)位寬僅為FP32的1/4,F(xiàn)P16的1/2,,可以有力地提升計(jì)算速度,,降低對存儲的消耗。DeepSeek團(tuán)隊(duì)在訓(xùn)練DeepSeek-V3時(shí),,采用的是混合精度框架,,大部分密集計(jì)算操作都以FP8格式進(jìn)行,而少數(shù)關(guān)鍵操作則策略性地保留其原始數(shù)據(jù)格式,,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性,。
中國國產(chǎn)大模型Deepseek在硅谷引起了轟動,。從斯坦福到麻省理工,Deepseek R1幾乎一夜之間成為美國頂尖大學(xué)研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek