DeepSeek站在哪位巨人肩上。DeepSeek提到的“站在巨人肩上”中的“巨人”涵蓋了多個關(guān)鍵因素,。首先,,母公司幻方量化提供了強(qiáng)大的資金支持,在2023年為DeepSeek投入了大量英偉達(dá)A100芯片,,構(gòu)建了堅實的算力基礎(chǔ),。此外,,幻方量化還將高頻交易中的優(yōu)化技術(shù)應(yīng)用于AI研發(fā),,工程師直接使用GPU底層匯編語言PTX,極大提高了算力效率,。
開源生態(tài)對DeepSeek同樣重要,。該公司將R1模型全部開源,僅18天下載量就突破了1600萬次,。全球開發(fā)者在HuggingFace平臺上利用R1開發(fā)出各種應(yīng)用,,這種廣泛的參與加速了DeepSeek的技術(shù)迭代。
當(dāng)用戶激增導(dǎo)致問題時,華為昇騰團(tuán)隊帶著國產(chǎn)算力方案伸出援手,,雙方合作推出的昇騰云服務(wù)降低了R1模型推理成本,,并打破了英偉達(dá)CUDA生態(tài)的壟斷。從華為的昇騰芯片到中際旭創(chuàng)的光模塊以及英維克的液冷技術(shù),,一條完整的國產(chǎn)AI算力鏈為DeepSeek提供了堅實的支持。
DeepSeek的模型架構(gòu)融合了量化交易的高效和學(xué)術(shù)界的創(chuàng)新,,例如多頭潛在注意力機(jī)制(MLA),,該機(jī)制顯著減少了內(nèi)存占用。通過混合精度訓(xùn)練和并行流水線優(yōu)化等方法,,DeepSeek成功控制了訓(xùn)練成本,,訓(xùn)練R1僅花費(fèi)557萬美元,實現(xiàn)了低成本高效訓(xùn)練,。
開源社區(qū)的一些項目也為DeepSeek的發(fā)展做出了貢獻(xiàn),。比如Meta開源的深度學(xué)習(xí)框架PyTorch,為DeepSeek團(tuán)隊搭建和訓(xùn)練模型提供了便利,。此外,,DeepSeek在設(shè)計自己的模型架構(gòu)時參考了Meta的LLaMA模型的理念和結(jié)構(gòu),在語言理解和生成的基礎(chǔ)算法上借鑒了LLaMA預(yù)訓(xùn)練的經(jīng)驗。