DeepSeek站在哪位巨人肩上,。DeepSeek提到的“站在巨人肩上”中的“巨人”涵蓋了多個(gè)關(guān)鍵因素,。首先,,母公司幻方量化提供了強(qiáng)大的資金支持,,在2023年為DeepSeek投入了大量英偉達(dá)A100芯片,,構(gòu)建了堅(jiān)實(shí)的算力基礎(chǔ),。此外,,幻方量化還將高頻交易中的優(yōu)化技術(shù)應(yīng)用于AI研發(fā),,工程師直接使用GPU底層匯編語言PTX,極大提高了算力效率,。
開源生態(tài)對DeepSeek同樣重要。該公司將R1模型全部開源,,僅18天下載量就突破了1600萬次,。全球開發(fā)者在HuggingFace平臺(tái)上利用R1開發(fā)出各種應(yīng)用,這種廣泛的參與加速了DeepSeek的技術(shù)迭代,。
當(dāng)用戶激增導(dǎo)致問題時(shí),華為昇騰團(tuán)隊(duì)帶著國產(chǎn)算力方案伸出援手,,雙方合作推出的昇騰云服務(wù)降低了R1模型推理成本,,并打破了英偉達(dá)CUDA生態(tài)的壟斷,。從華為的昇騰芯片到中際旭創(chuàng)的光模塊以及英維克的液冷技術(shù),,一條完整的國產(chǎn)AI算力鏈為DeepSeek提供了堅(jiān)實(shí)的支持,。
DeepSeek的模型架構(gòu)融合了量化交易的高效和學(xué)術(shù)界的創(chuàng)新,例如多頭潛在注意力機(jī)制(MLA),,該機(jī)制顯著減少了內(nèi)存占用,。通過混合精度訓(xùn)練和并行流水線優(yōu)化等方法,DeepSeek成功控制了訓(xùn)練成本,,訓(xùn)練R1僅花費(fèi)557萬美元,,實(shí)現(xiàn)了低成本高效訓(xùn)練,。
開源社區(qū)的一些項(xiàng)目也為DeepSeek的發(fā)展做出了貢獻(xiàn)。比如Meta開源的深度學(xué)習(xí)框架PyTorch,,為DeepSeek團(tuán)隊(duì)搭建和訓(xùn)練模型提供了便利。此外,,DeepSeek在設(shè)計(jì)自己的模型架構(gòu)時(shí)參考了Meta的LLaMA模型的理念和結(jié)構(gòu),,在語言理解和生成的基礎(chǔ)算法上借鑒了LLaMA預(yù)訓(xùn)練的經(jīng)驗(yàn)。