DeepSeek掀起算力新范式低成本訓(xùn)練引領(lǐng)變革

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-27 19:43:28 金融界

上周,，中國DeepSeek的AI工程師團隊推出的DeepSeek R1大模型在美國熱搜上引起轟動,，并在蘋果中國和美國地區(qū)的應(yīng)用商店免費APP下載排行榜上登頂,，超越了ChatGPT,。這標(biāo)志著中國AI的一個重要時刻。DeepSeek團隊展示了他們能在沒有頂級英偉達高性能AI GPU的情況下,，以較低成本和性能普通的AI加速器訓(xùn)練出一流的開源AI大模型,，這意味著未來的AI模型訓(xùn)練和推理可能不再依賴于昂貴的算力。

DeepSeek R1的發(fā)布表明,，AI訓(xùn)練與推理的成本大幅降低,。該模型在不到600萬美元的投資和2048塊H800芯片的支持下，達到了與OpenAI o1相當(dāng)?shù)男阅?，而后者需要高達10億美元的訓(xùn)練成本,。DeepSeek R1每百萬個token的查詢成本僅為0.14美元，相比之下,，OpenAI的成本為7.50美元,。這一成就預(yù)示著低成本的新范式正在形成，AI ASIC的時代即將到來,。

UC伯克利,、港科大和HuggingFace等學(xué)術(shù)機構(gòu)成功復(fù)現(xiàn)了DeepSeek模型，僅用強化學(xué)習(xí)而無需監(jiān)督微調(diào),，就能見證AI模型的“頓悟時刻”,。這種低成本和高效的方法引發(fā)了全球AI領(lǐng)域的關(guān)注。圖靈獎得主Yann Lecun也表示,，這是開源對閉源AI大模型的一次勝利,。DeepSeek的應(yīng)用一度因訪問量激增而短暫崩潰，但問題很快得到解決,。

DeepSeek R1的成功展示了通過極致工程化和集中精度的技術(shù)趨勢,，使得AI ASIC在AI訓(xùn)練端更具競爭力。在推理端,，隨著生成式AI軟件和AI代理的大規(guī)模普及,，推理需求將顯著增加。DeepSeek開創(chuàng)的低成本范式使得AI ASIC在性能和成本上都優(yōu)于傳統(tǒng)的AI GPU,。

DeepSeek R1的推出讓全球科技股投資者對英偉達高性能AI GPU的必要性產(chǎn)生了懷疑,。許多科技巨頭開始考慮自研AI ASIC,，以提高性價比,。盡管英偉達計劃進軍AI ASIC領(lǐng)域，但目前尚未有具體布局,，難以撼動博通和Marvell的主導(dǎo)地位,。

DeepSeek通過高效的訓(xùn)練方法和數(shù)據(jù)壓縮策略,，大幅降低了訓(xùn)練和推理成本。例如,，多層注意力機制,、FP8混合精度訓(xùn)練、DualPipe并行通信等技術(shù),，使得DeepSeek在有限資源下達到甚至超過行業(yè)主流大模型的性能,。這種方法挑戰(zhàn)了傳統(tǒng)的巨額投入模式，顯示出硬件和算法潛力的最大化利用,。

DeepSeek大模型在多個性能指標(biāo)上表現(xiàn)出色,，尤其是在數(shù)學(xué)和編程方面。其在2024年AIME測試中取得了優(yōu)異成績,，接近OpenAI o1的水平,。此外，在評估實際軟件工程問題解決能力的SWE-Bench Verified測試中,，DeepSeek的表現(xiàn)甚至優(yōu)于o1,。

隨著AI訓(xùn)練和推理成本的降低，AI ASIC有望逐漸占據(jù)市場份額,。博通和Marvell等公司正與大型云計算客戶合作開發(fā)定制化的AI芯片,，預(yù)計未來幾年內(nèi)將大規(guī)模部署。摩根士丹利預(yù)測,，AI ASIC市場規(guī)模將在2027年達到300億美元,，年復(fù)合增長率達到34%。盡管如此,，AI ASIC和AI GPU將長期共存,，各自在特定領(lǐng)域發(fā)揮優(yōu)勢。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

DeepSeek掀起算力新范式 低成本訓(xùn)練引領(lǐng)變革

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek掀起算力新范式低成本訓(xùn)練引領(lǐng)變革