上周,中國DeepSeek的AI工程師團隊推出的DeepSeek R1大模型在美國熱搜上引起轟動,并在蘋果中國和美國地區(qū)的應用商店免費APP下載排行榜上登頂,,超越了ChatGPT,。這標志著中國AI的一個重要時刻。DeepSeek團隊展示了他們能在沒有頂級英偉達高性能AI GPU的情況下,,以較低成本和性能普通的AI加速器訓練出一流的開源AI大模型,,這意味著未來的AI模型訓練和推理可能不再依賴于昂貴的算力,。
DeepSeek R1的發(fā)布表明,,AI訓練與推理的成本大幅降低,。該模型在不到600萬美元的投資和2048塊H800芯片的支持下,達到了與OpenAI o1相當的性能,,而后者需要高達10億美元的訓練成本,。DeepSeek R1每百萬個token的查詢成本僅為0.14美元,相比之下,,OpenAI的成本為7.50美元,。這一成就預示著低成本的新范式正在形成,AI ASIC的時代即將到來,。
UC伯克利,、港科大和HuggingFace等學術機構成功復現了DeepSeek模型,僅用強化學習而無需監(jiān)督微調,,就能見證AI模型的“頓悟時刻”,。這種低成本和高效的方法引發(fā)了全球AI領域的關注。圖靈獎得主Yann Lecun也表示,,這是開源對閉源AI大模型的一次勝利,。DeepSeek的應用一度因訪問量激增而短暫崩潰,但問題很快得到解決,。
DeepSeek R1的成功展示了通過極致工程化和集中精度的技術趨勢,,使得AI ASIC在AI訓練端更具競爭力。在推理端,,隨著生成式AI軟件和AI代理的大規(guī)模普及,,推理需求將顯著增加。DeepSeek開創(chuàng)的低成本范式使得AI ASIC在性能和成本上都優(yōu)于傳統(tǒng)的AI GPU,。
DeepSeek R1的推出讓全球科技股投資者對英偉達高性能AI GPU的必要性產生了懷疑,。許多科技巨頭開始考慮自研AI ASIC,以提高性價比,。盡管英偉達計劃進軍AI ASIC領域,,但目前尚未有具體布局,難以撼動博通和Marvell的主導地位,。
DeepSeek通過高效的訓練方法和數據壓縮策略,,大幅降低了訓練和推理成本。例如,,多層注意力機制,、FP8混合精度訓練、DualPipe并行通信等技術,,使得DeepSeek在有限資源下達到甚至超過行業(yè)主流大模型的性能,。這種方法挑戰(zhàn)了傳統(tǒng)的巨額投入模式,,顯示出硬件和算法潛力的最大化利用。
DeepSeek大模型在多個性能指標上表現出色,,尤其是在數學和編程方面,。其在2024年AIME測試中取得了優(yōu)異成績,接近OpenAI o1的水平,。此外,,在評估實際軟件工程問題解決能力的SWE-Bench Verified測試中,DeepSeek的表現甚至優(yōu)于o1,。
隨著AI訓練和推理成本的降低,,AI ASIC有望逐漸占據市場份額。博通和Marvell等公司正與大型云計算客戶合作開發(fā)定制化的AI芯片,,預計未來幾年內將大規(guī)模部署,。摩根士丹利預測,AI ASIC市場規(guī)模將在2027年達到300億美元,,年復合增長率達到34%,。盡管如此,AI ASIC和AI GPU將長期共存,,各自在特定領域發(fā)揮優(yōu)勢,。
硅谷正經歷由中國公司引發(fā)的重大變革,。全美都在擔憂全球人工智能的中心是否已經轉向中國,。此時,全球范圍內掀起了復現DeepSeek模型的熱潮,。正如LeCun所說:“這是開源對閉源的一次勝利
2025-01-26 16:20:37全球掀DeepSeek復現狂潮短短一個月內,,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外2024年即將結束時,AI領域再次帶來驚喜,,這次是通過自動發(fā)現新的人工生命形式
2024-12-26 07:34:28AI首次自主發(fā)現人工生命短短一個月內,,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強在哪