關于DeepSeek 馬斯克評論了兩條帖子 AI將無處不在

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-01-28 22:30:56 新浪財經(jīng)

馬斯克評論稱：“有趣的分析,。我所見過的最好的,。”“AI 將無處不在,?！?/p>

關于 DeepSeek r1 的真相與細節(jié),，該應用在相關 App Store 類別中下載量排名第一,，領先于 ChatGPT,，并且超過了 Gemini 和 Claude 的表現(xiàn)。從質(zhì)量角度看,，它與 o1 相當,，但不及 o3。r1 實現(xiàn)了真正的算法突破,，在訓練和推理方面都顯著提高了效率,。FP8 訓練、MLA 和多 token 預測都有重要意義,。盡管其訓練成本僅為 600 萬美元,，但這數(shù)字可能具有誤導性。即使硬件架構新穎,，值得注意的是他們使用 PCI-Express 進行擴展,。

根據(jù)技術論文，600 萬美元并不包括前期研究和架構,、算法及數(shù)據(jù)消融實驗的成本,。這意味著只有在實驗室已經(jīng)在前期研究上投入數(shù)億美元并且能夠訪問更大規(guī)模集群的情況下，才能以 600 萬美元的成本訓練出 r1 質(zhì)量的模型,。DeepSeek 顯然擁有遠超 2048 個 H800 的算力,；早期的一篇論文提到擁有 10000 個 A100 的集群。一個同樣聰明的團隊不可能僅憑 600 萬美元就能啟動 2000 個 GPU 集群并從頭開始訓練 r1,。大約 20% 的 Nvidia 收入來自新加坡,，但 20% 的 Nvidia GPU 可能并不在新加坡。存在大量的知識蒸餾,，如果沒有對 GPT-4o 和 o1 的無障礙訪問,，他們可能無法完成這個訓練。限制前沿 GPU 的訪問權限卻不對中國蒸餾美國前沿模型的能力采取任何措施,，這顯然違背了出口限制的目的,。

DeepSeek r1 確實具有重要意義，尤其在推理成本上比 o1 低得多且效率更高,，這比 600 萬美元的訓練成本更具意義,。r1 的每次 API 調(diào)用成本比 o1 低 93%，可以在高端工作站上本地運行,，而且似乎沒有遇到任何速率限制,。簡單計算一下，每 10 億個活躍參數(shù)在 FP8 下需要 1GB 的 RAM,，因此 r1 需要 37GB 的 RAM,。批處理大大降低了成本,，更多的計算能力增加了每秒 token 數(shù)，所以云端推理仍然具有優(yōu)勢,。這里還存在真正的地緣政治動態(tài),，“Stargate”之后發(fā)布并非巧合。

降低訓練成本將提高 AI 的投資回報率,。短期內(nèi),，這對訓練資本支出或“能源”主題不會產(chǎn)生積極影響。目前“AI 基礎設施”贏家面臨的最大風險是：r1 的精簡版本可以在高端工作站（如 Mac Studio Pro）上本地運行,，意味著類似的模型將在約 2 年內(nèi)可以在高性能手機上運行,。如果推理計算轉移到邊緣設備是因為“夠用了”，那么我們將面臨一個截然不同的世界,，出現(xiàn)不同的贏家——即我們將見證有史以來最大規(guī)模的 PC 和智能手機升級周期,。人工超級智能已經(jīng)非常接近，但沒有人真正知道超級智能的經(jīng)濟回報會是什么,。如果一個耗資 1000 億美元,、在 10 萬多個 Blackwells 上訓練的推理模型能夠治愈癌癥和發(fā)明曲速引擎，那么 ASI 的回報將非常高,，訓練資本支出和能源消耗將穩(wěn)步增長,。這對于使用 AI 的公司都非常有利，極大地提升了分發(fā)渠道和獨特數(shù)據(jù)的價值,。美國的實驗室可能會停止發(fā)布其前沿模型,，以防止對 r1 至關重要的知識蒸餾。

Grok-3 的出現(xiàn)可能會顯著影響上述結論,。這將是自 GPT-4 以來首次對預訓練擴展定律的重要測試,。就像通過強化學習將 v3 轉變?yōu)?r1 一樣，提高 Grok-3 的推理能力也可能需要幾周時間,?；A模型越好，推理模型就越好,，因為三個擴展定律是相乘的,。Grok-3 已經(jīng)表明它可以完成超出 o1 的任務，超出多少將變得很重要,。

(責任編輯：張蕾)

關閉

關于DeepSeek 馬斯克評論了兩條帖子 AI將無處不在

相關新聞

今日熱點

頻道熱點