起底讓硅谷難安的DeepSeek 引發(fā)全球AI界風(fēng)暴

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-26 14:46:44 DeepTech深科技

DeepSeek給硅谷帶來的震撼持續(xù)不斷。與幾個月前《黑神話·悟空》在歐美受到的追捧相比,，DeepSeek的出現(xiàn)可謂石破天驚,，充滿了各種不可能和不合理,。它講述了一個在層層封鎖,、勁敵環(huán)伺背景下鐵樹生花的故事,，讓美國精心設(shè)置的人工智能技術(shù)壁壘面臨坍塌的風(fēng)險,。

英偉達(dá)高級研究科學(xué)家 Jim Fan 在社交媒體上感慨：“我們正生活在一個特殊的時代：一家非美國公司正在踐行 OpenAI 最初的使命——開展真正開放的前沿研究,，為所有人賦能,。這看似不合常理，但最富戲劇性的往往最可能發(fā)生,?！?/p>

一年多前還名不見經(jīng)傳的中國 AI 公司 DeepSeek，憑借其新發(fā)布的推理大模型 R1 在全球 AI 界掀起風(fēng)暴,。該模型不僅性能比肩甚至超越了 OpenAI 的 o1,，而且完全開源，以極低的成本實(shí)現(xiàn)了這一突破,。微軟 CEO Satya Nadella 在達(dá)沃斯世界經(jīng)濟(jì)論壇上直言,，DeepSeek 新模型的表現(xiàn)令人印象深刻，特別是在模型推理效率方面,。Scale AI 的 CEO Alexandr Wang 也稱其為一款“震撼世界的模型”,。

DeepSeek-R1 的出現(xiàn)確實(shí)引發(fā)了硅谷的一場小型地震。沃頓商學(xué)院教授 Ethan Mollick 對 R1 的內(nèi)部思考過程贊嘆不已，認(rèn)為其原始思維鏈非常迷人,。著名風(fēng)險投資人馬克·安德森表示,，DeepSeek R1 是他見過的最令人驚嘆和印象深刻的突破之一，作為開源項(xiàng)目,，這是給世界的一份重要禮物,。這種開源精神甚至讓一位軟件工程師將“OGOpenAI.com”域名重定向到了 DeepSeek，暗示 DeepSeek 更像早期的 OpenAI,，踐行著開源 AI 的理念,。

Meta 的生成式 AI 團(tuán)隊(duì)因 DeepSeek 的一系列動作陷入恐慌。據(jù)匿名職場社區(qū) teamblind 報道,，Meta 工程師們正在瘋狂分析 DeepSeek,，試圖從中復(fù)制任何可能的東西。盡管 Meta 首席 AI 科學(xué)家 Yann LeCun 強(qiáng)調(diào)不應(yīng)將其解讀為中國在 AI 領(lǐng)域超越美國,，而是開源模型正在超越專有模型,，扎克伯格隨后宣布加速研發(fā) Llama 4，計(jì)劃投資 650 億美元擴(kuò)建數(shù)據(jù)中心,，并部署 130 萬枚 GPU 以確保 2025 年 Meta AI 成為全球領(lǐng)先模型,。

艾倫人工智能研究所的研究科學(xué)家 Nathan Lambert 認(rèn)為，R1 的發(fā)布標(biāo)志著推理模型研究的一個重要轉(zhuǎn)折點(diǎn),。在此之前,，推理模型一直是工業(yè)研究的重要領(lǐng)域，但缺乏一篇開創(chuàng)性的論文,。Lambert 指出,，推理研究和進(jìn)展現(xiàn)在已經(jīng)鎖定，預(yù)計(jì) 2025 年將有巨大的進(jìn)展,，而且更多將是公開的,。

DeepSeek-R1 通過僅使用強(qiáng)化學(xué)習(xí)（RL）和無監(jiān)督微調(diào)（SFT），展示了大模型也可以具備強(qiáng)大的推理能力,。Hyperbolic 聯(lián)合創(chuàng)始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進(jìn)行類比,，認(rèn)為 2025 年可能會成為 RL 的元年。然而,，R1-Zero 在可用性方面存在一些小問題,，表明訓(xùn)練出色的推理模型需要的不僅僅是大規(guī)模的 RL。

在 R1-Zero 的基礎(chǔ)上,，團(tuán)隊(duì)采用了一個四階段的訓(xùn)練方案,，包括對合成推理數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)、大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,、拒絕采樣以及混合推理問題和一般偏好調(diào)整的強(qiáng)化學(xué)習(xí)訓(xùn)練,。這個過程不僅高效,，還保持了模型的可讀性和最終性能。DeepSeek 通過創(chuàng)新方法,，在有限計(jì)算資源下實(shí)現(xiàn)了這些突破,。微軟 AI 前沿研究實(shí)驗(yàn)室首席研究員 Dimitris Papailiopoulos 表示，R1 最令人驚訝的是其工程簡單性,，追求準(zhǔn)確答案而非詳細(xì)邏輯步驟顯著減少了計(jì)算時間,，同時保持高效率,。

盡管備受關(guān)注,，DeepSeek仍然相對神秘。公司成立于2023年7月,，創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)信息與電子工程專業(yè),，此前創(chuàng)立了管理約80億美元資產(chǎn)的對沖基金幻方量化。他的目標(biāo)是構(gòu)建通用人工智能（AGI）,。在美國實(shí)施芯片出口管制之前,，梁文鋒就收購了大量英偉達(dá)A100芯片，為公司的技術(shù)突破奠定了基礎(chǔ),。

面對芯片限制,，DeepSeek 將挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機(jī)遇。前 DeepSeek 員工 Zihan Wang 表示,，在公司工作期間能夠獲得充足的計(jì)算資源并自由實(shí)驗(yàn),。這種創(chuàng)新精神體現(xiàn)在效率提升上。梁文鋒承認(rèn)中國公司在 AI 工程技術(shù)方面相對落后,，必須消耗兩倍的計(jì)算力才能達(dá)到相同結(jié)果,。但團(tuán)隊(duì)最終找到了減少內(nèi)存使用和加快計(jì)算速度的方法，沒有明顯犧牲準(zhǔn)確性,。

中國公司在AI領(lǐng)域形成了某種共識,，不僅追求效率，還在越來越多地?fù)肀ч_源原則,。阿里云已發(fā)布了超過100個新的開源AI模型,，支持29種語言，涵蓋編程和數(shù)學(xué)等各種應(yīng)用,。全球AI大語言模型數(shù)量已達(dá)1,328個,，其中36%來自中國，使中國成為僅次于美國的第二大AI技術(shù)貢獻(xiàn)國,。

隨著DeepSeek等中國公司在AI領(lǐng)域的崛起,，全球AI競爭格局正在發(fā)生變化。如果中國公司能夠以更低的成本實(shí)現(xiàn)同等或更好的性能,，且這些模型大都開源,，美國公司賴以維持的技術(shù)優(yōu)勢和高估值可能會受到挑戰(zhàn),。不過，現(xiàn)在就高呼“中國AI已經(jīng)超越美國”還為時過早,。清華大學(xué)計(jì)算機(jī)系長聘副教授劉知遠(yuǎn)認(rèn)為,，中美AI差距正在縮小，但中國仍在追趕階段,，接下來如何在迷霧中開拓新路才是更大的挑戰(zhàn),。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

起底讓硅谷難安的DeepSeek 引發(fā)全球AI界風(fēng)暴

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)