DeepSeek給硅谷帶來的震撼持續(xù)不斷。與幾個月前《黑神話·悟空》在歐美受到的追捧相比,,DeepSeek的出現(xiàn)可謂石破天驚,,充滿了各種不可能和不合理。它講述了一個在層層封鎖,、勁敵環(huán)伺背景下鐵樹生花的故事,,讓美國精心設置的人工智能技術(shù)壁壘面臨坍塌的風險。
英偉達高級研究科學家 Jim Fan 在社交媒體上感慨:“我們正生活在一個特殊的時代:一家非美國公司正在踐行 OpenAI 最初的使命——開展真正開放的前沿研究,為所有人賦能,。這看似不合常理,,但最富戲劇性的往往最可能發(fā)生?!?/p>
一年多前還名不見經(jīng)傳的中國 AI 公司 DeepSeek,,憑借其新發(fā)布的推理大模型 R1 在全球 AI 界掀起風暴。該模型不僅性能比肩甚至超越了 OpenAI 的 o1,,而且完全開源,,以極低的成本實現(xiàn)了這一突破。微軟 CEO Satya Nadella 在達沃斯世界經(jīng)濟論壇上直言,,DeepSeek 新模型的表現(xiàn)令人印象深刻,,特別是在模型推理效率方面。Scale AI 的 CEO Alexandr Wang 也稱其為一款“震撼世界的模型”,。
DeepSeek-R1 的出現(xiàn)確實引發(fā)了硅谷的一場小型地震,。沃頓商學院教授 Ethan Mollick 對 R1 的內(nèi)部思考過程贊嘆不已,認為其原始思維鏈非常迷人,。著名風險投資人馬克·安德森表示,,DeepSeek R1 是他見過的最令人驚嘆和印象深刻的突破之一,作為開源項目,,這是給世界的一份重要禮物,。這種開源精神甚至讓一位軟件工程師將“OGOpenAI.com”域名重定向到了 DeepSeek,暗示 DeepSeek 更像早期的 OpenAI,,踐行著開源 AI 的理念,。
Meta 的生成式 AI 團隊因 DeepSeek 的一系列動作陷入恐慌,。據(jù)匿名職場社區(qū) teamblind 報道,,Meta 工程師們正在瘋狂分析 DeepSeek,試圖從中復制任何可能的東西,。盡管 Meta 首席 AI 科學家 Yann LeCun 強調(diào)不應將其解讀為中國在 AI 領域超越美國,,而是開源模型正在超越專有模型,扎克伯格隨后宣布加速研發(fā) Llama 4,,計劃投資 650 億美元擴建數(shù)據(jù)中心,,并部署 130 萬枚 GPU 以確保 2025 年 Meta AI 成為全球領先模型。
艾倫人工智能研究所的研究科學家 Nathan Lambert 認為,,R1 的發(fā)布標志著推理模型研究的一個重要轉(zhuǎn)折點,。在此之前,推理模型一直是工業(yè)研究的重要領域,,但缺乏一篇開創(chuàng)性的論文,。Lambert 指出,推理研究和進展現(xiàn)在已經(jīng)鎖定,,預計 2025 年將有巨大的進展,,而且更多將是公開的,。
DeepSeek-R1 通過僅使用強化學習(RL)和無監(jiān)督微調(diào)(SFT),展示了大模型也可以具備強大的推理能力,。Hyperbolic 聯(lián)合創(chuàng)始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進行類比,,認為 2025 年可能會成為 RL 的元年。然而,,R1-Zero 在可用性方面存在一些小問題,,表明訓練出色的推理模型需要的不僅僅是大規(guī)模的 RL。
在 R1-Zero 的基礎上,,團隊采用了一個四階段的訓練方案,,包括對合成推理數(shù)據(jù)進行監(jiān)督微調(diào)、大規(guī)模強化學習訓練,、拒絕采樣以及混合推理問題和一般偏好調(diào)整的強化學習訓練,。這個過程不僅高效,還保持了模型的可讀性和最終性能,。DeepSeek 通過創(chuàng)新方法,,在有限計算資源下實現(xiàn)了這些突破。微軟 AI 前沿研究實驗室首席研究員 Dimitris Papailiopoulos 表示,,R1 最令人驚訝的是其工程簡單性,,追求準確答案而非詳細邏輯步驟顯著減少了計算時間,同時保持高效率,。
盡管備受關(guān)注,,DeepSeek仍然相對神秘。公司成立于2023年7月,,創(chuàng)始人梁文鋒畢業(yè)于浙江大學信息與電子工程專業(yè),,此前創(chuàng)立了管理約80億美元資產(chǎn)的對沖基金幻方量化。他的目標是構(gòu)建通用人工智能(AGI)。在美國實施芯片出口管制之前,梁文鋒就收購了大量英偉達A100芯片,,為公司的技術(shù)突破奠定了基礎,。
面對芯片限制,DeepSeek 將挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機遇。前 DeepSeek 員工 Zihan Wang 表示,在公司工作期間能夠獲得充足的計算資源并自由實驗。這種創(chuàng)新精神體現(xiàn)在效率提升上,。梁文鋒承認中國公司在 AI 工程技術(shù)方面相對落后,必須消耗兩倍的計算力才能達到相同結(jié)果,。但團隊最終找到了減少內(nèi)存使用和加快計算速度的方法,,沒有明顯犧牲準確性。
中國公司在AI領域形成了某種共識,不僅追求效率,,還在越來越多地擁抱開源原則,。阿里云已發(fā)布了超過100個新的開源AI模型,支持29種語言,,涵蓋編程和數(shù)學等各種應用,。全球AI大語言模型數(shù)量已達1,328個,其中36%來自中國,,使中國成為僅次于美國的第二大AI技術(shù)貢獻國,。
隨著DeepSeek等中國公司在AI領域的崛起,全球AI競爭格局正在發(fā)生變化,。如果中國公司能夠以更低的成本實現(xiàn)同等或更好的性能,,且這些模型大都開源,美國公司賴以維持的技術(shù)優(yōu)勢和高估值可能會受到挑戰(zhàn),。不過,,現(xiàn)在就高呼“中國AI已經(jīng)超越美國”還為時過早。清華大學計算機系長聘副教授劉知遠認為,,中美AI差距正在縮小,,但中國仍在追趕階段,接下來如何在迷霧中開拓新路才是更大的挑戰(zhàn),。
短短一個月內(nèi),,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強在哪中國國產(chǎn)大模型Deepseek在硅谷引起了轟動。從斯坦福到麻省理工,,Deepseek R1幾乎一夜之間成為美國頂尖大學研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek讓Meta深陷恐慌過去一周,,中國的人工智能大模型成為硅谷乃至全球科技界的熱議話題,。引發(fā)這場討論的是中國人工智能初創(chuàng)公司深度求索(DeepSeek)
2025-01-27 10:02:46幻方DeepSeek如何震驚硅谷