當(dāng)全球都在慶祝圣誕節(jié)時,,中國的一個實驗室發(fā)布了令人矚目的AI模型。這一事件引起了廣泛關(guān)注,。長期以來,美國在AI領(lǐng)域占據(jù)主導(dǎo)地位,但DeepSeek的最新模型改變了這一格局,。短短半個月內(nèi),,這款來自中國的AI模型以其卓越的表現(xiàn)震撼了硅谷。
DeepSeek成立于2023年,,去年年底發(fā)布了一個免費開源的大語言模型,。根據(jù)其論文,DeepSeek-R1在多個數(shù)學(xué)和推理基準測試中超越了行業(yè)領(lǐng)先的OpenAI等模型,,在性能,、成本、開放性等方面也表現(xiàn)出色,。在一系列第三方基準測試中,,DeepSeek的模型在復(fù)雜問題解決、數(shù)學(xué)和編程等多個領(lǐng)域的準確性上超越了Meta的Llama 3.1,、OpenAI的GPT-4以及Anthropic的Claude Sonnet 3.5,。
上周,DeepSeek又發(fā)布了推理模型R1,,在AIME 2024數(shù)學(xué)基準測試中取得了79.8%的成功率,,超過了OpenAI的最新模型。在標準化編碼測試中,,它展示了“專家級”的表現(xiàn),,在Codeforces上獲得了2,029的Elo評分,超過96.3%的人類競爭對手,。Scale AI使用“人類最后考試”來測試AI大模型,,結(jié)果顯示DeepSeek的最新模型表現(xiàn)最出色或與最好的美國模型不相上下。
DeepSeek在美國AI行業(yè)引發(fā)了巨大反響,,幾乎所有主流媒體和科技媒體都報道了這一消息,。短短幾天內(nèi),DeepSeek成為蘋果應(yīng)用商店排名第一的免費應(yīng)用,,超越了OpenAI的ChatGPT,。
除了性能卓越,DeepSeek的成本也極為低廉,。R1模型的查詢成本僅為每百萬個token 0.14美元,,而OpenAI的成本為7.50美元,使其成本降低了98%,。DeepSeek僅用兩個月時間,,耗費不到600萬美元就打造了大語言模型R1,,使用的還是性能較弱的英偉達H800芯片,。這種低成本和高效率讓硅谷巨頭們感到震驚。
DeepSeek團隊主要由北大、清華等頂級高校的博士生組成,,許多人曾在頂級學(xué)術(shù)期刊發(fā)表論文并獲獎,。這種招聘策略有助于營造自由協(xié)作的文化,研究人員可以利用充足的計算資源進行創(chuàng)新研究,。
面對DeepSeek的崛起,,一些硅谷巨頭表達了不同的看法。OpenAI創(chuàng)始人奧特曼認為復(fù)制已知有效的方案相對容易,,探索未知領(lǐng)域則充滿挑戰(zhàn),。Perplexity AI的CEO斯林尼瓦斯表示,DeepSeek在很大程度上復(fù)制了OpenAI的技術(shù)并開源了它,,但他也贊嘆了DeepSeek的快速步伐,。Stability AI的創(chuàng)始人Mostaque暗示DeepSeek給資金更充裕的競爭對手帶來了壓力。Meta AI首席科學(xué)家楊立昆強調(diào),,DeepSeek的成功證明了開源模型正在超越閉源系統(tǒng),。
DeepSeek通過一系列工程技術(shù)優(yōu)化了模型架構(gòu),包括定制化芯片間通信方案,、減少字段大小以節(jié)省內(nèi)存,,以及創(chuàng)新性地使用專家混合模型方法。這些技術(shù)使DeepSeek的模型更具成本效益,,訓(xùn)練所需的計算資源遠少于競爭對手,。DeepSeek R1是一個轉(zhuǎn)折點,因為它主要通過機械強化學(xué)習(xí)進行學(xué)習(xí),,而不是依賴大量監(jiān)督數(shù)據(jù),。
DeepSeek愿意將其創(chuàng)新成果開源,得到了全球AI研究社區(qū)的高度贊賞,。英偉達資深研究員樊錦贊揚了DeepSeek的透明度,,并指出其強化學(xué)習(xí)方法的重要性??萍计髽I(yè)家Arnaud Bertrand認為,,競爭性開源模型的出現(xiàn)可能對OpenAI的商業(yè)模式造成沖擊。
DeepSeek的崛起對英偉達來說是一個利空因素,。由于美國政府的AI芯片禁運,,中國無法采購英偉達最高性能的AI芯片,而H800則是高算力A100芯片的閹割版,。盡管如此,,DeepSeek依然成功地訓(xùn)練出了強勁的大模型。未來,,中國AI行業(yè)可能會面臨更多挑戰(zhàn),,尤其是在芯片和出口管制方面,。
過去一周,,中國的人工智能大模型成為硅谷乃至全球科技界的熱議話題。引發(fā)這場討論的是中國人工智能初創(chuàng)公司深度求索(DeepSeek)
2025-01-27 10:02:46幻方DeepSeek如何震驚硅谷短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強在哪中國國產(chǎn)大模型Deepseek在硅谷引起了轟動,。從斯坦福到麻省理工,,Deepseek R1幾乎一夜之間成為美國頂尖大學(xué)研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek讓Meta深陷恐慌