媒體：DeepSeek不需要被神話(huà) 理性看待其成就

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-27 22:44:21 界面新聞

1月27日,，DeepSeek AI智能助手登上中美iOS免費(fèi)應(yīng)用排行榜榜首，這是中國(guó)應(yīng)用首次取得這一成績(jī),。與此同時(shí),，與該公司相關(guān)的多個(gè)詞條進(jìn)入微博熱搜，其中一條是“DeepSeek徹底爆發(fā)”,。這背后反映了開(kāi)源模型追趕甚至超越閉源模型的情緒,。

事實(shí)上，DeepSeek在這幾天并沒(méi)有特別的動(dòng)作，將其推上輿論中心的力量主要來(lái)自Meta,。三天前,，在美國(guó)匿名職場(chǎng)社區(qū)teamblind上，有Meta員工表示,，DeepSeek的低成本訓(xùn)練工作讓Meta的生成式AI團(tuán)隊(duì)感到恐慌,，工程師們正努力分析DeepSeek，試圖從中復(fù)制任何可能的東西,。隨后，Meta首席人工智能科學(xué)家楊立昆在X平臺(tái)上表示,，對(duì)于認(rèn)為“中國(guó)在人工智能領(lǐng)域正在超越美國(guó)”的人,，正確的看法是“開(kāi)源模型正在超越閉源模型”。

DeepSeek并不是突然崛起,。從DeepSeek-V2開(kāi)始,，這家公司已被硅谷視為一股神秘力量。它在國(guó)內(nèi)大模型行業(yè)率先發(fā)起了一場(chǎng)真正意義上的“降價(jià)潮”,，憑借“MoE+MLA”架構(gòu)創(chuàng)新實(shí)現(xiàn)了成本降低,。近期熱議的原因在于它在過(guò)去一個(gè)月內(nèi)相繼發(fā)布了DeepSeek-V3和R1兩款大模型產(chǎn)品。

2024年底,，DeepSeek發(fā)布新一代MoE模型DeepSeek-V3,，擁有6710億參數(shù)，激活參數(shù)為370億,，在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練。V3在知識(shí)類(lèi)任務(wù)上接近當(dāng)前表現(xiàn)最好的Claude-3.5-Sonnet-1022,，在代碼能力上稍好于后者,，并且在數(shù)學(xué)能力上領(lǐng)先其他開(kāi)閉源模型,。更重要的是，DeepSeek-V3的總訓(xùn)練成本僅為557.6萬(wàn)美元,，完整訓(xùn)練消耗了278.8萬(wàn)個(gè)GPU小時(shí)，幾乎是同等性能水平模型所需成本的十分之一,。

一周前，DeepSeek發(fā)布了推理模型R1,，其性能對(duì)齊OpenAI-o1正式版,，并同步開(kāi)源模型權(quán)重,。R1在多項(xiàng)任務(wù)上與OpenAI-o1-1217基本持平，尤其在AIME 2024,、MATH-500,、SWE-Bench Verified三項(xiàng)測(cè)試集上以微弱優(yōu)勢(shì)取勝。此外,，R1還開(kāi)源了僅通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的大語(yǔ)言模型R1-Zero,，盡管沒(méi)有人類(lèi)監(jiān)督數(shù)據(jù)介入，但該模型足以對(duì)標(biāo)OpenAI-o1-0912,，探索出僅通過(guò)強(qiáng)化學(xué)習(xí)就能獲得推理能力的技術(shù)可能性。

一名大模型行業(yè)投資人表示,，雖然DeepSeek-V3是目前最好的開(kāi)源模型,，但說(shuō)它能與頭部閉源模型抗衡還為時(shí)尚早。楊立昆也指出,，DeepSeek受益于開(kāi)源研究和技術(shù),，提出了新想法并基于他人的工作進(jìn)行創(chuàng)新，所有人均能從中獲益,。

R1在沒(méi)有復(fù)雜技術(shù)的前提下實(shí)現(xiàn)了o1水平的推理性能,，學(xué)會(huì)了長(zhǎng)鏈推理和反思。不過(guò),，一些行業(yè)人士認(rèn)為R1可能存在局限，特別是在過(guò)程獎(jiǎng)勵(lì)和樹(shù)搜索技術(shù)方面,。最近OpenAI發(fā)布的o3和o3-mini性能大幅提升,，顯示國(guó)內(nèi)大模型公司仍有加速創(chuàng)新的壓力。

除了技術(shù)討論,，DeepSeek的戰(zhàn)略性上線(xiàn)C端智能助手應(yīng)用也讓大眾直觀感受到V3和R1的技術(shù)價(jià)值,，一度導(dǎo)致服務(wù)“宕機(jī)”,。用戶(hù)普遍強(qiáng)調(diào)其性能強(qiáng)大,、價(jià)格便宜，但也存在一些短板,。

從公司發(fā)展角度看,，DeepSeek證明了一個(gè)短小精悍、扁平高效的組織架構(gòu)可能是面向AGI的大模型研發(fā)的有效創(chuàng)業(yè)形態(tài),。Meta計(jì)劃在2025年投入超過(guò)600億美元用于人工智能,，進(jìn)一步凸顯了DeepSeek低訓(xùn)練成本和高創(chuàng)新效率的價(jià)值。

如今,，DeepSeek已成為中國(guó)企業(yè)中可以與OpenAI,、Meta等公司競(jìng)爭(zhēng)的存在,，但它無(wú)需被神話(huà)。創(chuàng)始人梁文峰表示,，隨著經(jīng)濟(jì)發(fā)展,，中國(guó)也要逐步成為貢獻(xiàn)者，而不是一直搭便車(chē),。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

媒體：DeepSeek不需要被神話(huà) 理性看待其成就

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)