1月27日,,DeepSeek AI智能助手登上中美iOS免費(fèi)應(yīng)用排行榜榜首,,這是中國(guó)應(yīng)用首次取得這一成績(jī)。與此同時(shí),,與該公司相關(guān)的多個(gè)詞條進(jìn)入微博熱搜,,其中一條是“DeepSeek徹底爆發(fā)”,。這背后反映了開(kāi)源模型追趕甚至超越閉源模型的情緒。
事實(shí)上,,DeepSeek在這幾天并沒(méi)有特別的動(dòng)作,,將其推上輿論中心的力量主要來(lái)自Meta。三天前,,在美國(guó)匿名職場(chǎng)社區(qū)teamblind上,,有Meta員工表示,DeepSeek的低成本訓(xùn)練工作讓Meta的生成式AI團(tuán)隊(duì)感到恐慌,,工程師們正努力分析DeepSeek,,試圖從中復(fù)制任何可能的東西。隨后,,Meta首席人工智能科學(xué)家楊立昆在X平臺(tái)上表示,,對(duì)于認(rèn)為“中國(guó)在人工智能領(lǐng)域正在超越美國(guó)”的人,正確的看法是“開(kāi)源模型正在超越閉源模型”,。
DeepSeek并不是突然崛起,。從DeepSeek-V2開(kāi)始,這家公司已被硅谷視為一股神秘力量,。它在國(guó)內(nèi)大模型行業(yè)率先發(fā)起了一場(chǎng)真正意義上的“降價(jià)潮”,,憑借“MoE+MLA”架構(gòu)創(chuàng)新實(shí)現(xiàn)了成本降低。近期熱議的原因在于它在過(guò)去一個(gè)月內(nèi)相繼發(fā)布了DeepSeek-V3和R1兩款大模型產(chǎn)品,。
2024年底,,DeepSeek發(fā)布新一代MoE模型DeepSeek-V3,擁有6710億參數(shù),,激活參數(shù)為370億,,在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練。V3在知識(shí)類(lèi)任務(wù)上接近當(dāng)前表現(xiàn)最好的Claude-3.5-Sonnet-1022,,在代碼能力上稍好于后者,,并且在數(shù)學(xué)能力上領(lǐng)先其他開(kāi)閉源模型。更重要的是,,DeepSeek-V3的總訓(xùn)練成本僅為557.6萬(wàn)美元,,完整訓(xùn)練消耗了278.8萬(wàn)個(gè)GPU小時(shí),幾乎是同等性能水平模型所需成本的十分之一,。
一周前,,DeepSeek發(fā)布了推理模型R1,其性能對(duì)齊OpenAI-o1正式版,,并同步開(kāi)源模型權(quán)重,。R1在多項(xiàng)任務(wù)上與OpenAI-o1-1217基本持平,,尤其在AIME 2024、MATH-500,、SWE-Bench Verified三項(xiàng)測(cè)試集上以微弱優(yōu)勢(shì)取勝,。此外,R1還開(kāi)源了僅通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的大語(yǔ)言模型R1-Zero,,盡管沒(méi)有人類(lèi)監(jiān)督數(shù)據(jù)介入,,但該模型足以對(duì)標(biāo)OpenAI-o1-0912,探索出僅通過(guò)強(qiáng)化學(xué)習(xí)就能獲得推理能力的技術(shù)可能性,。
特朗普政府于1月31日晚宣布,,要求包括《紐約時(shí)報(bào)》在內(nèi)的四家媒體從他們?cè)谖褰谴髽堑膶?zhuān)用辦公場(chǎng)所撤走,。此舉的理由是為其他媒體騰出空間
2025-02-02 09:15:45紐約時(shí)報(bào)等媒體被趕出五角大樓媒體:油價(jià)下跌重新開(kāi)始今早油價(jià)實(shí)現(xiàn)了2024年的第9次油價(jià)上調(diào),部分地區(qū)95號(hào)汽油漲回8元時(shí)代,。
2024-10-25 16:33:43媒體:油價(jià)下跌重新開(kāi)始