DeepSeek婉拒所有采訪專注研發(fā)。DeepSeek的最新動(dòng)作迫使OpenAI在深夜緊急上線o3-mini。近半個(gè)月來,,中國的人工智能技術(shù)持續(xù)占據(jù)國內(nèi)外媒體頭條,影響力不斷擴(kuò)大,。關(guān)于DeepSeek模型的訓(xùn)練數(shù)據(jù)、GPU使用量,、團(tuán)隊(duì)構(gòu)成及強(qiáng)化學(xué)習(xí)算法等細(xì)節(jié)成為關(guān)注焦點(diǎn),。
SemiAnalysis的一篇深度報(bào)道從多個(gè)角度進(jìn)行了推測,包括訓(xùn)練成本,、對閉源模型利潤的影響以及團(tuán)隊(duì)規(guī)模等,。報(bào)道指出,DeepSeek并非簡單的副業(yè)項(xiàng)目,其在GPU等硬件上的支出超過5億美元,。論文中提到的600萬美元僅是預(yù)訓(xùn)練階段的GPU成本,,研發(fā)和硬件總擁有成本并未計(jì)算在內(nèi)。DeepSeek擁有約5萬塊Hopper GPU,,包括特供版H800和H20,。公司大約有150名員工,并定期從北大,、浙大等頂尖高校招募人才,,優(yōu)秀候選人年薪可達(dá)130萬美元。
DeepSeek的一個(gè)關(guān)鍵創(chuàng)新是多頭潛注意力機(jī)制(MLA),,該機(jī)制顯著降低了推理成本,。此外,V3模型性能遠(yuǎn)超R1和o1,,谷歌的Gemini 2.0 Flash Thinking與R1不相上下,。隨著V3和R1的發(fā)布,H100價(jià)格大幅上漲,,這體現(xiàn)了杰文斯悖論的作用,。
幻方量化作為DeepSeek的主要投資者,很早就看到了AI在金融領(lǐng)域之外的巨大潛力,。他們在2021年購入了10,000塊A100 GPU,,這一決策后來被證明極具前瞻性。2023年5月,,幻方?jīng)Q定分拆成立DeepSeek,以更專注地推進(jìn)AI技術(shù)發(fā)展,。目前兩家公司在人力資源和計(jì)算資源方面保持密切合作,。
DeepSeek專注于招募中國本土人才,強(qiáng)調(diào)實(shí)際能力和求知欲望,。他們在北京大學(xué)和浙江大學(xué)等頂尖高校舉辦招聘活動(dòng),,提供極具競爭力的薪酬待遇。現(xiàn)有員工約150人,,公司保持快速擴(kuò)張態(tài)勢,。
DeepSeek的定價(jià)策略和運(yùn)營效率引發(fā)了廣泛關(guān)注。盡管預(yù)訓(xùn)練階段的成本僅為600萬美元,,但整體投入遠(yuǎn)不止于此,。開發(fā)新架構(gòu)的過程中需要大量資源進(jìn)行測試和驗(yàn)證。例如,,多頭潛注意力機(jī)制的開發(fā)周期長達(dá)數(shù)月,,消耗了大量人力和計(jì)算資源。
V3模型的性能提升顯著,但在AI快速迭代的背景下,,半年前的技術(shù)已顯得陳舊,。隨著時(shí)間推移,用更少的計(jì)算資源實(shí)現(xiàn)相當(dāng)或更強(qiáng)的性能成為行業(yè)趨勢,。例如,,現(xiàn)在可以在普通筆記本電腦上運(yùn)行的小型模型能達(dá)到與GPT-3相當(dāng)?shù)男阅芩剑笳咴诎l(fā)布時(shí)需要超級計(jì)算機(jī)進(jìn)行訓(xùn)練,。
DeepSeek的獨(dú)特之處在于他們率先實(shí)現(xiàn)了成本和性能的突破,。雖然開源模型權(quán)重的做法已有先例,但DeepSeek的成就仍然顯著,。預(yù)計(jì)到今年年底,,相關(guān)成本可能還會進(jìn)一步下降5倍左右。
R1能夠達(dá)到與o1相當(dāng)?shù)男阅芩?,關(guān)鍵在于新的“推理”范式,。這種范式通過合成數(shù)據(jù)生成和后訓(xùn)練強(qiáng)化學(xué)習(xí)提升推理能力,使得以更低成本獲得快速進(jìn)展成為可能,。然而,,R1在許多場景下表現(xiàn)不如o1。OpenAI最近發(fā)布的o3測試結(jié)果顯示,,其性能提升幾乎呈垂直上升趨勢,。
谷歌推出的Gemini Flash 2.0 Thinking在基準(zhǔn)測試中表現(xiàn)優(yōu)于R1,具有很強(qiáng)的穩(wěn)定性,。盡管如此,,DeepSeek憑借快速行動(dòng)、充足資金,、卓越智慧和明確目標(biāo),,在競爭中超越了Meta等科技巨頭。
DeepSeek的多Token預(yù)測技術(shù)和混合專家模型架構(gòu)顯著提高了訓(xùn)練和推理效率,。這些創(chuàng)新引起了西方實(shí)驗(yàn)室的關(guān)注,。RL在R1中的應(yīng)用也起到了重要作用,使其在格式化和安全性方面表現(xiàn)出色,。通過合成數(shù)據(jù)集微調(diào),,R1的推理能力得以自然涌現(xiàn)。
MLA技術(shù)顯著降低了DeepSeek模型的推理成本,,減少了每次查詢所需的KV緩存量,,從而降低運(yùn)營成本。由于H20芯片的高內(nèi)存帶寬和容量,,DeepSeek在推理工作負(fù)載方面獲得了更多效率提升,。
R1并未真正動(dòng)搖o1的技術(shù)優(yōu)勢,而是以更低的成本實(shí)現(xiàn)了相似的性能。這種現(xiàn)象符合市場邏輯,,類似于半導(dǎo)體制造業(yè)的發(fā)展模式,。率先突破新能力層次的公司將獲得顯著的價(jià)格溢價(jià),而追趕者只能獲得適度利潤,。DeepSeek通過零利潤率策略打破了OpenAI的高利潤率格局,,但這是否可持續(xù)仍存疑。未來,,計(jì)算資源的集中度將變得更加重要,。
1月30日,有消息稱面臨美科技霸凌,,DeepSeek向360及所有中國科技公司發(fā)出倡議,,攜手強(qiáng)化技術(shù)合作。相關(guān)人土對新浪科技稱,,此倡議書為假
2025-02-01 09:03:53系假消息