DeepSeek突圍奧秘曝光,，一招MLA讓全世界抄作業(yè)！150 天才集結(jié),，開(kāi)出千萬(wàn)年薪 5萬(wàn)塊GPU助力創(chuàng)新

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-01 13:45:38 新浪財(cái)經(jīng)

DeepSeek近期的一系列動(dòng)作,，尤其是其模型的發(fā)布，迫使OpenAI在深夜緊急推出了o3-mini,。過(guò)去半個(gè)月里,，中國(guó)AI公司在國(guó)內(nèi)外媒體上頻頻亮相，影響力持續(xù)上升,。關(guān)于DeepSeek的模型訓(xùn)練數(shù)據(jù),、GPU用量、成員構(gòu)成以及強(qiáng)化學(xué)習(xí)算法等細(xì)節(jié),，成為了公眾關(guān)注的焦點(diǎn),。

SemiAnalysis的一篇深度報(bào)道對(duì)這些方面進(jìn)行了詳細(xì)推測(cè)。報(bào)道指出,，DeepSeek不是簡(jiǎn)單的副業(yè)項(xiàng)目,，其在硬件上的支出遠(yuǎn)超5億美元,。論文中提到的600萬(wàn)美元僅是預(yù)訓(xùn)練階段的GPU成本,，而研發(fā)和硬件總擁有成本并未計(jì)算在內(nèi)。據(jù)估計(jì),，DeepSeek擁有約5萬(wàn)塊Hopper GPU,，包括特供版H800和H20，并且有150名員工,，其中不乏來(lái)自北大,、浙大的頂尖人才，優(yōu)秀候選人的年薪可高達(dá)934萬(wàn)元人民幣,。

DeepSeek的一個(gè)關(guān)鍵創(chuàng)新是多頭潛注意力機(jī)制（MLA）,，這一技術(shù)顯著降低了推理成本。V3模型性能超越了R1和o1,，而谷歌的Gemini 2.0 Flash Thinking與R1不相上下,。此外，H100的價(jià)格因V3和R1的發(fā)布而猛漲，體現(xiàn)了杰文斯悖論的作用,。

幻方量化作為DeepSeek的主要投資者,，早期就看到了AI在金融領(lǐng)域之外的巨大潛力。2021年,，他們購(gòu)入了1萬(wàn)塊A100 GPU,，隨后在2023年成立了DeepSeek，專(zhuān)注于推進(jìn)AI技術(shù)發(fā)展,。目前，兩家公司在人力資源和計(jì)算資源方面保持密切合作,。

DeepSeek在人才招聘上注重實(shí)際能力和求知欲望,，經(jīng)常在北京大學(xué)和浙江大學(xué)舉辦招聘活動(dòng),。公司提供極具競(jìng)爭(zhēng)力的薪酬待遇，優(yōu)秀候選人年薪可達(dá)130萬(wàn)美元以上,。這種靈活的人才戰(zhàn)略使得DeepSeek能夠快速擴(kuò)張。

DeepSeek的成功不僅在于資金充足,，還在于高效的運(yùn)營(yíng)模式。相較于大公司的繁瑣決策流程,，DeepSeek能更快地將創(chuàng)新理念付諸實(shí)踐。他們主要依靠自建數(shù)據(jù)中心進(jìn)行技術(shù)創(chuàng)新,，這為他們?cè)谡麄€(gè)技術(shù)棧上提供了更大的實(shí)驗(yàn)空間,。

盡管論文中提到的600萬(wàn)美元僅指預(yù)訓(xùn)練階段的直接成本，但高級(jí)分析師認(rèn)為,，DeepSeek在硬件方面的累計(jì)投資已遠(yuǎn)超5億美元,。例如，多頭潛注意力機(jī)制的開(kāi)發(fā)耗時(shí)數(shù)月,，消耗了大量資源,。隨著算法優(yōu)化，訓(xùn)練和推理同等性能所需的計(jì)算資源不斷減少,，這種趨勢(shì)在行業(yè)內(nèi)屢見(jiàn)不鮮,。

R1在短時(shí)間內(nèi)實(shí)現(xiàn)了與o1相當(dāng)?shù)男阅芩剑靡嬗谛碌摹巴评怼狈妒?。這種方法通過(guò)合成數(shù)據(jù)生成和后訓(xùn)練強(qiáng)化學(xué)習(xí)來(lái)提升推理能力,，以更低成本獲得快速進(jìn)展。谷歌的Gemini Flash 2.0 Thinking也在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,，但在市場(chǎng)策略和用戶(hù)體驗(yàn)上有所欠缺,。

DeepSeek的技術(shù)突破,，如多Token預(yù)測(cè)（MTP）和混合專(zhuān)家模型（MoE）,，引起了西方實(shí)驗(yàn)室的關(guān)注。這些創(chuàng)新提高了訓(xùn)練效率并降低了推理成本,。R1的成功還得益于強(qiáng)大的基礎(chǔ)模型V3和強(qiáng)化學(xué)習(xí)的應(yīng)用,。

多頭潛注意力機(jī)制（MLA）顯著減少了每次查詢(xún)所需的KV緩存量，降低了運(yùn)營(yíng)成本,。這項(xiàng)創(chuàng)新特別受到美國(guó)頂級(jí)實(shí)驗(yàn)室的關(guān)注,。此外，由于H20芯片具有更高的內(nèi)存帶寬和容量,，DeepSeek在推理工作負(fù)載方面獲得了更多效率提升,。

R1雖然在性能上接近o1，但成本更低,，這符合市場(chǎng)邏輯,。率先突破新能力層次的公司將獲得價(jià)格溢價(jià)，而追趕者只能獲得適度利潤(rùn),。當(dāng)前正處于技術(shù)快速迭代的周期,，產(chǎn)品更新?lián)Q代速度前所未有。未來(lái),，開(kāi)源模型市場(chǎng)將在下一代技術(shù)中迅速商品化,，計(jì)算資源的集中度仍將是關(guān)鍵因素。

(責(zé)任編輯：張蕾)

關(guān)閉

DeepSeek突圍奧秘曝光,，一招MLA讓全世界抄作業(yè)！150 天才集結(jié),，開(kāi)出千萬(wàn)年薪 5萬(wàn)塊GPU助力創(chuàng)新

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)