DeepSeek突圍奧秘曝光,，一招MLA讓全世界抄作業(yè)！150 天才集結(jié),，開出千萬年薪 5萬塊GPU助力創(chuàng)新

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-01 13:45:38 新浪財經(jīng)

DeepSeek近期的一系列動作,，尤其是其模型的發(fā)布，迫使OpenAI在深夜緊急推出了o3-mini,。過去半個月里,，中國AI公司在國內(nèi)外媒體上頻頻亮相,，影響力持續(xù)上升,。關(guān)于DeepSeek的模型訓(xùn)練數(shù)據(jù)、GPU用量,、成員構(gòu)成以及強化學(xué)習(xí)算法等細節(jié),，成為了公眾關(guān)注的焦點。

SemiAnalysis的一篇深度報道對這些方面進行了詳細推測,。報道指出,，DeepSeek不是簡單的副業(yè)項目,，其在硬件上的支出遠超5億美元,。論文中提到的600萬美元僅是預(yù)訓(xùn)練階段的GPU成本,，而研發(fā)和硬件總擁有成本并未計算在內(nèi)。據(jù)估計,，DeepSeek擁有約5萬塊Hopper GPU,，包括特供版H800和H20，并且有150名員工,，其中不乏來自北大、浙大的頂尖人才,，優(yōu)秀候選人的年薪可高達934萬元人民幣。

DeepSeek的一個關(guān)鍵創(chuàng)新是多頭潛注意力機制（MLA）,，這一技術(shù)顯著降低了推理成本。V3模型性能超越了R1和o1,，而谷歌的Gemini 2.0 Flash Thinking與R1不相上下,。此外,，H100的價格因V3和R1的發(fā)布而猛漲,，體現(xiàn)了杰文斯悖論的作用,。

幻方量化作為DeepSeek的主要投資者，早期就看到了AI在金融領(lǐng)域之外的巨大潛力,。2021年,，他們購入了1萬塊A100 GPU，隨后在2023年成立了DeepSeek,，專注于推進AI技術(shù)發(fā)展,。目前，兩家公司在人力資源和計算資源方面保持密切合作,。

DeepSeek在人才招聘上注重實際能力和求知欲望,，經(jīng)常在北京大學(xué)和浙江大學(xué)舉辦招聘活動。公司提供極具競爭力的薪酬待遇,，優(yōu)秀候選人年薪可達130萬美元以上,。這種靈活的人才戰(zhàn)略使得DeepSeek能夠快速擴張。

DeepSeek的成功不僅在于資金充足,，還在于高效的運營模式,。相較于大公司的繁瑣決策流程，DeepSeek能更快地將創(chuàng)新理念付諸實踐,。他們主要依靠自建數(shù)據(jù)中心進行技術(shù)創(chuàng)新,，這為他們在整個技術(shù)棧上提供了更大的實驗空間。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek突圍奧秘曝光,，一招MLA讓全世界抄作業(yè)！150 天才集結(jié),，開出千萬年薪 5萬塊GPU助力創(chuàng)新

相關(guān)新聞

今日熱點

頻道熱點