DeepSeek婉拒所有采訪專注研發(fā) 引發(fā)OpenAI緊急應(yīng)對(duì)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-05 15:07:38 新浪財(cái)經(jīng)

DeepSeek婉拒所有采訪專注研發(fā),。DeepSeek的最新動(dòng)作迫使OpenAI在深夜緊急上線o3-mini,。近半個(gè)月來(lái),，中國(guó)的人工智能技術(shù)持續(xù)占據(jù)國(guó)內(nèi)外媒體頭條,，影響力不斷擴(kuò)大,。關(guān)于DeepSeek模型的訓(xùn)練數(shù)據(jù),、GPU使用量,、團(tuán)隊(duì)構(gòu)成及強(qiáng)化學(xué)習(xí)算法等細(xì)節(jié)成為關(guān)注焦點(diǎn)。

SemiAnalysis的一篇深度報(bào)道從多個(gè)角度進(jìn)行了推測(cè),，包括訓(xùn)練成本,、對(duì)閉源模型利潤(rùn)的影響以及團(tuán)隊(duì)規(guī)模等。報(bào)道指出,，DeepSeek并非簡(jiǎn)單的副業(yè)項(xiàng)目,，其在GPU等硬件上的支出超過(guò)5億美元。論文中提到的600萬(wàn)美元僅是預(yù)訓(xùn)練階段的GPU成本,，研發(fā)和硬件總擁有成本并未計(jì)算在內(nèi),。DeepSeek擁有約5萬(wàn)塊Hopper GPU，包括特供版H800和H20,。公司大約有150名員工，并定期從北大,、浙大等頂尖高校招募人才,，優(yōu)秀候選人年薪可達(dá)130萬(wàn)美元。

DeepSeek的一個(gè)關(guān)鍵創(chuàng)新是多頭潛注意力機(jī)制（MLA）,，該機(jī)制顯著降低了推理成本,。此外，V3模型性能遠(yuǎn)超R1和o1,，谷歌的Gemini 2.0 Flash Thinking與R1不相上下,。隨著V3和R1的發(fā)布，H100價(jià)格大幅上漲,，這體現(xiàn)了杰文斯悖論的作用,。

幻方量化作為DeepSeek的主要投資者，很早就看到了AI在金融領(lǐng)域之外的巨大潛力,。他們?cè)?021年購(gòu)入了10,000塊A100 GPU,，這一決策后來(lái)被證明極具前瞻性。2023年5月,，幻方?jīng)Q定分拆成立DeepSeek,，以更專注地推進(jìn)AI技術(shù)發(fā)展。目前兩家公司在人力資源和計(jì)算資源方面保持密切合作,。

DeepSeek專注于招募中國(guó)本土人才,，強(qiáng)調(diào)實(shí)際能力和求知欲望,。他們?cè)诒本┐髮W(xué)和浙江大學(xué)等頂尖高校舉辦招聘活動(dòng)，提供極具競(jìng)爭(zhēng)力的薪酬待遇?，F(xiàn)有員工約150人,，公司保持快速擴(kuò)張態(tài)勢(shì)。

DeepSeek的定價(jià)策略和運(yùn)營(yíng)效率引發(fā)了廣泛關(guān)注,。盡管預(yù)訓(xùn)練階段的成本僅為600萬(wàn)美元,，但整體投入遠(yuǎn)不止于此。開發(fā)新架構(gòu)的過(guò)程中需要大量資源進(jìn)行測(cè)試和驗(yàn)證,。例如,，多頭潛注意力機(jī)制的開發(fā)周期長(zhǎng)達(dá)數(shù)月，消耗了大量人力和計(jì)算資源,。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

DeepSeek婉拒所有采訪專注研發(fā) 引發(fā)OpenAI緊急應(yīng)對(duì)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)