Nature連發(fā)三篇文章聚焦DeepSeek 低成本高性能引關(guān)注

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-01 14:39:34 網(wǎng)易

最近,，來自中國杭州的初創(chuàng)公司深度求索（DeepSeek）發(fā)布了兩款大語言模型,，在全球科技界引起廣泛關(guān)注。這兩款模型性能可與美國科技巨頭開發(fā)的主流工具相媲美,，但研發(fā)成本和所需算力卻大大降低,。

2025年1月20日，DeepSeek發(fā)布了部分開源的“推理”模型DeepSeek-R1,，該模型能夠解決一些科學(xué)問題，水平接近OpenAI于2024年底發(fā)布的GPT-o1,。幾天后的1月28日,，DeepSeek又推出了Janus-Pro-7B，這是一款根據(jù)文本提示生成圖像的模型,，其性能與OpenAI的DALL-E 3以及Stability AI的Stable Diffusion相當(dāng),。

國際頂尖學(xué)術(shù)期刊Nature在其官網(wǎng)連續(xù)發(fā)布了三篇關(guān)于DeepSeek的文章。1月29日的文章提到,，科學(xué)家們紛紛涌入DeepSeek,，從AI專家到數(shù)學(xué)家再到認(rèn)知神經(jīng)學(xué)家，他們對DeepSeek-R1的高性能和低成本感到驚嘆,。次日的文章則強(qiáng)調(diào),，DeepSeek-R1執(zhí)行推理任務(wù)的水平與OpenAI的GPT o1相當(dāng)，并且向研究人員開源,，相比之下,，OpenAI推出的GPT o1及最新成果o3基本上都是黑匣子。

DeepSeek-R1的成本也令人印象深刻,。盡管DeepSeek尚未公布訓(xùn)練DeepSeek-R1的全部成本,，但據(jù)估計(jì)，其算力租賃費(fèi)用約為600萬美元,，而Meta公司訓(xùn)練Llama 3.1 405B的算力是其11倍,，訓(xùn)練成本超過6000萬美元。此外,，使用DeepSeek-R1界面的用戶只需支付運(yùn)行ChatGPT o1費(fèi)用的不到三十分之一,。DeepSeek還創(chuàng)建了DeepSeek-R1的迷你“蒸餾”版本，以便算力有限的研究人員也能使用該模型,。

另一篇文章分析了中國如何創(chuàng)造出震驚世界的AI模型DeepSeek,，指出政策支持、大量資金以及眾多AI專業(yè)人才幫助中國企業(yè)建立了先進(jìn)的大語言模型,。國內(nèi)研究人員表示,，這家初創(chuàng)企業(yè)的成功在意料之中,，符合政府成為全球人工智能領(lǐng)導(dǎo)者的雄心。中國科學(xué)院計(jì)算技術(shù)研究所副所長陳云霽研究員指出,，鑒于中國在開發(fā)大語言模型上的巨額投資和大量博士人才,，像DeepSeek這樣的公司在中國出現(xiàn)是不可避免的。

事實(shí)上,，阿里巴巴也在1月29日發(fā)布了迄今為止最先進(jìn)的大語言模型Qwen2.5-Max,，稱其性能優(yōu)于GPT-4o、DeepSeek-V3以及Llama-3.1-405B,。上周,，月之暗面聯(lián)合字節(jié)跳動(dòng)發(fā)布了新的推理模型Kimi 1.5和Kimi 1.5 1.5-pro，在某些基準(zhǔn)測試中的表現(xiàn)優(yōu)于GPT-o1,。

(責(zé)任編輯：張蕾)

關(guān)閉

Nature連發(fā)三篇文章聚焦DeepSeek 低成本高性能引關(guān)注

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)