最近,,來自中國杭州的初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大語言模型,,在全球科技界引起廣泛關注。這兩款模型性能可與美國科技巨頭開發(fā)的主流工具相媲美,,但研發(fā)成本和所需算力卻大大降低,。
2025年1月20日,,DeepSeek發(fā)布了部分開源的“推理”模型DeepSeek-R1,該模型能夠解決一些科學問題,,水平接近OpenAI于2024年底發(fā)布的GPT-o1,。幾天后的1月28日,DeepSeek又推出了Janus-Pro-7B,,這是一款根據(jù)文本提示生成圖像的模型,,其性能與OpenAI的DALL-E 3以及Stability AI的Stable Diffusion相當。
國際頂尖學術期刊Nature在其官網連續(xù)發(fā)布了三篇關于DeepSeek的文章,。1月29日的文章提到,,科學家們紛紛涌入DeepSeek,從AI專家到數(shù)學家再到認知神經學家,他們對DeepSeek-R1的高性能和低成本感到驚嘆,。次日的文章則強調,,DeepSeek-R1執(zhí)行推理任務的水平與OpenAI的GPT o1相當,并且向研究人員開源,,相比之下,,OpenAI推出的GPT o1及最新成果o3基本上都是黑匣子。
DeepSeek-R1的成本也令人印象深刻,。盡管DeepSeek尚未公布訓練DeepSeek-R1的全部成本,,但據(jù)估計,其算力租賃費用約為600萬美元,,而Meta公司訓練Llama 3.1 405B的算力是其11倍,,訓練成本超過6000萬美元。此外,,使用DeepSeek-R1界面的用戶只需支付運行ChatGPT o1費用的不到三十分之一,。DeepSeek還創(chuàng)建了DeepSeek-R1的迷你“蒸餾”版本,以便算力有限的研究人員也能使用該模型,。
過去一周,DeepSeek R1,、字節(jié)跳動的豆包1.5 Pro以及月之暗面的Kimi k1.5模型相繼推出,,引起了全球投資者的高度關注
2025-02-01 13:18:44DeepSeek沖擊華爾街