春節(jié)期間,國內(nèi)外AI圈都被DeepSeek刷屏。英偉達(dá)的股市震蕩更是讓全世界矚目,。DeepSeek最近發(fā)布的兩個模型——DeepSeek-V3和DeepSeek-R1以較低成本獲得了與OpenAI同類模型相當(dāng)?shù)男阅?,這引發(fā)了市場對AI硬件需求的擔(dān)憂,投資者擔(dān)心未來對英偉達(dá)高端芯片的需求可能會減少,。
關(guān)于DeepSeek技術(shù)創(chuàng)新的討論也非常多,。很多人認(rèn)為,DeepSeek在硬件受限的情況下走出了一條不同于OpenAI等狂堆算力的道路,,通過一系列技術(shù)創(chuàng)新來減少模型對算力的需求,同時提升性能,。這些成就得到了包括Sam Altman在內(nèi)的AI領(lǐng)軍人物的認(rèn)可,。
隨后,OpenAI首席研究官Mark Chen發(fā)帖表示,,DeepSeek確實獨立發(fā)現(xiàn)了一些OpenAI也在用的核心理念,,但這不代表OpenAI在算力上的高投入不合理,。他認(rèn)為外界對成本方面的反應(yīng)有些過度夸大,,并指出擁有預(yù)訓(xùn)練和推理兩個范式意味著可以在兩個維度上優(yōu)化能力,。隨著蒸餾研究的成熟,,降低成本和提升能力愈發(fā)解耦。OpenAI將繼續(xù)提升低成本提供模型服務(wù)的能力,,但也會繼續(xù)專注于其研究路線圖,,計劃在今年帶來更多更好的模型。
OpenAI研究科學(xué)家Noam Brown也試圖弱化外界對OpenAI和DeepSeek的對比,,但效果并不明顯。Mark Chen提到的“外界對成本方面的反應(yīng)有些過度夸大”這一點也被廣泛討論,。實際上,DeepSeek-V3的成本僅包括正式訓(xùn)練,,不包括前期研究、消融實驗等費用,。
短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強在哪