DeepSeek何以創(chuàng)造行業(yè)奇跡底層創(chuàng)新引領(lǐng)突破

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-29 13:45:08 百家號

堅(jiān)持長期視角，專注底層創(chuàng)新,，探索新的路徑,。一家此前不被多數(shù)媒體關(guān)注的“小企業(yè)”，走開源路線而非閉源或率先開發(fā)應(yīng)用,，卻在2025年開年成為中國大模型領(lǐng)域科技創(chuàng)新的全球代表,。

這家名為DeepSeek（深度求索）的中國大模型企業(yè)，最近發(fā)布的大模型在多項(xiàng)性能測試中達(dá)到了OpenAI最新大模型o1的水平,，部分項(xiàng)目甚至實(shí)現(xiàn)了超越,。這引發(fā)了全球科技行業(yè)的熱烈討論，有媒體形容“DeepSeek朝硅谷‘開了一槍’”,，甚至“震動(dòng)美國科技界”,。

DeepSeek的成功主要體現(xiàn)在兩方面。首先是其算力成本投入與表現(xiàn)出來的性能對比超出了行業(yè)的一般認(rèn)知,。據(jù)媒體報(bào)道,，DeepSeek r1的訓(xùn)練成本僅為ChatGPT o1的零頭。其次是DeepSeek證明了開源路線的逆襲勝利,，對大公司,、巨頭的閉源路線進(jìn)行了一次顛覆。

然而,，這些看法在社交平臺上廣泛討論后,，出現(xiàn)了一些扭曲。例如,，DeepSeek r1的真實(shí)算力成本遠(yuǎn)不止600萬美元,，最早報(bào)道的媒體混淆了論文中的數(shù)據(jù)。事實(shí)上,，550萬美元是DeepSeek v3在正式訓(xùn)練階段的成本,，不包括前期研究和實(shí)驗(yàn)的成本。從行業(yè)發(fā)展的邏輯來看,，探索與迭代,、追趕所需的算力成本不應(yīng)簡單對比。創(chuàng)新和探索必然伴隨著算力和各項(xiàng)成本的浪費(fèi),，在確定性路徑上的優(yōu)化所付出的代價(jià)與探索未知所付出的代價(jià)不宜直接比較,。

現(xiàn)階段大模型的發(fā)展還不能定義為閉源與開源路線的成敗。更嚴(yán)謹(jǐn)?shù)乜创鼶eepSeek帶給我們的驚喜,，應(yīng)該是：它展示了模型架構(gòu)底層創(chuàng)新的價(jià)值,，提升了算力效率,，并推動(dòng)了開源大模型產(chǎn)品在能力上的超越，從而進(jìn)一步提升行業(yè)整體的應(yīng)用研發(fā)水平,。

盡管這個(gè)故事顯得有些審慎無聊,，但值得探討的是為什么一家資金量不占優(yōu)勢、專注于底層創(chuàng)新而非商業(yè)化的開源企業(yè),，能在中國大模型領(lǐng)域?qū)崿F(xiàn)“彎道超車”,。2024年8月，DeepSeek創(chuàng)始人梁文鋒在接受采訪時(shí)提到,，團(tuán)隊(duì)的目標(biāo)是AGI（通用人工智能），因此需要研究新的模型結(jié)構(gòu),，在有限資源下實(shí)現(xiàn)更強(qiáng)的模型能力,。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek何以創(chuàng)造行業(yè)奇跡 底層創(chuàng)新引領(lǐng)突破

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek何以創(chuàng)造行業(yè)奇跡底層創(chuàng)新引領(lǐng)突破