通過思維鏈看懂DeepSeek為何強(qiáng) 低成本高效率的AI革新

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-13 19:19:20 百家號(hào)

中國(guó)人工智能實(shí)驗(yàn)室DeepSeek推出的人工智能語(yǔ)言模型R1引起了巨大反響。它在所有應(yīng)用商店榜單上超越了美國(guó)的競(jìng)爭(zhēng)對(duì)手ChatGPT,，觸發(fā)科技股市高達(dá)1萬(wàn)億美元的拋售,，并在硅谷引發(fā)末日般的評(píng)論。美國(guó)知名風(fēng)險(xiǎn)投資家馬克·安德森將R1的發(fā)布譽(yù)為全球人工智能發(fā)展競(jìng)賽中的“斯普特尼克時(shí)刻”,，比肩當(dāng)年蘇聯(lián)通過發(fā)射衛(wèi)星而令冷戰(zhàn)對(duì)手美國(guó)震驚的歷史性事件,。

英偉達(dá)作為為AI模型提供支持的領(lǐng)先計(jì)算機(jī)芯片制造商，股價(jià)暴跌17%,，市值蒸發(fā)近6000億美元,，跌幅創(chuàng)美國(guó)股市最高紀(jì)錄。谷歌母公司損失了1000億美元,，微軟損失了70億美元,。美國(guó)總統(tǒng)唐納德·特朗普表示，DeepSeek應(yīng)該成為“美國(guó)行業(yè)的警鐘,，我們需要全力以赴,，專注于競(jìng)爭(zhēng)以取得勝利”。

根據(jù)DeepSeek的說法,，其R1模型在“各種基準(zhǔn)測(cè)試”中表現(xiàn)優(yōu)于OpenAI的o1-mini模型,，Artificial Analysis的研究也表明，R1模型在整體質(zhì)量方面超越了谷歌,、Meta和Anthropic開發(fā)的模型,。業(yè)界的震動(dòng)不僅源于質(zhì)量的高低，還在于DeepSeek聲稱僅花費(fèi)不到600萬(wàn)美元就訓(xùn)練出了一款可與ChatGPT媲美的人工智能模型,。相比之下,，OpenAI的主要合作伙伴微軟計(jì)劃今年在人工智能基礎(chǔ)設(shè)施上投入約800億美元。

R1是一種“思維鏈”模型,，這意味著當(dāng)你給它一個(gè)查詢時(shí),，它會(huì)通過自我推理來給出答案。反復(fù)測(cè)試表明,，DeepSeek-R1在解決數(shù)學(xué)和科學(xué)問題方面的能力與OpenAI于2024年9月在舊金山發(fā)布的o1模型相當(dāng),。R1不僅可以直接與o1進(jìn)行比較,，還增強(qiáng)了自身回答數(shù)學(xué)和編程問題的能力，這些能力在AI專家中被高度重視,。不僅如此,，R1在語(yǔ)言處理和自然語(yǔ)言推理任務(wù)中的表現(xiàn)也令人印象深刻，適用于更廣泛的應(yīng)用,。

R1還更具可訪問性。它不僅通過應(yīng)用程序免費(fèi)提供使用（而OpenAI的o1則需要每月支付20美元）,，而且對(duì)于開發(fā)者來說完全免費(fèi),，可以下載并集成到他們的業(yè)務(wù)中。這鼓勵(lì)更多科學(xué)家在日常研究中嘗試使用大語(yǔ)言模型,，而無需擔(dān)心成本問題,。此外，R1的開放性可能會(huì)給科學(xué)研究帶來顛覆性的變化：研究人員可以通過其應(yīng)用程序接口（API）使用該模型,，或者通過在線聊天機(jī)器人DeepThink免費(fèi)查詢,。他們還可以將該模型下載到自己的服務(wù)器上，免費(fèi)運(yùn)行并在此基礎(chǔ)上進(jìn)行開發(fā),。

從人工智能研究的角度來看,，DeepSeek展示了一種改進(jìn)無數(shù)其他模型的方法。它通過使模型構(gòu)建變得更便宜,、更快速,、更易于獲取，代表了全球AI的重大進(jìn)展,。雖然LLM并不是通向先進(jìn)AI的唯一途徑,，但DeepSeek的創(chuàng)新當(dāng)?shù)闷稹癆I里程碑”的美譽(yù)。

Anthropic的聯(lián)合創(chuàng)始人杰克·克拉克表示,，該公司的模型Claude也受到啟發(fā),。“現(xiàn)在互聯(lián)網(wǎng)上出現(xiàn)了一個(gè)開放權(quán)重的模型,，任何足夠強(qiáng)大的基礎(chǔ)模型都可以通過它引導(dǎo)成為一個(gè)AI推理器,，”他在新聞簡(jiǎn)報(bào)Import AI中寫道，“全球的AI能力剛剛實(shí)現(xiàn)了一次不可逆的進(jìn)步,?！?/p>

DeepSeek在構(gòu)建其R1模型時(shí)的重大創(chuàng)新是摒棄了人工反饋，設(shè)計(jì)算法來識(shí)別并糾正自身的錯(cuò)誤,。研究人員寫道：“DeepSeekR1-Zero展示了自我驗(yàn)證,、反思和生成長(zhǎng)鏈推理等能力……值得注意的是，這是首次通過強(qiáng)化學(xué)習(xí)驗(yàn)證大規(guī)模語(yǔ)言模型的推理能力可以僅通過這種方式進(jìn)行激勵(lì),?！?/p>

R1的創(chuàng)建方法削弱了硅谷目前的AI發(fā)展方式,。美國(guó)主導(dǎo)的方式是通過簡(jiǎn)單地增加更多的數(shù)據(jù)和計(jì)算能力來擴(kuò)展現(xiàn)有模型，以實(shí)現(xiàn)更高的性能,。這種方法導(dǎo)致了該行業(yè)能源需求的巨大增加,，并使科技公司與政客緊密相連。特朗普提到他一直在“閱讀有關(guān)中國(guó)DeepSeek”及其公司的內(nèi)容,，特別是一家提出了“更快且更低成本的人工智能方法”的公司,。“這很好,，因?yàn)槟悴恍枰ㄙM(fèi)那么多錢,。我將其視為一種積極的因素，一種資產(chǎn),，”特朗普表示,。

市場(chǎng)對(duì)舊AI發(fā)展方式受到的沖擊反應(yīng)迅速且猛烈?！督鹑跁r(shí)報(bào)》報(bào)道稱,，對(duì)沖基金Elliott Management在一份致投資者的通知中表示，人工智能被“過度炒作”,，而作為這一熱潮的大贏家之一的英偉達(dá)正處于一個(gè)“泡沫”之中,。隨著DeepSeek的崛起，科技公司可能會(huì)開始質(zhì)疑是否還需要像以前那樣大量購(gòu)買英偉達(dá)的工具,。

從長(zhǎng)遠(yuǎn)來看,，AI領(lǐng)域的新競(jìng)爭(zhēng)者對(duì)英偉達(dá)來說，會(huì)是個(gè)好消息嗎,？其他公司在AI軍備競(jìng)賽中投入的計(jì)算能力是否代表了浪費(fèi)的資金,？通過開發(fā)出一個(gè)與美國(guó)同行相匹敵、在許多方面超越它們的AI模型,，DeepSeek挑戰(zhàn)了硅谷的故事,，即技術(shù)創(chuàng)新需要龐大的資源和最小的監(jiān)管。

DeepSeek做了什么是財(cái)力雄厚的OpenAI沒有做到的呢,？很難確定答案,，因?yàn)镺penAI對(duì)其GPT-o1模型的訓(xùn)練過程一直非常保密。不過,，兩家公司在方法上的一些明顯差異,，以及DeepSeek似乎在某些領(lǐng)域取得的令人印象深刻的突破，都值得關(guān)注,?？赡茏畲蟮牟町愒谟贒eepSeek能以遠(yuǎn)高于其規(guī)模對(duì)手的效率創(chuàng)造出競(jìng)爭(zhēng)模型。

OpenAI能否轉(zhuǎn)向高效,？當(dāng)然可以,。但其與微軟的合作伙伴關(guān)系和問題重重的領(lǐng)導(dǎo)結(jié)構(gòu)可能使這種轉(zhuǎn)變昂貴得多,。該公司深度整合了微軟的Azure基礎(chǔ)設(shè)施，曾經(jīng)看似是戰(zhàn)略優(yōu)勢(shì),，現(xiàn)在看起來越來越像一種負(fù)擔(dān),。雖然OpenAI一直在推動(dòng)客戶轉(zhuǎn)向微軟龐大的數(shù)據(jù)中心，但市場(chǎng)正在發(fā)現(xiàn)一條不同的道路：高效的開源AI模型,，可以在明顯更便宜的基礎(chǔ)設(shè)施上運(yùn)行,。

近年來，OpenAI通過將現(xiàn)有的機(jī)器學(xué)習(xí)算法擴(kuò)展到前所未有的規(guī)模,，在語(yǔ)言處理領(lǐng)域?qū)崿F(xiàn)了一系列令人矚目的突破,。然而，早在2023年4月,，公司CEO山姆·阿爾特曼就表示，進(jìn)一步的進(jìn)展不會(huì)來自于模型規(guī)模的繼續(xù)擴(kuò)大,。他認(rèn)為,，巨型模型時(shí)代的盡頭已經(jīng)到來，未來將以其他方式改進(jìn)它們,。

不過這并不妨礙包括Anthropic,、AI21、Cohere和Character.AI在內(nèi)的許多資金充裕的初創(chuàng)公司,，投入巨大的資源,，致力于構(gòu)建越來越大的算法，試圖趕上OpenAI的技術(shù),。直到DeepSeek出現(xiàn)的時(shí)刻,。R1顛覆了“擴(kuò)展是前進(jìn)之路”的普遍認(rèn)知。據(jù)認(rèn)為,，R1的開發(fā)成本比OpenAI的o1便宜95%,，而且僅使用了Meta的Llama 3.1模型十分之一的計(jì)算能力。能夠以極小的預(yù)算實(shí)現(xiàn)等效的性能,，才是R1令人震驚之處,，這也是它發(fā)布后產(chǎn)生巨大影響的原因。

DeepSeek粉碎了“AI霸主地位需要億萬(wàn)美元支票”的神話,。更進(jìn)一步地,，DeepSeek的發(fā)展引發(fā)了對(duì)AI基礎(chǔ)設(shè)施（如芯片）重大投資必要性的質(zhì)疑，并對(duì)美國(guó)科技公司在AI領(lǐng)域的市場(chǎng)領(lǐng)先地位產(chǎn)生了影響,。美國(guó)投資銀行高盛的分析師在2024年6月發(fā)布了一份題為《生成式AI：過多的支出,，過少的收益？》的報(bào)告,，敲響了AI投資的警鐘,。該報(bào)告質(zhì)疑未來幾年內(nèi)對(duì)AI的1萬(wàn)億美元投資是否“值得”,，并表達(dá)了對(duì)投資回報(bào)的擔(dān)憂，而這種擔(dān)憂現(xiàn)在被DeepSeek的案例所加劇,。

短期來看,，這對(duì)英偉達(dá)來說是個(gè)壞消息，因?yàn)樗鼘⒁种菩枨?。然而,，從長(zhǎng)期來看，較低的成本（以及因此而降低的能耗）將為更多的初創(chuàng)企業(yè)和企業(yè)提供創(chuàng)建模型的機(jī)會(huì),，從而增加整體需求,。這進(jìn)一步驗(yàn)證了一個(gè)事實(shí)：僅依靠提供核心AI基礎(chǔ)模型的供應(yīng)商是不夠的，此一顛覆性轉(zhuǎn)變將進(jìn)一步打開AI模型市場(chǎng)的大門,。

所有這一切都意味著R1發(fā)布的確切影響是無法預(yù)測(cè)的,。涉及的因素太復(fù)雜，未知數(shù)太多,，無法確定未來會(huì)怎樣,。然而，這并沒有阻止科技界和市場(chǎng)的瘋狂反應(yīng),?？梢源_定的是，實(shí)現(xiàn)下一個(gè)層次的人工智能仍然需要大量的計(jì)算資源,。推動(dòng)我們邁向下一個(gè)里程碑的因素仍然不確定——是規(guī)模,、數(shù)據(jù)、微調(diào),、強(qiáng)化學(xué)習(xí),，還是完全不同的其他因素。DeepSeek目前代表了我們所知道的最先進(jìn)技術(shù),，但它并不是下一個(gè)層次的人工智能,。

DeepSeek R1代表了人工智能發(fā)展中的一個(gè)重要里程碑。AI行業(yè)現(xiàn)在正處于十字路口：通往AI主導(dǎo)地位的道路可能不再是由龐大的數(shù)據(jù)中心和巨額預(yù)算鋪就,，而是通過優(yōu)雅的算法和無情的高效性,，最終將人工智能從象牙塔帶入到大眾手中。在接受中國(guó)媒體采訪時(shí),，梁文鋒表示：“AI應(yīng)該是人人都能負(fù)擔(dān)得起并可獲取的,。”這一點(diǎn),，就是DeepSeek的最大意義之所在,。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

通過思維鏈看懂DeepSeek為何強(qiáng) 低成本高效率的AI革新

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)