起底讓硅谷難安的DeepSeek 引發(fā)全球AI界風(fēng)暴(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-26 14:46:44 DeepTech深科技

艾倫人工智能研究所的研究科學(xué)家 Nathan Lambert 認(rèn)為，R1 的發(fā)布標(biāo)志著推理模型研究的一個(gè)重要轉(zhuǎn)折點(diǎn),。在此之前,，推理模型一直是工業(yè)研究的重要領(lǐng)域，但缺乏一篇開創(chuàng)性的論文,。Lambert 指出,，推理研究和進(jìn)展現(xiàn)在已經(jīng)鎖定，預(yù)計(jì) 2025 年將有巨大的進(jìn)展,，而且更多將是公開的,。

DeepSeek-R1 通過僅使用強(qiáng)化學(xué)習(xí)（RL）和無監(jiān)督微調(diào)（SFT）,，展示了大模型也可以具備強(qiáng)大的推理能力。Hyperbolic 聯(lián)合創(chuàng)始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進(jìn)行類比,，認(rèn)為 2025 年可能會(huì)成為 RL 的元年,。然而，R1-Zero 在可用性方面存在一些小問題,，表明訓(xùn)練出色的推理模型需要的不僅僅是大規(guī)模的 RL,。

在 R1-Zero 的基礎(chǔ)上，團(tuán)隊(duì)采用了一個(gè)四階段的訓(xùn)練方案,，包括對(duì)合成推理數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),、大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練、拒絕采樣以及混合推理問題和一般偏好調(diào)整的強(qiáng)化學(xué)習(xí)訓(xùn)練,。這個(gè)過程不僅高效,，還保持了模型的可讀性和最終性能。DeepSeek 通過創(chuàng)新方法,，在有限計(jì)算資源下實(shí)現(xiàn)了這些突破,。微軟 AI 前沿研究實(shí)驗(yàn)室首席研究員 Dimitris Papailiopoulos 表示，R1 最令人驚訝的是其工程簡單性,，追求準(zhǔn)確答案而非詳細(xì)邏輯步驟顯著減少了計(jì)算時(shí)間，同時(shí)保持高效率,。

盡管備受關(guān)注,，DeepSeek仍然相對(duì)神秘。公司成立于2023年7月,，創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)信息與電子工程專業(yè),，此前創(chuàng)立了管理約80億美元資產(chǎn)的對(duì)沖基金幻方量化。他的目標(biāo)是構(gòu)建通用人工智能（AGI）,。在美國實(shí)施芯片出口管制之前,，梁文鋒就收購了大量英偉達(dá)A100芯片，為公司的技術(shù)突破奠定了基礎(chǔ),。

面對(duì)芯片限制,，DeepSeek 將挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機(jī)遇。前 DeepSeek 員工 Zihan Wang 表示,，在公司工作期間能夠獲得充足的計(jì)算資源并自由實(shí)驗(yàn),。這種創(chuàng)新精神體現(xiàn)在效率提升上。梁文鋒承認(rèn)中國公司在 AI 工程技術(shù)方面相對(duì)落后,，必須消耗兩倍的計(jì)算力才能達(dá)到相同結(jié)果,。但團(tuán)隊(duì)最終找到了減少內(nèi)存使用和加快計(jì)算速度的方法，沒有明顯犧牲準(zhǔn)確性,。

關(guān)閉

起底讓硅谷難安的DeepSeek 引發(fā)全球AI界風(fēng)暴(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)