艾倫人工智能研究所的研究科學(xué)家 Nathan Lambert 認(rèn)為,R1 的發(fā)布標(biāo)志著推理模型研究的一個(gè)重要轉(zhuǎn)折點(diǎn),。在此之前,,推理模型一直是工業(yè)研究的重要領(lǐng)域,但缺乏一篇開創(chuàng)性的論文,。Lambert 指出,,推理研究和進(jìn)展現(xiàn)在已經(jīng)鎖定,預(yù)計(jì) 2025 年將有巨大的進(jìn)展,,而且更多將是公開的,。
DeepSeek-R1 通過僅使用強(qiáng)化學(xué)習(xí)(RL)和無監(jiān)督微調(diào)(SFT),,展示了大模型也可以具備強(qiáng)大的推理能力。Hyperbolic 聯(lián)合創(chuàng)始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進(jìn)行類比,,認(rèn)為 2025 年可能會(huì)成為 RL 的元年,。然而,R1-Zero 在可用性方面存在一些小問題,,表明訓(xùn)練出色的推理模型需要的不僅僅是大規(guī)模的 RL,。
在 R1-Zero 的基礎(chǔ)上,團(tuán)隊(duì)采用了一個(gè)四階段的訓(xùn)練方案,,包括對(duì)合成推理數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),、大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練、拒絕采樣以及混合推理問題和一般偏好調(diào)整的強(qiáng)化學(xué)習(xí)訓(xùn)練,。這個(gè)過程不僅高效,,還保持了模型的可讀性和最終性能。DeepSeek 通過創(chuàng)新方法,,在有限計(jì)算資源下實(shí)現(xiàn)了這些突破,。微軟 AI 前沿研究實(shí)驗(yàn)室首席研究員 Dimitris Papailiopoulos 表示,R1 最令人驚訝的是其工程簡單性,,追求準(zhǔn)確答案而非詳細(xì)邏輯步驟顯著減少了計(jì)算時(shí)間,同時(shí)保持高效率,。
盡管備受關(guān)注,,DeepSeek仍然相對(duì)神秘。公司成立于2023年7月,,創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)信息與電子工程專業(yè),,此前創(chuàng)立了管理約80億美元資產(chǎn)的對(duì)沖基金幻方量化。他的目標(biāo)是構(gòu)建通用人工智能(AGI),。在美國實(shí)施芯片出口管制之前,,梁文鋒就收購了大量英偉達(dá)A100芯片,為公司的技術(shù)突破奠定了基礎(chǔ),。
面對(duì)芯片限制,,DeepSeek 將挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機(jī)遇。前 DeepSeek 員工 Zihan Wang 表示,,在公司工作期間能夠獲得充足的計(jì)算資源并自由實(shí)驗(yàn),。這種創(chuàng)新精神體現(xiàn)在效率提升上。梁文鋒承認(rèn)中國公司在 AI 工程技術(shù)方面相對(duì)落后,,必須消耗兩倍的計(jì)算力才能達(dá)到相同結(jié)果,。但團(tuán)隊(duì)最終找到了減少內(nèi)存使用和加快計(jì)算速度的方法,沒有明顯犧牲準(zhǔn)確性,。
短短一個(gè)月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強(qiáng)在哪中國國產(chǎn)大模型Deepseek在硅谷引起了轟動(dòng),。從斯坦福到麻省理工,Deepseek R1幾乎一夜之間成為美國頂尖大學(xué)研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek短短一個(gè)月內(nèi),,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek讓Meta深陷恐慌過去一周,中國的人工智能大模型成為硅谷乃至全球科技界的熱議話題,。引發(fā)這場討論的是中國人工智能初創(chuàng)公司深度求索(DeepSeek)
2025-01-27 10:02:46幻方DeepSeek如何震驚硅谷