艾倫人工智能研究所的研究科學家 Nathan Lambert 認為,,R1 的發(fā)布標志著推理模型研究的一個重要轉(zhuǎn)折點,。在此之前,,推理模型一直是工業(yè)研究的重要領域,,但缺乏一篇開創(chuàng)性的論文,。Lambert 指出,推理研究和進展現(xiàn)在已經(jīng)鎖定,,預計 2025 年將有巨大的進展,,而且更多將是公開的。
DeepSeek-R1 通過僅使用強化學習(RL)和無監(jiān)督微調(diào)(SFT),,展示了大模型也可以具備強大的推理能力,。Hyperbolic 聯(lián)合創(chuàng)始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進行類比,認為 2025 年可能會成為 RL 的元年,。然而,,R1-Zero 在可用性方面存在一些小問題,表明訓練出色的推理模型需要的不僅僅是大規(guī)模的 RL,。
在 R1-Zero 的基礎上,,團隊采用了一個四階段的訓練方案,包括對合成推理數(shù)據(jù)進行監(jiān)督微調(diào),、大規(guī)模強化學習訓練,、拒絕采樣以及混合推理問題和一般偏好調(diào)整的強化學習訓練。這個過程不僅高效,,還保持了模型的可讀性和最終性能,。DeepSeek 通過創(chuàng)新方法,,在有限計算資源下實現(xiàn)了這些突破。微軟 AI 前沿研究實驗室首席研究員 Dimitris Papailiopoulos 表示,,R1 最令人驚訝的是其工程簡單性,,追求準確答案而非詳細邏輯步驟顯著減少了計算時間,同時保持高效率,。
盡管備受關注,,DeepSeek仍然相對神秘。公司成立于2023年7月,,創(chuàng)始人梁文鋒畢業(yè)于浙江大學信息與電子工程專業(yè),,此前創(chuàng)立了管理約80億美元資產(chǎn)的對沖基金幻方量化。他的目標是構建通用人工智能(AGI),。在美國實施芯片出口管制之前,,梁文鋒就收購了大量英偉達A100芯片,為公司的技術突破奠定了基礎,。
面對芯片限制,,DeepSeek 將挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機遇。前 DeepSeek 員工 Zihan Wang 表示,,在公司工作期間能夠獲得充足的計算資源并自由實驗,。這種創(chuàng)新精神體現(xiàn)在效率提升上。梁文鋒承認中國公司在 AI 工程技術方面相對落后,,必須消耗兩倍的計算力才能達到相同結(jié)果,。但團隊最終找到了減少內(nèi)存使用和加快計算速度的方法,沒有明顯犧牲準確性,。
短短一個月內(nèi),,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強在哪中國國產(chǎn)大模型Deepseek在硅谷引起了轟動。從斯坦福到麻省理工,,Deepseek R1幾乎一夜之間成為美國頂尖大學研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek讓Meta深陷恐慌過去一周,,中國的人工智能大模型成為硅谷乃至全球科技界的熱議話題,。引發(fā)這場討論的是中國人工智能初創(chuàng)公司深度求索(DeepSeek)
2025-01-27 10:02:46幻方DeepSeek如何震驚硅谷