科技圈從來不缺新聞,,但 DeepSeek-R1 的出現(xiàn)卻像一顆石子投入平靜的湖面,,激起了層層漣漪。這家來自中國的 AI 初創(chuàng)公司以其開源的推理大模型 R1 攪動(dòng)了全球 AI 格局,。R1 不僅性能媲美甚至超越 OpenAI o1,,還以低廉的成本和開放的姿態(tài)贏得了全世界的關(guān)注,。DeepSeek-R1 的開源策略和高效性能正在迫使整個(gè)行業(yè)重新思考 AI 的未來,。
中國計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科學(xué)與技術(shù)論壇(CCF YOCSEF)近期組織了一場研討會(huì),,邀請了復(fù)旦大學(xué)邱錫鵬教授、清華大學(xué)劉知遠(yuǎn)長聘副教授,、清華大學(xué)翟季冬教授以及上海交通大學(xué)戴國浩副教授四位專家,,從不同角度深入解析了 DeepSeek-R1 的技術(shù)突破與未來影響。
要理解 R1 的突破,,需要從 o1 類推理模型說起,。邱錫鵬認(rèn)為當(dāng)前人工智能領(lǐng)域正面臨一個(gè)重要轉(zhuǎn)折點(diǎn)。此前 Ilya 稱“預(yù)訓(xùn)練時(shí)代可能即將結(jié)束”,,主要源于數(shù)據(jù)增長的停滯,。OpenAI 開始轉(zhuǎn)向強(qiáng)化學(xué)習(xí)和推理式計(jì)算,試圖通過增加推理長度來改進(jìn)模型性能,,為下一代大模型的發(fā)展注入新動(dòng)力,。
o1 模型的訓(xùn)練在強(qiáng)化學(xué)習(xí)框架下進(jìn)行,大語言模型充當(dāng)一個(gè) Agent,,每個(gè)動(dòng)作生成下一個(gè) token,,最終生成整個(gè) step 或 solution。o1 這類大型推理模型可以分為四個(gè)核心要素:策略初始化,、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),、搜索策略和學(xué)習(xí)過程。策略初始化要求模型具備初始的類人推理行為能力,,包括問題理解,、任務(wù)分解及驗(yàn)證和修正錯(cuò)誤的能力。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)則涉及從環(huán)境中直接獲得獎(jiǎng)勵(lì)信號或通過專家偏好數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型,。搜索策略包括基于樹的搜索和基于順序修改的搜索,。學(xué)習(xí)過程主要包括使用強(qiáng)化學(xué)習(xí)和其他方法優(yōu)化模型,分為預(yù)熱階段和強(qiáng)化學(xué)習(xí)階段,。
R1 發(fā)布了兩個(gè)版本:R1-Zero 和 R1,。R1-Zero 完全依靠強(qiáng)化學(xué)習(xí)驅(qū)動(dòng),不經(jīng)過預(yù)熱階段,,沒有任何初始的人工調(diào)節(jié),。在訓(xùn)練過程中,隨著步驟的增加,,模型逐漸展現(xiàn)出長文本推理能力,,尤其是長鏈推理,并表現(xiàn)出自我修正能力,。不過也存在一些問題,,如語言混合的問題。
R1 的訓(xùn)練分為四個(gè)關(guān)鍵階段:冷啟動(dòng)階段,、推理導(dǎo)向的強(qiáng)化學(xué)習(xí)階段,、拒絕抽樣與監(jiān)督微調(diào)階段,以及全任務(wù)強(qiáng)化學(xué)習(xí)階段,。值得注意的是,,R1 并未采用傳統(tǒng)的過程監(jiān)督或蒙特卡洛樹搜索等技術(shù),而是通過 majority vote 大幅提高推理效果,。尤其令人意外的是,,R1 在寫作能力方面表現(xiàn)突出,。
復(fù)旦大學(xué)教授梁永安是一位年輕人頗為喜歡的“專家”,經(jīng)常在網(wǎng)絡(luò)上給“95后”,、“00后”解答人生煩惱,。
2024-10-30 10:42:24復(fù)旦教授提倡有條件年輕人啃幾年老