復(fù)旦教授談DeepSeek AI界的“鯰魚”效應(yīng)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-05 22:00:03 新浪新聞

科技圈從來不缺新聞,，但 DeepSeek-R1 的出現(xiàn)卻像一顆石子投入平靜的湖面,，激起了層層漣漪。這家來自中國的 AI 初創(chuàng)公司以其開源的推理大模型 R1 攪動了全球 AI 格局,。R1 不僅性能媲美甚至超越 OpenAI o1,，還以低廉的成本和開放的姿態(tài)贏得了全世界的關(guān)注。DeepSeek-R1 的開源策略和高效性能正在迫使整個行業(yè)重新思考 AI 的未來,。

中國計算機學(xué)會青年計算機科學(xué)與技術(shù)論壇（CCF YOCSEF）近期組織了一場研討會,，邀請了復(fù)旦大學(xué)邱錫鵬教授、清華大學(xué)劉知遠長聘副教授,、清華大學(xué)翟季冬教授以及上海交通大學(xué)戴國浩副教授四位專家,，從不同角度深入解析了 DeepSeek-R1 的技術(shù)突破與未來影響。

要理解 R1 的突破,，需要從 o1 類推理模型說起,。邱錫鵬認為當(dāng)前人工智能領(lǐng)域正面臨一個重要轉(zhuǎn)折點。此前 Ilya 稱“預(yù)訓(xùn)練時代可能即將結(jié)束”,，主要源于數(shù)據(jù)增長的停滯,。OpenAI 開始轉(zhuǎn)向強化學(xué)習(xí)和推理式計算，試圖通過增加推理長度來改進模型性能,，為下一代大模型的發(fā)展注入新動力,。

o1 模型的訓(xùn)練在強化學(xué)習(xí)框架下進行，大語言模型充當(dāng)一個 Agent,，每個動作生成下一個 token,，最終生成整個 step 或 solution。o1 這類大型推理模型可以分為四個核心要素：策略初始化,、獎勵函數(shù)設(shè)計,、搜索策略和學(xué)習(xí)過程。策略初始化要求模型具備初始的類人推理行為能力,，包括問題理解,、任務(wù)分解及驗證和修正錯誤的能力,。獎勵函數(shù)設(shè)計則涉及從環(huán)境中直接獲得獎勵信號或通過專家偏好數(shù)據(jù)訓(xùn)練獎勵模型。搜索策略包括基于樹的搜索和基于順序修改的搜索,。學(xué)習(xí)過程主要包括使用強化學(xué)習(xí)和其他方法優(yōu)化模型,，分為預(yù)熱階段和強化學(xué)習(xí)階段。

R1 發(fā)布了兩個版本：R1-Zero 和 R1,。R1-Zero 完全依靠強化學(xué)習(xí)驅(qū)動,，不經(jīng)過預(yù)熱階段，沒有任何初始的人工調(diào)節(jié),。在訓(xùn)練過程中,，隨著步驟的增加，模型逐漸展現(xiàn)出長文本推理能力,，尤其是長鏈推理,，并表現(xiàn)出自我修正能力。不過也存在一些問題,，如語言混合的問題,。

12 全文共 2 頁下一頁

關(guān)閉

復(fù)旦教授談DeepSeek AI界的“鯰魚”效應(yīng)

相關(guān)新聞

今日熱點

頻道熱點