AI大?？ㄅ廖魇①滵eepSeek 強化學習展現(xiàn)巨大潛力

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-02-13 12:54:17 智東西

AI大牛卡帕西盛贊DeepSeek,！近日,，OpenAI聯(lián)合創(chuàng)始人,、前特斯拉AI總監(jiān)安德烈·卡帕西在YouTube上發(fā)布了一則3.5小時的免費課程，向普通觀眾全面介紹了大模型的相關知識,。他以最近爆火的DeepSeek-R1為例，詳細講解了強化學習技術路徑的巨大潛力,。

卡帕西指出，在大模型訓練體系中,，預訓練、監(jiān)督微調和強化學習是三個主要階段。他認為強化學習是其中最關鍵的一環(huán)，盡管其本質是“試錯學習”,，但在選擇最佳解決方案和提示詞分布等方面仍有許多細節(jié)需要解決。這些問題目前僅限于各大AI實驗室內部，缺乏統(tǒng)一標準。

DeepSeek-R1的研究論文首次公開討論了強化學習在大語言模型中的應用,，并分享了這項技術如何使模型展現(xiàn)出推理能力,?？ㄅ廖髡J為R1在強化學習過程中涌現(xiàn)出的思維能力是最令人難以置信的成效。未來，如果繼續(xù)在大模型領域對強化學習進行擴展,，有望讓大模型解鎖像AlphaGo那樣的“神之一手”,，創(chuàng)造出前所未有的思考方式，例如用全新語言進行思考。但前提是需要創(chuàng)造足夠大且多樣的問題集,，讓模型能夠自由探索解決方案,。

強化學習的基本工作方式是讓模型在可驗證的問題上不斷試錯，并根據(jù)答案正誤激勵正確行為,，最終引導模型提升能力,。當前主流的大語言模型訓練體系包括預訓練、監(jiān)督微調和強化學習,。預訓練和監(jiān)督微調已發(fā)展成熟,，而強化學習仍處于早期階段。DeepSeek-R1論文的重要意義在于它是第一篇公開討論強化學習在大語言模型應用的論文,，激發(fā)了AI界使用RL訓練大語言模型的興趣,，并提供了許多研究結果和技術細節(jié)。

DeepSeek在R1論文中展示了R1-Zero在AIME競賽數(shù)學問題上的準確性提升過程,。隨著強化學習步驟增加,，模型準確性持續(xù)上升。更令人驚喜的是,，模型在這一過程中形成了一套獨特的解題方法,，傾向于使用更多token來提高準確性。R1在強化學習過程中展現(xiàn)了所謂的“aha moment”,，即通過嘗試多種想法從不同角度解決問題,，顯著提升了準確率。這種解決方式類似于人類解決數(shù)學問題的模式,，但不是靠模仿或硬編碼,，而是自然涌現(xiàn)的。R1重新發(fā)現(xiàn)了人腦的思維過程,，自學了思維鏈（CoT）,，這是RL應用于大語言模型時最令人難以置信的成效。

12 全文共 2 頁下一頁

關閉

AI大?？ㄅ廖魇①滵eepSeek 強化學習展現(xiàn)巨大潛力

相關新聞

今日熱點

頻道熱點