AI大??ㄅ廖魇①滵eepSeek!近日,,OpenAI聯(lián)合創(chuàng)始人,、前特斯拉AI總監(jiān)安德烈·卡帕西在YouTube上發(fā)布了一則3.5小時(shí)的免費(fèi)課程,向普通觀(guān)眾全面介紹了大模型的相關(guān)知識(shí),。他以最近爆火的DeepSeek-R1為例,,詳細(xì)講解了強(qiáng)化學(xué)習(xí)技術(shù)路徑的巨大潛力。
卡帕西指出,,在大模型訓(xùn)練體系中,,預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)是三個(gè)主要階段,。他認(rèn)為強(qiáng)化學(xué)習(xí)是其中最關(guān)鍵的一環(huán),,盡管其本質(zhì)是“試錯(cuò)學(xué)習(xí)”,但在選擇最佳解決方案和提示詞分布等方面仍有許多細(xì)節(jié)需要解決,。這些問(wèn)題目前僅限于各大AI實(shí)驗(yàn)室內(nèi)部,,缺乏統(tǒng)一標(biāo)準(zhǔn)。
DeepSeek-R1的研究論文首次公開(kāi)討論了強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型中的應(yīng)用,,并分享了這項(xiàng)技術(shù)如何使模型展現(xiàn)出推理能力,。卡帕西認(rèn)為R1在強(qiáng)化學(xué)習(xí)過(guò)程中涌現(xiàn)出的思維能力是最令人難以置信的成效,。未來(lái),,如果繼續(xù)在大模型領(lǐng)域?qū)?qiáng)化學(xué)習(xí)進(jìn)行擴(kuò)展,,有望讓大模型解鎖像AlphaGo那樣的“神之一手”,創(chuàng)造出前所未有的思考方式,,例如用全新語(yǔ)言進(jìn)行思考,。但前提是需要?jiǎng)?chuàng)造足夠大且多樣的問(wèn)題集,讓模型能夠自由探索解決方案,。
強(qiáng)化學(xué)習(xí)的基本工作方式是讓模型在可驗(yàn)證的問(wèn)題上不斷試錯(cuò),,并根據(jù)答案正誤激勵(lì)正確行為,最終引導(dǎo)模型提升能力,。當(dāng)前主流的大語(yǔ)言模型訓(xùn)練體系包括預(yù)訓(xùn)練,、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。預(yù)訓(xùn)練和監(jiān)督微調(diào)已發(fā)展成熟,,而強(qiáng)化學(xué)習(xí)仍處于早期階段,。DeepSeek-R1論文的重要意義在于它是第一篇公開(kāi)討論強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型應(yīng)用的論文,激發(fā)了AI界使用RL訓(xùn)練大語(yǔ)言模型的興趣,,并提供了許多研究結(jié)果和技術(shù)細(xì)節(jié),。
DeepSeek在R1論文中展示了R1-Zero在A(yíng)IME競(jìng)賽數(shù)學(xué)問(wèn)題上的準(zhǔn)確性提升過(guò)程,。隨著強(qiáng)化學(xué)習(xí)步驟增加,,模型準(zhǔn)確性持續(xù)上升。更令人驚喜的是,,模型在這一過(guò)程中形成了一套獨(dú)特的解題方法,,傾向于使用更多token來(lái)提高準(zhǔn)確性。R1在強(qiáng)化學(xué)習(xí)過(guò)程中展現(xiàn)了所謂的“aha moment”,,即通過(guò)嘗試多種想法從不同角度解決問(wèn)題,,顯著提升了準(zhǔn)確率。這種解決方式類(lèi)似于人類(lèi)解決數(shù)學(xué)問(wèn)題的模式,,但不是靠模仿或硬編碼,,而是自然涌現(xiàn)的。R1重新發(fā)現(xiàn)了人腦的思維過(guò)程,,自學(xué)了思維鏈(CoT),,這是RL應(yīng)用于大語(yǔ)言模型時(shí)最令人難以置信的成效。