DeepSeek在R1論文中展示了R1-Zero在AIME競(jìng)賽數(shù)學(xué)問(wèn)題上的準(zhǔn)確性提升過(guò)程,。隨著強(qiáng)化學(xué)習(xí)步驟增加,,模型準(zhǔn)確性持續(xù)上升。更令人驚喜的是,模型在這一過(guò)程中形成了一套獨(dú)特的解題方法,傾向于使用更多token來(lái)提高準(zhǔn)確性。R1在強(qiáng)化學(xué)習(xí)過(guò)程中展現(xiàn)了所謂的“aha moment”,,即通過(guò)嘗試多種想法從不同角度解決問(wèn)題,顯著提升了準(zhǔn)確率,。這種解決方式類似于人類解決數(shù)學(xué)問(wèn)題的模式,,但不是靠模仿或硬編碼,而是自然涌現(xiàn)的,。R1重新發(fā)現(xiàn)了人腦的思維過(guò)程,,自學(xué)了思維鏈(CoT),這是RL應(yīng)用于大語(yǔ)言模型時(shí)最令人難以置信的成效。
雖然OpenAI的一些模型也使用了RL技術(shù),,性能與DeepSeek-R1相當(dāng),但卡帕西表示他大約80%-90%的查詢依然由GPT-4o完成,,只有遇到非常困難的代碼和數(shù)學(xué)問(wèn)題時(shí)才會(huì)使用思考模型,。
強(qiáng)化學(xué)習(xí)是一種強(qiáng)大的學(xué)習(xí)方式,,這一點(diǎn)已在圍棋領(lǐng)域得到驗(yàn)證,。DeepMind開(kāi)發(fā)的AlphaGo通過(guò)自博弈和強(qiáng)化學(xué)習(xí)突破了人類棋手的實(shí)力上限。AlphaGo通過(guò)廣泛嘗試制勝策略,,甚至超越了頂級(jí)玩家李世石,。理論上,強(qiáng)化學(xué)習(xí)可以持續(xù)運(yùn)行,,但由于成本原因,,DeepMind團(tuán)隊(duì)選擇在某些時(shí)候停止。通過(guò)DeepSeek-R1,,我們開(kāi)始看到強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型推理問(wèn)題上的巨大潛力,。