雖然OpenAI的一些模型也使用了RL技術(shù),,性能與DeepSeek-R1相當(dāng),但卡帕西表示他大約80%-90%的查詢依然由GPT-4o完成,,只有遇到非常困難的代碼和數(shù)學(xué)問(wèn)題時(shí)才會(huì)使用思考模型,。
強(qiáng)化學(xué)習(xí)是一種強(qiáng)大的學(xué)習(xí)方式,這一點(diǎn)已在圍棋領(lǐng)域得到驗(yàn)證,。DeepMind開(kāi)發(fā)的AlphaGo通過(guò)自博弈和強(qiáng)化學(xué)習(xí)突破了人類棋手的實(shí)力上限,。AlphaGo通過(guò)廣泛嘗試制勝策略,甚至超越了頂級(jí)玩家李世石,。理論上,,強(qiáng)化學(xué)習(xí)可以持續(xù)運(yùn)行,但由于成本原因,,DeepMind團(tuán)隊(duì)選擇在某些時(shí)候停止,。通過(guò)DeepSeek-R1,我們開(kāi)始看到強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型推理問(wèn)題上的巨大潛力,。
未來(lái),,如果我們繼續(xù)在大語(yǔ)言模型領(lǐng)域擴(kuò)展強(qiáng)化學(xué)習(xí),可能解鎖那些讓人類難以理解的解決方案,。這可能包括發(fā)現(xiàn)新的類比,、思考策略,甚至是發(fā)明一種更適合思考的語(yǔ)言,。實(shí)現(xiàn)這些的前提是為模型創(chuàng)造足夠大的問(wèn)題集,讓其不斷優(yōu)化和完善解決問(wèn)題的策略,。
卡帕西還預(yù)言了未來(lái)幾大AI趨勢(shì),,包括多模態(tài)AI和測(cè)試時(shí)訓(xùn)練,。由于音頻、圖片,、視頻等內(nèi)容都可以被token化,,采用大語(yǔ)言模型的訓(xùn)練邏輯將提升模型在相關(guān)領(lǐng)域的表現(xiàn)。此外,,測(cè)試時(shí)訓(xùn)練將成為AI研究的前沿方向,,允許模型根據(jù)新數(shù)據(jù)微調(diào)參數(shù),更好地應(yīng)對(duì)特定問(wèn)題,。
強(qiáng)化學(xué)習(xí)作為上一個(gè)世代AI能力突破的重要方向,,由DeepSeek在生成式AI時(shí)代再度發(fā)揚(yáng)光大。盡管有一些質(zhì)疑聲音,,但許多專注于技術(shù)本身的AI開(kāi)發(fā)者認(rèn)為,,DeepSeek的開(kāi)源突破對(duì)整個(gè)AI界的發(fā)展是有利的,他們期待DeepSeek帶來(lái)更多驚喜,。AI大??ㄅ廖魇①滵eepSeek!