盡管Sutton對(duì)大語(yǔ)言模型(LLM)持批評(píng)態(tài)度,認(rèn)為它們只是模仿人類(lèi)行為而不真正理解自己的行動(dòng),,但他依然堅(jiān)守基礎(chǔ)研究,。在他看來(lái),真正的智能系統(tǒng)應(yīng)該能夠從經(jīng)驗(yàn)中學(xué)習(xí)并調(diào)整行為,。Sutton的前同事Michael Bowling評(píng)價(jià)他是一位堅(jiān)持基礎(chǔ)研究的人。
近年來(lái),強(qiáng)化學(xué)習(xí)越來(lái)越受到重視,。例如,,DeepSeek就利用正反饋循環(huán)來(lái)訓(xùn)練AI。Sutton謙遜且不事張揚(yáng),,他將自己視為一個(gè)強(qiáng)化學(xué)習(xí)智能體,,通過(guò)經(jīng)驗(yàn)不斷學(xué)習(xí),。
強(qiáng)化學(xué)習(xí)是指在獎(jiǎng)勵(lì)信號(hào)引導(dǎo)下找到更好行動(dòng)方案的過(guò)程,。這一理念借鑒了心理學(xué)和神經(jīng)科學(xué)中的獎(jiǎng)勵(lì)機(jī)制。Barto和Sutton借鑒了馬爾可夫決策過(guò)程(MDP)的數(shù)學(xué)基礎(chǔ),,提出了時(shí)間差分學(xué)習(xí)等基本算法,。這些算法結(jié)合深度學(xué)習(xí)技術(shù),在過(guò)去十五年中取得了重大突破,,如AlphaGo戰(zhàn)勝?lài)甯呤趾虲hatGPT的出現(xiàn),。
2024MAMA新人女團(tuán)獎(jiǎng):ILL-IT,,發(fā)表獲獎(jiǎng)感言時(shí)都哭成了淚人兒,。
2024-11-22 16:12:19ILLIT獲MAMA最佳女新人在金搖桿大獎(jiǎng)直播中,,米哈游旗下游戲《崩壞:星穹鐵道》榮獲2024年金搖桿獎(jiǎng)“最佳持續(xù)運(yùn)營(yíng)獎(jiǎng)(手游)”
2024-11-22 07:42:022024金搖桿獎(jiǎng)