AI的重大進(jìn)步?
撇開這些不談,,專家們稱這場(chǎng)比賽是AI向前邁出的重要一步,。長(zhǎng)期參與《星際爭(zhēng)霸》AI場(chǎng)景的AI研究人員戴夫·丘吉爾(Dave Churchill)表示:“我認(rèn)為AI取得了重大成就,至少比我在AI研究人員中聽到的最樂觀猜測(cè)提前了一年,。”然而,邱吉爾補(bǔ)充說(shuō),,由于DeepMind尚未發(fā)布任何關(guān)于這項(xiàng)工作的研究論文,因此很難說(shuō)它是否顯示出任何技術(shù)上的飛躍,。他指出:“我還沒有讀過(guò)這篇博客文章,,也沒有接觸過(guò)相關(guān)的論文或技術(shù)細(xì)節(jié)?!?/p>
佐治亞理工學(xué)院AI副教授馬克·里德爾(Mark Riedl)表示,,他對(duì)結(jié)果并不那么驚訝,AI獲得勝利只是“時(shí)間問(wèn)題”,。里德爾補(bǔ)充說(shuō),,他不認(rèn)為這些比賽表明《星際爭(zhēng)霸2》已經(jīng)被AI徹底掌控。他表示:“在上一場(chǎng)直播比賽中,,限制AlphaStar的某些能力確實(shí)消除了它的許多人為優(yōu)勢(shì),。但我們看到的更大的問(wèn)題是,當(dāng)人們可以把AI推出舒適區(qū)時(shí),,它就會(huì)崩潰,。”
丹麥哥本哈根信息技術(shù)大學(xué)的塞巴斯蒂安·里斯(Sebastian Risi)表示:“這看起來(lái)是向前邁出的一大步,。我們不知道這其間有多少創(chuàng)新,,但培訓(xùn)AI的方式似乎是關(guān)鍵?!崩锼沟耐履釥査埂べZ斯特森(Niels Justesen)說(shuō):“我沒想到會(huì)發(fā)生這樣的事情,,尤其是因?yàn)橹暗亩说蕉藢W(xué)習(xí)《星際爭(zhēng)霸》的嘗試遠(yuǎn)遠(yuǎn)沒有達(dá)到人類的水平?!?/p>
殘酷的強(qiáng)化學(xué)習(xí)AI競(jìng)技場(chǎng)
最終,,這類工作的最終目標(biāo)不是利用AI在視頻游戲中擊敗人類,而是改進(jìn)AI的訓(xùn)練方法,,尤其是為了創(chuàng)建能夠在《星際爭(zhēng)霸》等復(fù)雜虛擬環(huán)境中運(yùn)行的系統(tǒng),。
為了訓(xùn)練AlphaStar,DeepMind的研究人員使用了被稱為強(qiáng)化學(xué)習(xí)的方法。AI智能體基本上是通過(guò)反復(fù)嘗試才能達(dá)到某些目標(biāo),,比如贏球或者僅僅是生存下去,。它們首先通過(guò)模仿人類玩家來(lái)學(xué)習(xí),,然后在類似競(jìng)技比賽中相互對(duì)決。最強(qiáng)的AI會(huì)存活下來(lái),,最弱的則被淘汰,。DeepMind估計(jì),其每個(gè)AlphaStar智能體都以這種方式積累了大約200年的游戲時(shí)間,,游戲速度也在加快,。