AI的重大進步,?
撇開這些不談,,專家們稱這場比賽是AI向前邁出的重要一步。長期參與《星際爭霸》AI場景的AI研究人員戴夫·丘吉爾(Dave Churchill)表示:“我認為AI取得了重大成就,,至少比我在AI研究人員中聽到的最樂觀猜測提前了一年,。”然而,,邱吉爾補充說,由于DeepMind尚未發(fā)布任何關于這項工作的研究論文,,因此很難說它是否顯示出任何技術上的飛躍,。他指出:“我還沒有讀過這篇博客文章,也沒有接觸過相關的論文或技術細節(jié),?!?/p>
佐治亞理工學院AI副教授馬克·里德爾(Mark Riedl)表示,他對結(jié)果并不那么驚訝,,AI獲得勝利只是“時間問題”,。里德爾補充說,,他不認為這些比賽表明《星際爭霸2》已經(jīng)被AI徹底掌控。他表示:“在上一場直播比賽中,,限制AlphaStar的某些能力確實消除了它的許多人為優(yōu)勢,。但我們看到的更大的問題是,當人們可以把AI推出舒適區(qū)時,,它就會崩潰,。”
丹麥哥本哈根信息技術大學的塞巴斯蒂安·里斯(Sebastian Risi)表示:“這看起來是向前邁出的一大步,。我們不知道這其間有多少創(chuàng)新,,但培訓AI的方式似乎是關鍵?!崩锼沟耐履釥査埂べZ斯特森(Niels Justesen)說:“我沒想到會發(fā)生這樣的事情,,尤其是因為之前的端到端學習《星際爭霸》的嘗試遠遠沒有達到人類的水平?!?/p>
殘酷的強化學習AI競技場
最終,,這類工作的最終目標不是利用AI在視頻游戲中擊敗人類,而是改進AI的訓練方法,,尤其是為了創(chuàng)建能夠在《星際爭霸》等復雜虛擬環(huán)境中運行的系統(tǒng),。
為了訓練AlphaStar,DeepMind的研究人員使用了被稱為強化學習的方法。AI智能體基本上是通過反復嘗試才能達到某些目標,,比如贏球或者僅僅是生存下去,。它們首先通過模仿人類玩家來學習,然后在類似競技比賽中相互對決,。最強的AI會存活下來,,最弱的則被淘汰。DeepMind估計,,其每個AlphaStar智能體都以這種方式積累了大約200年的游戲時間,,游戲速度也在加快。