丹麥哥本哈根信息技術(shù)大學(xué)的塞巴斯蒂安·里斯(Sebastian Risi)表示:“這看起來是向前邁出的一大步,。我們不知道這其間有多少創(chuàng)新,但培訓(xùn)AI的方式似乎是關(guān)鍵?!崩锼沟耐履釥査埂べZ斯特森(Niels Justesen)說:“我沒想到會發(fā)生這樣的事情,,尤其是因為之前的端到端學(xué)習(xí)《星際爭霸》的嘗試遠遠沒有達到人類的水平?!?/p>
殘酷的強化學(xué)習(xí)AI競技場
最終,,這類工作的最終目標不是利用AI在視頻游戲中擊敗人類,而是改進AI的訓(xùn)練方法,,尤其是為了創(chuàng)建能夠在《星際爭霸》等復(fù)雜虛擬環(huán)境中運行的系統(tǒng),。
為了訓(xùn)練AlphaStar,DeepMind的研究人員使用了被稱為強化學(xué)習(xí)的方法。AI智能體基本上是通過反復(fù)嘗試才能達到某些目標,,比如贏球或者僅僅是生存下去,。它們首先通過模仿人類玩家來學(xué)習(xí),然后在類似競技比賽中相互對決,。最強的AI會存活下來,,最弱的則被淘汰。DeepMind估計,,其每個AlphaStar智能體都以這種方式積累了大約200年的游戲時間,,游戲速度也在加快。
DeepMind很清楚自己開展這項工作的目標,。AlphaStar項目聯(lián)合負責(zé)人奧里爾·維尼亞斯(Oriol Vinyals)說:“首先,,也是最重要的,DeepMind的任務(wù)是建立通用AI,,它可以執(zhí)行人類所能完成的任何心理任務(wù),。要實現(xiàn)這個目標,最重要的就是對我們的AI智能體在各種任務(wù)中的表現(xiàn)進行基準測試,?!?/p>
科技媒體Engadget評論道,谷歌旗下的AI子公司DeepMind已經(jīng)轉(zhuǎn)向電腦游戲,,其AI系統(tǒng)始終在進行微調(diào),,以適應(yīng)《星際爭霸2》。今天的《星際爭霸2》比賽,,是AlphaStar與職業(yè)玩家的第一次正面交鋒,。在兩場五局的系列比賽中,AlphaStar戰(zhàn)勝了職業(yè)選手TLO和MaNa,,贏得了10場勝利,。而在連續(xù)十次失利后,人類玩家終于贏得了最后一場比賽,。
DeepMind的野心