丹麥哥本哈根信息技術(shù)大學(xué)的塞巴斯蒂安·里斯(Sebastian Risi)表示:“這看起來是向前邁出的一大步,。我們不知道這其間有多少創(chuàng)新,,但培訓(xùn)AI的方式似乎是關(guān)鍵,?!崩锼沟耐履釥査埂べZ斯特森(Niels Justesen)說:“我沒想到會(huì)發(fā)生這樣的事情,尤其是因?yàn)橹暗亩说蕉藢W(xué)習(xí)《星際爭霸》的嘗試遠(yuǎn)遠(yuǎn)沒有達(dá)到人類的水平,?!?/p>
殘酷的強(qiáng)化學(xué)習(xí)AI競技場
最終,這類工作的最終目標(biāo)不是利用AI在視頻游戲中擊敗人類,,而是改進(jìn)AI的訓(xùn)練方法,,尤其是為了創(chuàng)建能夠在《星際爭霸》等復(fù)雜虛擬環(huán)境中運(yùn)行的系統(tǒng)。
為了訓(xùn)練AlphaStar,DeepMind的研究人員使用了被稱為強(qiáng)化學(xué)習(xí)的方法,。AI智能體基本上是通過反復(fù)嘗試才能達(dá)到某些目標(biāo),,比如贏球或者僅僅是生存下去,。它們首先通過模仿人類玩家來學(xué)習(xí),然后在類似競技比賽中相互對(duì)決,。最強(qiáng)的AI會(huì)存活下來,,最弱的則被淘汰。DeepMind估計(jì),,其每個(gè)AlphaStar智能體都以這種方式積累了大約200年的游戲時(shí)間,,游戲速度也在加快。
DeepMind很清楚自己開展這項(xiàng)工作的目標(biāo),。AlphaStar項(xiàng)目聯(lián)合負(fù)責(zé)人奧里爾·維尼亞斯(Oriol Vinyals)說:“首先,,也是最重要的,DeepMind的任務(wù)是建立通用AI,,它可以執(zhí)行人類所能完成的任何心理任務(wù),。要實(shí)現(xiàn)這個(gè)目標(biāo),最重要的就是對(duì)我們的AI智能體在各種任務(wù)中的表現(xiàn)進(jìn)行基準(zhǔn)測試,?!?/p>
科技媒體Engadget評(píng)論道,谷歌旗下的AI子公司DeepMind已經(jīng)轉(zhuǎn)向電腦游戲,,其AI系統(tǒng)始終在進(jìn)行微調(diào),,以適應(yīng)《星際爭霸2》。今天的《星際爭霸2》比賽,,是AlphaStar與職業(yè)玩家的第一次正面交鋒。在兩場五局的系列比賽中,,AlphaStar戰(zhàn)勝了職業(yè)選手TLO和MaNa,,贏得了10場勝利。而在連續(xù)十次失利后,,人類玩家終于贏得了最后一場比賽,。
DeepMind的野心