倫敦當(dāng)?shù)貢r間10月18日18:00(北京時間19日01:00),,谷歌旗下的DeepMind團(tuán)隊公布了進(jìn)化后的最強(qiáng)版AlphaGo ,代號AlphaGo Zero,。
新版本的AlphaGo究竟有多厲害,?打敗李世石的AlphaGo用了3000萬盤比賽作為訓(xùn)練數(shù)據(jù),AlphaGo Zero用了490萬盤比賽數(shù)據(jù),。經(jīng)過3天的訓(xùn)練,,AlphaGo Zero就以100:0的比分完勝對陣?yán)钍朗哪前鍭lphaGo。
DeepMind聯(lián)合創(chuàng)始人兼CEO ,、AlphaGo之父戴密斯,?哈薩比斯(Demis Hassabis)和AlphaGo團(tuán)隊負(fù)責(zé)人大衛(wèi)?席爾瓦(Dave Sliver) 等人同時在官方博客上發(fā)表文章,,詳解最強(qiáng)版本阿爾法狗是如何煉成的,,與前代有何不同。
哈薩比斯與學(xué)習(xí)大量人類棋譜起步的前代AlphaGo不同,,AlphaGo Zero是從“嬰兒般的白紙”開始,,通過3天數(shù)百萬盤自我對弈,走完了人類千年的圍棋歷史,,并探索出了不少橫空出世的招法,。
哈薩比斯等人專文:《AlphaGo Zero:從零開始》
席爾瓦在烏鎮(zhèn)人機(jī)峰會上發(fā)言從語音識別、圖像分類到基因和藥物研究,,人工智能發(fā)展迅速。這些專家系統(tǒng),,很多是借用海量人類經(jīng)驗和數(shù)據(jù)開發(fā)出來的,。
然而,在有些特定問題上,,人類的知識要么過于昂貴,,要么不靠譜,,要么無法獲得。因此,,人工智能研究的一個長期目標(biāo)就是跳過這一步,,創(chuàng)造能在最有挑戰(zhàn)性的領(lǐng)域,不用人類輸入就達(dá)到超人水平的算法,。我們發(fā)表在《自然》期刊上的最新論文,,展示了實現(xiàn)該目標(biāo)的關(guān)鍵一步。
論文介紹了首個戰(zhàn)勝人類圍棋冠軍的電腦程序AlphaGo的最新進(jìn)化版本:AlphaGo Zero,。AlphaGo Zero更為強(qiáng)大,,可以一爭史上最強(qiáng)圍棋手。
AlphaGo的前幾代版本,,一開始用上千盤人類業(yè)余和專業(yè)棋手的棋譜進(jìn)行訓(xùn)練,,學(xué)習(xí)如何下圍棋。AlphaGo Zero則跳過了這個步驟,,自我對弈學(xué)習(xí)下棋,,完全從亂下開始。用這種方法,,它很快超過了人類水平,,對陣此前戰(zhàn)勝人類冠軍李世石的前代AlphaGo取得了100連勝。
AlphaGo Zero之所以能當(dāng)自己的老師,,是用了一種叫
強(qiáng)化學(xué)習(xí)的新模式,。系統(tǒng)從一個對圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始,將該神經(jīng)網(wǎng)絡(luò)和一個強(qiáng)力搜索算法結(jié)合,,自我對弈,。在對弈過程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整,、升級,,預(yù)測每一步落子和最終的勝利者。