倫敦當(dāng)?shù)貢r(shí)間10月18日18:00(北京時(shí)間19日01:00),,谷歌旗下的DeepMind團(tuán)隊(duì)公布了進(jìn)化后的最強(qiáng)版AlphaGo ,,代號(hào)AlphaGo Zero,。
新版本的AlphaGo究竟有多厲害,?打敗李世石的AlphaGo用了3000萬(wàn)盤(pán)比賽作為訓(xùn)練數(shù)據(jù),,AlphaGo Zero用了490萬(wàn)盤(pán)比賽數(shù)據(jù),。經(jīng)過(guò)3天的訓(xùn)練,,AlphaGo Zero就以100:0的比分完勝對(duì)陣?yán)钍朗哪前鍭lphaGo,。
DeepMind聯(lián)合創(chuàng)始人兼CEO ,、AlphaGo之父戴密斯,?哈薩比斯(Demis Hassabis)和AlphaGo團(tuán)隊(duì)負(fù)責(zé)人大衛(wèi)?席爾瓦(Dave Sliver) 等人同時(shí)在官方博客上發(fā)表文章,,詳解最強(qiáng)版本阿爾法狗是如何煉成的,,與前代有何不同。
哈薩比斯與學(xué)習(xí)大量人類棋譜起步的前代AlphaGo不同,,AlphaGo Zero是從“嬰兒般的白紙”開(kāi)始,,通過(guò)3天數(shù)百萬(wàn)盤(pán)自我對(duì)弈,走完了人類千年的圍棋歷史,,并探索出了不少橫空出世的招法,。
哈薩比斯等人專文:《AlphaGo Zero:從零開(kāi)始》
席爾瓦在烏鎮(zhèn)人機(jī)峰會(huì)上發(fā)言從語(yǔ)音識(shí)別、圖像分類到基因和藥物研究,,人工智能發(fā)展迅速,。這些專家系統(tǒng),很多是借用海量人類經(jīng)驗(yàn)和數(shù)據(jù)開(kāi)發(fā)出來(lái)的,。
然而,,在有些特定問(wèn)題上,人類的知識(shí)要么過(guò)于昂貴,,要么不靠譜,,要么無(wú)法獲得,。因此,人工智能研究的一個(gè)長(zhǎng)期目標(biāo)就是跳過(guò)這一步,,創(chuàng)造能在最有挑戰(zhàn)性的領(lǐng)域,,不用人類輸入就達(dá)到超人水平的算法。我們發(fā)表在《自然》期刊上的最新論文,,展示了實(shí)現(xiàn)該目標(biāo)的關(guān)鍵一步,。
論文介紹了首個(gè)戰(zhàn)勝人類圍棋冠軍的電腦程序AlphaGo的最新進(jìn)化版本:AlphaGo Zero。AlphaGo Zero更為強(qiáng)大,,可以一爭(zhēng)史上最強(qiáng)圍棋手,。
AlphaGo的前幾代版本,一開(kāi)始用上千盤(pán)人類業(yè)余和專業(yè)棋手的棋譜進(jìn)行訓(xùn)練,,學(xué)習(xí)如何下圍棋,。AlphaGo Zero則跳過(guò)了這個(gè)步驟,自我對(duì)弈學(xué)習(xí)下棋,,完全從亂下開(kāi)始,。用這種方法,它很快超過(guò)了人類水平,,對(duì)陣此前戰(zhàn)勝人類冠軍李世石的前代AlphaGo取得了100連勝,。
AlphaGo Zero之所以能當(dāng)自己的老師,是用了一種叫
強(qiáng)化學(xué)習(xí)的新模式,。系統(tǒng)從一個(gè)對(duì)圍棋一無(wú)所知的神經(jīng)網(wǎng)絡(luò)開(kāi)始,,將該神經(jīng)網(wǎng)絡(luò)和一個(gè)強(qiáng)力搜索算法結(jié)合,自我對(duì)弈,。在對(duì)弈過(guò)程中,,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整、升級(jí),,預(yù)測(cè)每一步落子和最終的勝利者,。