倫敦當(dāng)?shù)貢r(shí)間10月18日18:00(北京時(shí)間19日01:00),,AlphaGo再次登上世界頂級(jí)科學(xué)雜志——《自然》,。
一年多前,AlphaGo便是2016年1月28日當(dāng)期的封面文章,,Deepmind公司發(fā)表重磅論文,,介紹了這個(gè)擊敗歐洲圍棋冠軍樊麾的人工智能程序。
今年5月,,以3:0的比分贏下中國棋手柯潔后,,AlphaGo宣布退役,但DeepMind公司并沒有停下研究的腳步,。倫敦當(dāng)?shù)貢r(shí)間10月18日,,DeepMind團(tuán)隊(duì)公布了最強(qiáng)版AlphaGo ,代號(hào)AlphaGo Zero,。它的獨(dú)門秘籍,,是“自學(xué)成才”。而且,,是從一張白紙開始,,零基礎(chǔ)學(xué)習(xí),在短短3天內(nèi),,成為頂級(jí)高手,。
團(tuán)隊(duì)稱,AlphaGo Zero的水平已經(jīng)超過之前所有版本的AlphaGo,。在對(duì)陣曾贏下韓國棋手李世石那版AlphaGo時(shí),,AlphaGo Zero取得了100:0的壓倒性戰(zhàn)績(jī)。DeepMind團(tuán)隊(duì)將關(guān)于AlphaGo Zero的相關(guān)研究以論文的形式,,刊發(fā)在了10月18日的《自然》雜志上,。
“AlphaGo在兩年內(nèi)達(dá)到的成績(jī)令人震驚。現(xiàn)在,,AlphaGo Zero是我們最強(qiáng)版本,,它提升了很多。Zero提高了計(jì)算效率,,并且沒有使用到任何人類圍棋數(shù)據(jù),,”AlphaGo之父、DeepMind聯(lián)合創(chuàng)始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)說,,“最終,,我們想要利用它的算法突破,去幫助解決各種緊迫的現(xiàn)實(shí)世界問題,,如蛋白質(zhì)折疊或設(shè)計(jì)新材料,。如果我們通過AlphaGo,可以在這些問題上取得進(jìn)展,,那么它就有潛力推動(dòng)人們理解生命,,并以積極的方式影響我們的生活,。”
不再受人類知識(shí)限制,,只用4個(gè)TPU
AlphaGo此前的版本,,結(jié)合了數(shù)百萬人類圍棋專家的棋譜,以及強(qiáng)化學(xué)習(xí)的監(jiān)督學(xué)習(xí)進(jìn)行了自我訓(xùn)練,。
在戰(zhàn)勝人類圍棋職業(yè)高手之前,,它經(jīng)過了好幾個(gè)月的訓(xùn)練,依靠的是多臺(tái)機(jī)器和48個(gè)TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片),。
AlphaGo Zero的能力則在這個(gè)基礎(chǔ)上有了質(zhì)的提升,。最大的區(qū)別是,它不再需要人類數(shù)據(jù),。也就是說,,它一開始就沒有接觸過人類棋譜。研發(fā)團(tuán)隊(duì)只是讓它自由隨意地在棋盤上下棋,,然后進(jìn)行自我博弈,。值得一提的是,AlphaGo Zero還非?!暗吞肌?,只用到了一臺(tái)機(jī)器和4個(gè)TPU,極大地節(jié)省了資源,。