倫敦當地時間10月18日18:00(北京時間19日01:00),AlphaGo再次登上世界頂級科學雜志——《自然》。
一年多前,,AlphaGo便是2016年1月28日當期的封面文章,Deepmind公司發(fā)表重磅論文,,介紹了這個擊敗歐洲圍棋冠軍樊麾的人工智能程序。
今年5月,,以3:0的比分贏下中國棋手柯潔后,,AlphaGo宣布退役,但DeepMind公司并沒有停下研究的腳步,。倫敦當地時間10月18日,,DeepMind團隊公布了最強版AlphaGo ,代號AlphaGo Zero,。它的獨門秘籍,,是“自學成才”。而且,,是從一張白紙開始,,零基礎學習,在短短3天內,,成為頂級高手,。
團隊稱,AlphaGo Zero的水平已經超過之前所有版本的AlphaGo,。在對陣曾贏下韓國棋手李世石那版AlphaGo時,,AlphaGo Zero取得了100:0的壓倒性戰(zhàn)績,。DeepMind團隊將關于AlphaGo Zero的相關研究以論文的形式,,刊發(fā)在了10月18日的《自然》雜志上。
“AlphaGo在兩年內達到的成績令人震驚。現在,,AlphaGo Zero是我們最強版本,,它提升了很多。Zero提高了計算效率,,并且沒有使用到任何人類圍棋數據,,”AlphaGo之父、DeepMind聯(lián)合創(chuàng)始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)說,,“最終,,我們想要利用它的算法突破,去幫助解決各種緊迫的現實世界問題,,如蛋白質折疊或設計新材料,。如果我們通過AlphaGo,可以在這些問題上取得進展,,那么它就有潛力推動人們理解生命,,并以積極的方式影響我們的生活?!?/p>
不再受人類知識限制,,只用4個TPU
AlphaGo此前的版本,結合了數百萬人類圍棋專家的棋譜,,以及強化學習的監(jiān)督學習進行了自我訓練,。
在戰(zhàn)勝人類圍棋職業(yè)高手之前,它經過了好幾個月的訓練,,依靠的是多臺機器和48個TPU(谷歌專為加速深層神經網絡運算能力而研發(fā)的芯片),。
AlphaGo Zero的能力則在這個基礎上有了質的提升。最大的區(qū)別是,,它不再需要人類數據,。也就是說,它一開始就沒有接觸過人類棋譜,。研發(fā)團隊只是讓它自由隨意地在棋盤上下棋,,然后進行自我博弈。值得一提的是,,AlphaGo Zero還非?!暗吞肌保挥玫搅艘慌_機器和4個TPU,,極大地節(jié)省了資源,。