阿爾法狗再進化：自學3天就100:0碾壓李世石版舊狗

小大

用微信掃描二維碼
分享至好友和朋友圈

掃描到手機×

2017-10-19 01:29:42 澎湃參與評論()人

倫敦當地時間10月18日18：00（北京時間19日01：00），AlphaGo再次登上世界頂級科學雜志——《自然》。

一年多前,，AlphaGo便是2016年1月28日當期的封面文章，Deepmind公司發(fā)表重磅論文,，介紹了這個擊敗歐洲圍棋冠軍樊麾的人工智能程序。

今年5月,，以3:0的比分贏下中國棋手柯潔后,，AlphaGo宣布退役，但DeepMind公司并沒有停下研究的腳步,。倫敦當地時間10月18日,，DeepMind團隊公布了最強版AlphaGo ，代號AlphaGo Zero,。它的獨門秘籍,，是“自學成才”。而且,，是從一張白紙開始,，零基礎學習，在短短3天內,，成為頂級高手,。

團隊稱，AlphaGo Zero的水平已經超過之前所有版本的AlphaGo,。在對陣曾贏下韓國棋手李世石那版AlphaGo時,，AlphaGo Zero取得了100:0的壓倒性戰(zhàn)績,。DeepMind團隊將關于AlphaGo Zero的相關研究以論文的形式,，刊發(fā)在了10月18日的《自然》雜志上。

“AlphaGo在兩年內達到的成績令人震驚。現在,，AlphaGo Zero是我們最強版本,，它提升了很多。Zero提高了計算效率,，并且沒有使用到任何人類圍棋數據,，”AlphaGo之父、DeepMind聯(lián)合創(chuàng)始人兼CEO 戴密斯·哈薩比斯（Demis Hassabis）說,，“最終,，我們想要利用它的算法突破，去幫助解決各種緊迫的現實世界問題,，如蛋白質折疊或設計新材料,。如果我們通過AlphaGo，可以在這些問題上取得進展,，那么它就有潛力推動人們理解生命,，并以積極的方式影響我們的生活?！?/p>

不再受人類知識限制,，只用4個TPU

AlphaGo此前的版本，結合了數百萬人類圍棋專家的棋譜,，以及強化學習的監(jiān)督學習進行了自我訓練,。

在戰(zhàn)勝人類圍棋職業(yè)高手之前，它經過了好幾個月的訓練,，依靠的是多臺機器和48個TPU（谷歌專為加速深層神經網絡運算能力而研發(fā)的芯片）,。

AlphaGo Zero的能力則在這個基礎上有了質的提升。最大的區(qū)別是,，它不再需要人類數據,。也就是說，它一開始就沒有接觸過人類棋譜,。研發(fā)團隊只是讓它自由隨意地在棋盤上下棋,，然后進行自我博弈。值得一提的是,，AlphaGo Zero還非?！暗吞肌保挥玫搅艘慌_機器和4個TPU,，極大地節(jié)省了資源,。

阿爾法狗再進化:自學3天就100:0碾壓李世石版舊狗