自學3天,,就打敗了舊版AlphaGo
除了上述的區(qū)別之外,,AlphaGo Zero還在3個方面與此前版本有明顯差別。
AlphaGo-Zero的訓練時間軸
首先,,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設計的特征輸入,。
其次,,AlphaGoZero僅用了單一的神經(jīng)網(wǎng)絡。在此前的版本中,,AlphaGo用到了“策略網(wǎng)絡”來選擇下一步棋的走法,,以及使用“價值網(wǎng)絡”來預測每一步棋后的贏家。而在新的版本中,,這兩個神經(jīng)網(wǎng)絡合二為一,,從而讓它能得到更高效的訓練和評估。
第三,,AlphaGoZero并不使用快速,、隨機的走子方法。在此前的版本中,,AlphaGo用的是快速走子方法,,來預測哪個玩家會從當前的局面中贏得比賽。相反,,新版本依靠地是其高質(zhì)量的神經(jīng)網(wǎng)絡來評估下棋的局勢,。
AlphaGo幾個版本的排名情況。
據(jù)哈薩比斯和席爾瓦介紹,,以上這些不同幫助新版AlphaGo在系統(tǒng)上有了提升,,而算法的改變讓系統(tǒng)變得更強更有效。
經(jīng)過短短3天的自我訓練,,AlphaGo Zero就強勢打敗了此前戰(zhàn)勝李世石的舊版AlphaGo,,戰(zhàn)績是100:0的。經(jīng)過40天的自我訓練,,AlphaGo Zero又打敗了AlphaGo Master版本,。“Master”曾擊敗過世界頂尖的圍棋選手,,甚至包括世界排名第一的柯潔,。
對于希望利用人工智能推動人類社會進步為使命的DeepMind來說,圍棋并不是AlphaGo的終極奧義,,他們的目標始終是要利用AlphaGo打造通用的,、探索宇宙的終極工具。AlphaGoZero的提升,,讓DeepMind看到了利用人工智能技術改變?nèi)祟惷\的突破,。他們目前正積極與英國醫(yī)療機構(gòu)和電力能源部門合作,,提高看病效率和能源效率。