2015年10月,,同樣基于蒙特卡洛樹搜索的Google旗下人工智能公司DeepMind開發(fā)的AlphaGo,,在沒有任何讓子的情況下,以五戰(zhàn)全勝的成績擊敗了歐洲圍棋冠軍,、職業(yè)圍棋二段樊麾,,這也是電腦圍棋程序首次擊敗圍棋職業(yè)棋手,當然也意味著圍棋AI新時代的來臨,。
AlphaGo,、絕藝以及人機協(xié)作
圍棋AI之難,難在這項運動本身的多重復雜性“最簡單的規(guī)則,,最復雜的變化”,。在AlphaGo及其開發(fā)團隊DeepMind出現(xiàn)之前,幾乎所有研究者都認為在十年內(nèi)人工智能戰(zhàn)勝圍棋大師的機會是渺茫的,。而在它出現(xiàn)以后,,幾乎所有人都在驚呼人工智能已破解了圍棋這一歷史難題,甚至在極短的時間內(nèi)兩次讓研究成果上了《自然》雜志的封面,。
據(jù)AlphaGo官方介紹,,AlphaGo采用了一種更加“通用”的人工智能方法,即采用將改進的蒙特卡洛決策樹算法與深度神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的方法構(gòu)建最終的學習系統(tǒng)。其包括兩個部分:策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò),。策略網(wǎng)絡(luò)在當前給定的棋局中,,負責預測下一步的走棋,并對下一步走棋的好壞進行打分,,策略網(wǎng)絡(luò)的作用好比“模仿”人類棋手的各種走法,,以達到預測的效果。然而僅憑模仿無法擊敗最頂級的人類高手,,AlphaGo又增加了價值網(wǎng)絡(luò)來判斷當前的局面到底對哪一方有利,,但圍棋程序的局勢評估相當困難,只能通過深度學習網(wǎng)絡(luò)之間自我訓練的方法來達到良好的效果,。
2016年3月,,AlphaGo以4:1戰(zhàn)勝世界圍棋名將李世石,AlphaGo的實力首次被世人真正認可,。AlphaGo 2.0版本的升級亮點是摒棄人類棋譜,,即僅通過監(jiān)督學習和強化學習,再度進化出新的“圍棋機器人”,。
事實上,,除了AlphaGo,現(xiàn)在還有其他圍棋AI程序也已被證明達到甚至超過了人類棋手的一流水平,,比如騰訊AI Lab(騰訊人工智能實驗室)研發(fā)的圍棋人工智能程序“絕藝”(Fine Art),,它在今年首次參加UEC杯計算機圍棋大賽,就以11連勝奪得了本屆UEC杯冠軍,,在隨后的人機大戰(zhàn)中完勝日本先鋒棋手一力遼,。
AI作為工具,被人類棋手“喂招”不斷進化后,,它也能“反哺”人類,,棋手使用圍棋AI開展人機協(xié)同,AI為人類棋手“蓄力”,,1+1>2的進化成為了新看點,。隨著數(shù)據(jù)量的高速增長,AI可以分析總結(jié),、自我學習,人則可以通過善用AI,、人機協(xié)作,,開啟智慧時代,改變現(xiàn)在以及未來的一切,。(作者為《機器人產(chǎn)業(yè)》雜志副總編)
(原標題:圍棋人機對弈五十年)