主持人:你可能會(huì)說(shuō),它會(huì)超越人類(lèi)的認(rèn)知,。盡管我們看到了一些例子,,但貌似尚未真正見(jiàn)到你說(shuō)的這點(diǎn)。很大程度上,,我們?nèi)匀惶幱诋?dāng)前的科學(xué)水平,。你認(rèn)為什么能讓它開(kāi)始有所超越呢?
Hinton:我覺(jué)得在特定情況中已經(jīng)看到這點(diǎn)了,。以AlphaGo為例,。與李世石的那場(chǎng)著名比賽中,AlphaGo的第37步,,所有專(zhuān)家看來(lái)都覺(jué)得是錯(cuò)棋,,但后來(lái)他們意識(shí)到這又是一步妙棋。
這已經(jīng)是在那個(gè)有限的領(lǐng)域內(nèi),,頗具創(chuàng)造力的動(dòng)作,。隨著模型規(guī)模增加,這樣的例子會(huì)更多的,。
主持人:AlphaGo的不同之處在于,,它使用了強(qiáng)化學(xué)習(xí),能夠超越當(dāng)前狀態(tài),。它從模仿學(xué)習(xí)開(kāi)始,,觀察人類(lèi)如何在棋盤(pán)上博弈,然后通過(guò)自我對(duì)弈,,最終有所超越,。你認(rèn)為這是當(dāng)前數(shù)據(jù)實(shí)驗(yàn)室缺少的嗎?
Hinton:我認(rèn)為這很可能有所缺失,。AlphaGo和AlphaZero的自我對(duì)弈,,是它能夠做出這些創(chuàng)造性舉動(dòng)的重要原因。但這不是完全必要的,。
很久以前我做過(guò)一個(gè)小實(shí)驗(yàn),,訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別手寫(xiě)數(shù)字,。給它訓(xùn)練數(shù)據(jù),一半的答案是錯(cuò)誤的,。它能學(xué)得多好,?你把一半的答案弄錯(cuò)一次,然后保持這種狀態(tài),。所以,,它不能通過(guò)只看同一個(gè)例子來(lái)把錯(cuò)誤率平均。有時(shí)答案正確,,有時(shí)答案錯(cuò)誤,,訓(xùn)練數(shù)據(jù)的誤差為50%。
但是你訓(xùn)練反向傳播,,誤差會(huì)降到5%或更低,。換句話說(shuō),從標(biāo)記不良的數(shù)據(jù)中,,它可以得到更好的結(jié)果,。它可以看到訓(xùn)練數(shù)據(jù)是錯(cuò)誤的。
聰明的學(xué)生能比他們的導(dǎo)師更聰明,。即使接收了導(dǎo)師傳授的所有內(nèi)容,,但他們能取其精華去其糟粕,最終比導(dǎo)師更聰明,。因此,,這些大型神經(jīng)網(wǎng)絡(luò),,其實(shí)具有超越訓(xùn)練數(shù)據(jù)的能力,,大多數(shù)人沒(méi)有意識(shí)到。
主持人:這些模型能夠獲得推理能力嗎,?一種可能的方法是,,在這些模型之上添加某種啟發(fā)式方法。目前,,許多研究都在嘗試這種,,即將一個(gè)思維鏈的推理反饋到模型自身中。另一種可能的方法是,,在模型本身中增加參數(shù)規(guī)模,。你對(duì)此有何看法?