主持人:你可能會(huì)說,,它會(huì)超越人類的認(rèn)知,。盡管我們看到了一些例子,但貌似尚未真正見到你說的這點(diǎn),。很大程度上,,我們?nèi)匀惶幱诋?dāng)前的科學(xué)水平。你認(rèn)為什么能讓它開始有所超越呢,?
Hinton:我覺得在特定情況中已經(jīng)看到這點(diǎn)了,。以AlphaGo為例。與李世石的那場著名比賽中,,AlphaGo的第37步,,所有專家看來都覺得是錯(cuò)棋,但后來他們意識到這又是一步妙棋。
這已經(jīng)是在那個(gè)有限的領(lǐng)域內(nèi),,頗具創(chuàng)造力的動(dòng)作,。隨著模型規(guī)模增加,這樣的例子會(huì)更多的,。
主持人:AlphaGo的不同之處在于,,它使用了強(qiáng)化學(xué)習(xí),能夠超越當(dāng)前狀態(tài),。它從模仿學(xué)習(xí)開始,,觀察人類如何在棋盤上博弈,然后通過自我對弈,,最終有所超越,。你認(rèn)為這是當(dāng)前數(shù)據(jù)實(shí)驗(yàn)室缺少的嗎?
Hinton:我認(rèn)為這很可能有所缺失,。AlphaGo和AlphaZero的自我對弈,,是它能夠做出這些創(chuàng)造性舉動(dòng)的重要原因。但這不是完全必要的,。
很久以前我做過一個(gè)小實(shí)驗(yàn),,訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字。給它訓(xùn)練數(shù)據(jù),,一半的答案是錯(cuò)誤的,。它能學(xué)得多好?你把一半的答案弄錯(cuò)一次,,然后保持這種狀態(tài),。所以,它不能通過只看同一個(gè)例子來把錯(cuò)誤率平均,。有時(shí)答案正確,,有時(shí)答案錯(cuò)誤,訓(xùn)練數(shù)據(jù)的誤差為50%,。
但是你訓(xùn)練反向傳播,,誤差會(huì)降到5%或更低。換句話說,,從標(biāo)記不良的數(shù)據(jù)中,,它可以得到更好的結(jié)果。它可以看到訓(xùn)練數(shù)據(jù)是錯(cuò)誤的,。
聰明的學(xué)生能比他們的導(dǎo)師更聰明,。即使接收了導(dǎo)師傳授的所有內(nèi)容,但他們能取其精華去其糟粕,,最終比導(dǎo)師更聰明,。因此,,這些大型神經(jīng)網(wǎng)絡(luò),其實(shí)具有超越訓(xùn)練數(shù)據(jù)的能力,,大多數(shù)人沒有意識到,。
主持人:這些模型能夠獲得推理能力嗎?一種可能的方法是,,在這些模型之上添加某種啟發(fā)式方法,。目前,許多研究都在嘗試這種,,即將一個(gè)思維鏈的推理反饋到模型自身中,。另一種可能的方法是,在模型本身中增加參數(shù)規(guī)模,。你對此有何看法,?