然后他就做得煩了,。有一天他來找我說,,我要為MATLAB編寫一個(gè)交互界面,,就可以用另一種語言編程,然后把它轉(zhuǎn)換成MATLAB,。我說,,不,Ilya,,那將花費(fèi)你一個(gè)月的時(shí)間,。這個(gè)項(xiàng)目要繼續(xù),不能被那個(gè)分散注意力,。Ilya說,,沒關(guān)系,我早上就做好了,。
主持人:簡直不可思議,!這些年來,最大的變化不僅僅體現(xiàn)在算法,,還有規(guī)模,。你如何看待?
Hinton:Ilya很早就看到這點(diǎn),,總是說,,規(guī)模更大,表現(xiàn)更好,。我之前總覺得站不住腳,,新的想法還是需要的。但事實(shí)證明,,他的判斷基本上是正確的,。像Transformers這樣的算法確實(shí)很有用,但真正起作用的,,是數(shù)據(jù)和計(jì)算的規(guī)模,。當(dāng)時(shí)想象不到計(jì)算機(jī)會快上數(shù)十億倍,覺得快上一百倍了不得了,,于是試著提出巧妙的想法來解決問題,。然而,有更大的數(shù)據(jù)和計(jì)算規(guī)模,,很多問題就迎刃而解了,。
大約在2011年,Ilya和另一個(gè)叫James Martins的研究生與我合作,,寫了一篇關(guān)于字符級預(yù)測的論文,。使用維基百科,并試圖預(yù)測下一個(gè)HTML字符,。用的是GPU上的一個(gè)很好的優(yōu)化器,,效果出乎意料的好,。我們從未真正相信它理解了任何東西,但它看起來又好像理解了,,這似乎讓人難以相信,。
神經(jīng)網(wǎng)絡(luò)不僅僅是記住訓(xùn)練數(shù)據(jù),而是在“理解”,,推理能力的提高指日可待
主持人:能解釋一下模型如何預(yù)測下一個(gè)單詞,,以及這樣認(rèn)識他們?yōu)楹问清e(cuò)誤的?
Hinton:好吧,,我其實(shí)覺得這不算錯(cuò),。
事實(shí)上,我認(rèn)為我制作了第一個(gè)使用嵌入和反向傳播的神經(jīng)網(wǎng)絡(luò)語言模型,。數(shù)據(jù)非常簡單,,只是三元組,將每個(gè)符號(Symbol)轉(zhuǎn)換為一個(gè)嵌入(embedding),,然后讓嵌入相互作用以預(yù)測下一個(gè)符號的嵌入,,然后從該嵌入中預(yù)測下一個(gè)符號,然后通過整個(gè)過程反向傳播以學(xué)習(xí)這些三元組,。大約10年后,,Yoshua Bengio(圖靈獎得主)使用非常相似的網(wǎng)絡(luò),展示了它在真實(shí)文本上的效果,。大約10年后,,語言學(xué)家開始相信嵌入。這有一個(gè)發(fā)展的過程,。