5月17日消息,,AI教父Geoffrey Hinton接受訪談。對談不僅涉及Hinton對大型神經(jīng)網(wǎng)絡(luò),、多模態(tài)學(xué)習(xí),、模擬計算、AI安全等技術(shù)發(fā)展的看法,,還有其接觸人工智能的經(jīng)歷以及與Ilya初識的回憶,。
訪談的提問者是一名天才創(chuàng)業(yè)者——Joel Hellermark。
Joel Hellermark
Joel是Sana AI的創(chuàng)始人兼首席執(zhí)行官,,Sana是一家領(lǐng)先的人工智能公司,,已從NEA、Menlo和EQT籌集了超過8000萬美元的融資,。他在13歲時自學(xué)編程,,16歲時創(chuàng)立了自己的第一家公司,開發(fā)了一個視頻推薦引擎,。
官網(wǎng)截圖
對談要點整理如下:
初識Ilya時就覺得十分優(yōu)秀,,Ilya很早就預(yù)測過Scaling Law是存在的。
下一個token預(yù)測能有效解釋大腦的學(xué)習(xí)機制,,模型在學(xué)習(xí)過程中可以習(xí)得推理能力,。
類比是創(chuàng)造力的源泉,,而模型能挖掘事物之間的共有結(jié)構(gòu),找到人類不曾注意的類比,,進而超越訓(xùn)練數(shù)據(jù),。
多模態(tài)能讓模型更好理解學(xué)習(xí),并且能讓模型的空間推理能力更強,,一定是提升AI能力的重要方向,。
醫(yī)療將是AI應(yīng)用的最重要領(lǐng)域之一,AI的發(fā)展無法阻擋,。
Ilya是完美的研究伙伴,,他的直覺非常靈敏
Hinton:我想起當(dāng)時從英格蘭第一次來到卡內(nèi)基梅隆大學(xué),。是在英格蘭的研究部門,,下午6點后一般都會去酒吧喝酒。但我來了幾周后的一個周六晚上,,一個朋友都沒有,,也不知道能做什么。我實驗室有要用的機器機,,但家里沒有,,所以決定去實驗室編程。
于是我在周六晚上9點左右來到實驗室,,所有的學(xué)生都在那里,,擠滿了人。他們都在那里,。他們都相信自己在研究未來,,接下來做的事情,將改變計算機科學(xué)的發(fā)展,,這與英格蘭的情況完全不同,。所以這令我耳目一新。
主持人:帶我回到最初在劍橋探索腦科學(xué)的日子,。那時候什么感覺,?
Hinton:說實話,很失望,。我學(xué)的生理學(xué),,夏季學(xué)期教大腦的工作方式,結(jié)果只教了神經(jīng)元如何傳導(dǎo)動作電位,。確實有趣,,但并沒有說明白大腦究竟如何工作,所以我比較失望,。我后面轉(zhuǎn)去學(xué)哲學(xué),,希望能學(xué)到思維是如何運作的,。但同樣失望。
我最后去愛丁堡大學(xué)學(xué)習(xí)人工智能,,那更有趣,。至少可以進行模擬,可以測試?yán)碚摗?/p>
主持人:還記得開始是對人工智能的哪些方面感興趣嗎,?有沒有特定的一篇論文或者科學(xué)家,,讓你發(fā)現(xiàn)了有意思的點子。
Hinton:唐納德·赫布的一本書對我影響頗深,。他對如何學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中的連接強度非常感興趣,。我還讀過約翰·馮·諾伊曼的一本書,關(guān)注大腦如何計算,、大腦計算方式與普通計算機的差異,。
主持人:你在愛丁堡的時候,覺得這些接觸到的想法以后會有用嗎,?你那時候的直覺是怎樣的,?
Hinton:在我看來,我們需要遵循大腦本身的學(xué)習(xí)方法,。顯然,,大腦不可能將所有東西先編程,然后使用邏輯推理,,這從一開始就顯得不太對,。所以必須弄清楚,大腦是如何學(xué)習(xí)調(diào)整神經(jīng)網(wǎng)絡(luò)中的連接,,去處理復(fù)雜任務(wù),。馮·諾伊曼和圖靈都相信這一點,他們都非常擅長邏輯,,但他們不相信這種邏輯方法,。
主持人:學(xué)習(xí)神經(jīng)科學(xué),僅僅做人工智能里的算法,,你在二者之間如何分配精力的,?你在早期受到了多少啟發(fā)?
Hinton:我對神經(jīng)科學(xué)研究不多,,主要受到的啟發(fā)來自大腦的工作方式,。大腦有一大堆神經(jīng)元,執(zhí)行相對簡單的操作,,工作又是非線性的,,但它們能接收輸入,進行加權(quán),然后在此基礎(chǔ)上輸出,。問題是,,到底如何改變權(quán)重使整個系統(tǒng)做一些厲害的事?這個問題看上去相當(dāng)簡單,。
主持人:那個時候,,你和誰有合作?
Hinton:我在卡內(nèi)基梅隆大學(xué)做研究,,但主要合作者并不是卡內(nèi)基梅隆大學(xué)的,。我與特倫斯·謝諾夫斯基(注:他與杰弗里·辛頓共同發(fā)明了玻爾茲曼機)往來比較多。他在巴爾的摩的約翰霍普金斯大學(xué),。應(yīng)該是每個月一次,,要么他開車來匹茲堡,要么我開去巴爾的摩,,距離是250英里,。我們會用周末時間研究玻爾茲曼機。合作非常愉快,,我們都相信這是大腦的工作方式,,這是我做過的最令人興奮的研究,。也許有很多成果也很棒,,但我認(rèn)為那不是大腦的工作方式。
我還與彼得·布朗有很好的合作,,他是優(yōu)秀的統(tǒng)計學(xué)家,,IBM從事語音識別工作。所以,,到卡內(nèi)基梅隆大學(xué)攻讀博士學(xué)位時,,他作為學(xué)生已經(jīng)很成熟,已經(jīng)知道很多,。他教了我很多關(guān)于語音的知識,。事實上,他教了我關(guān)于隱馬爾可夫模型的知識,。這就是我理想的學(xué)生:從他那里學(xué)到的,,比我教他的還多。他教我隱馬爾可夫模型時,,我正在使用帶有隱藏層的反向傳播,。那時候還不叫隱藏層,但我決定使用馬爾可夫模型中的命名方式,,這個叫法能很好地表示究竟在做什么的變量,。總之,這就是神經(jīng)網(wǎng)絡(luò)中隱藏一詞的來源,。
主持人:談?wù)処lya出現(xiàn)在你辦公室的時候吧,。
Hinton:那時候我在辦公室,應(yīng)該是個周日,,我在編程,,然后有人敲門。敲門聲很急促,,和一般敲門不太一樣,。我開門發(fā)現(xiàn)是一個年輕的學(xué)生。他說整個夏天他都在炸薯條,,但他更愿意在我的實驗室工作,。所以我說,約個時間來聊聊,?然后他說,,不如就現(xiàn)在?Ilya就是這樣的人,。于是我們聊了下,,我給他一篇文章讀,是關(guān)于反向傳播的Nature期刊論文,。
我們約定一周后再次見面,,他回來了,他說他不太明白,。我挺失望的,,本來看起來蠻聰明。這只是鏈?zhǔn)椒▌t,,理解它并不難,。他說:不,我理解鏈?zhǔn)椒▌t,,我只是不理解,,為什么你不把梯度賦予一個合理的函數(shù)優(yōu)化器。好家伙,,他提出的問題讓我們思考了好幾年,。他總是是這樣,對問題的直覺非常好,,總是能提出好的想法,。
主持人:Ilya為什么有這種直覺?
Hinton:我不知道,?;蛟S他總是獨立思考,很小就對人工智能感興趣。他也很擅長數(shù)學(xué),。但我不知道為什么他直覺那么準(zhǔn),。
主持人:你和他之間,合作分工是怎樣的,?
Hinton:真是很有趣,。記得有一次,我們試著用數(shù)據(jù)制作復(fù)雜的地圖,,用的是一種混合模型,,所以你可以使用相似性來制作兩張地圖,使得在一張地圖上,,河岸可以靠近綠地,,而在另一張地圖上,河岸可以靠近河流,。因為在一張地圖上,,你不能讓它同時靠近兩者,河流和綠地相距很遠(yuǎn),。所以有了混合地圖,,我們在MATLAB中進行操作,這涉及到對代碼進行大量重組,,進行正確的矩陣乘法,。
然后他就做得煩了。有一天他來找我說,,我要為MATLAB編寫一個交互界面,,就可以用另一種語言編程,,然后把它轉(zhuǎn)換成MATLAB,。我說,不,,Ilya,,那將花費你一個月的時間。這個項目要繼續(xù),,不能被那個分散注意力,。Ilya說,沒關(guān)系,,我早上就做好了,。
主持人:簡直不可思議!這些年來,,最大的變化不僅僅體現(xiàn)在算法,,還有規(guī)模。你如何看待?
Hinton:Ilya很早就看到這點,,總是說,,規(guī)模更大,表現(xiàn)更好,。我之前總覺得站不住腳,,新的想法還是需要的。但事實證明,,他的判斷基本上是正確的,。像Transformers這樣的算法確實很有用,但真正起作用的,,是數(shù)據(jù)和計算的規(guī)模,。當(dāng)時想象不到計算機會快上數(shù)十億倍,覺得快上一百倍了不得了,,于是試著提出巧妙的想法來解決問題,。然而,有更大的數(shù)據(jù)和計算規(guī)模,,很多問題就迎刃而解了,。
大約在2011年,Ilya和另一個叫James Martins的研究生與我合作,,寫了一篇關(guān)于字符級預(yù)測的論文,。使用維基百科,并試圖預(yù)測下一個HTML字符,。用的是GPU上的一個很好的優(yōu)化器,,效果出乎意料的好。我們從未真正相信它理解了任何東西,,但它看起來又好像理解了,,這似乎讓人難以相信。
神經(jīng)網(wǎng)絡(luò)不僅僅是記住訓(xùn)練數(shù)據(jù),,而是在“理解”,,推理能力的提高指日可待
主持人:能解釋一下模型如何預(yù)測下一個單詞,以及這樣認(rèn)識他們?yōu)楹问清e誤的,?
Hinton:好吧,,我其實覺得這不算錯。
事實上,,我認(rèn)為我制作了第一個使用嵌入和反向傳播的神經(jīng)網(wǎng)絡(luò)語言模型,。數(shù)據(jù)非常簡單,只是三元組,,將每個符號(Symbol)轉(zhuǎn)換為一個嵌入(embedding),,然后讓嵌入相互作用以預(yù)測下一個符號的嵌入,,然后從該嵌入中預(yù)測下一個符號,然后通過整個過程反向傳播以學(xué)習(xí)這些三元組,。大約10年后,,Yoshua Bengio(圖靈獎得主)使用非常相似的網(wǎng)絡(luò),展示了它在真實文本上的效果,。大約10年后,,語言學(xué)家開始相信嵌入。這有一個發(fā)展的過程,。
我認(rèn)為它不僅僅是預(yù)測下一個符號,。
問一個問題,答案第一個單詞是下一個符號,,那就必須理解這個問題,。大多數(shù)人認(rèn)為的“自動填充”則是,看到不同的單詞出現(xiàn)在第三位的頻率,,這樣就可以預(yù)測下一個符號,。但其實不是這樣。
為了預(yù)測下一個符號,,必須理解正在說什么,。我們是通過讓它預(yù)測下一個符號,迫使它理解,。很多人說,,它們不像人類那樣推理,只是在預(yù)測下一個符號,。但我認(rèn)為,,它的理解方式像我們一樣。為了預(yù)測下一個符號,,它必須進行一些推理?,F(xiàn)在已經(jīng)看到,你制作一個大的模型,,不添加任何特殊的推理內(nèi)容,,它們也已經(jīng)可以進行一些推理。規(guī)模越大,,它們未來能進行的推理也更多。
主持人:現(xiàn)在除了預(yù)測下一個符號外,,還做了其他什么嗎,?
Hinton:這就是學(xué)習(xí)的方式。不管是預(yù)測下一個視頻幀,,還是預(yù)測下一個聲音,。我覺得這就是解釋大腦學(xué)習(xí)的十分合理的理論,。
主持人:為什么這些模型能夠?qū)W習(xí)如此廣泛的領(lǐng)域?
Hinton:大語言模型所做的,,是尋找事物之間共同的結(jié)構(gòu),。基于共同結(jié)構(gòu)對事物進行編碼,,這樣一來效率很高,。
舉個例子。問GPT-4,,為什么堆肥堆像原子彈,?大多數(shù)人都無法回答這個問題,覺得原子彈和堆肥堆是非常不同的東西,。但GPT-4會告訴你,,盡管能量、時間尺度不同,,但相同的是,,堆肥堆變熱時會更快地產(chǎn)生熱量;原子彈產(chǎn)生更多的中子時,,產(chǎn)生中子的速度也會隨之加快,。這就引出了鏈?zhǔn)椒磻?yīng)的概念。通過這種理解,,所有的信息都被壓縮到它自己的權(quán)重中,。
這樣一來,它將能處理人類尚未見過的數(shù)百種類比,,這些看似不相關(guān)的類比,,正是創(chuàng)造力的源泉。我想,,GPT-4變得更大時,,創(chuàng)造力將非常高。如果只是覺得,,它只在反芻學(xué)過的知識,,只是將它已經(jīng)學(xué)過的文本拼湊在一起,那就小看它的創(chuàng)造力了,。
主持人:你可能會說,,它會超越人類的認(rèn)知。盡管我們看到了一些例子,,但貌似尚未真正見到你說的這點,。很大程度上,我們?nèi)匀惶幱诋?dāng)前的科學(xué)水平,。你認(rèn)為什么能讓它開始有所超越呢,?
Hinton:我覺得在特定情況中已經(jīng)看到這點了,。以AlphaGo為例。與李世石的那場著名比賽中,,AlphaGo的第37步,,所有專家看來都覺得是錯棋,但后來他們意識到這又是一步妙棋,。
這已經(jīng)是在那個有限的領(lǐng)域內(nèi),,頗具創(chuàng)造力的動作。隨著模型規(guī)模增加,,這樣的例子會更多的,。
主持人:AlphaGo的不同之處在于,它使用了強化學(xué)習(xí),,能夠超越當(dāng)前狀態(tài),。它從模仿學(xué)習(xí)開始,觀察人類如何在棋盤上博弈,,然后通過自我對弈,,最終有所超越。你認(rèn)為這是當(dāng)前數(shù)據(jù)實驗室缺少的嗎,?
Hinton:我認(rèn)為這很可能有所缺失,。AlphaGo和AlphaZero的自我對弈,是它能夠做出這些創(chuàng)造性舉動的重要原因,。但這不是完全必要的,。
很久以前我做過一個小實驗,訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字,。給它訓(xùn)練數(shù)據(jù),,一半的答案是錯誤的。它能學(xué)得多好,?你把一半的答案弄錯一次,,然后保持這種狀態(tài)。所以,,它不能通過只看同一個例子來把錯誤率平均,。有時答案正確,有時答案錯誤,,訓(xùn)練數(shù)據(jù)的誤差為50%,。
但是你訓(xùn)練反向傳播,誤差會降到5%或更低,。換句話說,,從標(biāo)記不良的數(shù)據(jù)中,它可以得到更好的結(jié)果,。它可以看到訓(xùn)練數(shù)據(jù)是錯誤的,。
聰明的學(xué)生能比他們的導(dǎo)師更聰明。即使接收了導(dǎo)師傳授的所有內(nèi)容,,但他們能取其精華去其糟粕,,最終比導(dǎo)師更聰明。因此,,這些大型神經(jīng)網(wǎng)絡(luò),,其實具有超越訓(xùn)練數(shù)據(jù)的能力,大多數(shù)人沒有意識到,。
主持人:這些模型能夠獲得推理能力嗎,?一種可能的方法是,在這些模型之上添加某種啟發(fā)式方法,。目前,,許多研究都在嘗試這種,即將一個思維鏈的推理反饋到模型自身中,。另一種可能的方法是,,在模型本身中增加參數(shù)規(guī)模。你對此有何看法,?
Hinton:我的直覺告訴我,,模型規(guī)模擴大后,推理能力也能提升,。
人們?nèi)绾喂ぷ??大致來說,人類有直覺進行推理,,再用推理來糾正我們的直覺,。當(dāng)然,在推理過程中也會使用直覺,。假設(shè)推理的結(jié)論與直覺沖突,,我們就會意識到需要糾正直覺。
這與AlphaGo或AlphaZero的工作方式類似,,它們有一個評估函數(shù),,只需看一眼棋盤,然后判斷“這對我來說有多好,?”但是,,進行蒙特卡羅推演時,你會得到一個更準(zhǔn)確的想法,,你可以修改你的評估函數(shù),。因此,通過讓模型接受推理的結(jié)果,,來對模型進行訓(xùn)練,。
大語言模型必須開始這樣做,,必須開始通過推理,來訓(xùn)練模型的直覺,,知道下一步做什么,,并意識到什么是不對的。這樣,,他們就可以獲得更多的訓(xùn)練數(shù)據(jù),,而不僅僅是模仿人類。這正是AlphaGo能夠做出第37步妙棋的原因,,它擁有更多的訓(xùn)練數(shù)據(jù),,因為它使用推理來檢查下一步應(yīng)該是什么。
多模態(tài)讓模型學(xué)習(xí)更加容易,,同時利于空間推理
主持人:你對多模態(tài)有何看法,?我們談到了這些類比,而這些類比往往遠(yuǎn)遠(yuǎn)超出了我們所能看到的范圍,。模型發(fā)現(xiàn)的類比遠(yuǎn)遠(yuǎn)超出了人類的能力,,可能是在我們永遠(yuǎn)無法理解的抽象層面上。現(xiàn)在,,當(dāng)我們將圖像,、視頻和聲音引入其中時,你認(rèn)為這會如何改變模型,?你認(rèn)為它將如何改變,,它能夠進行的類比?
Hinton:這將帶來很大的改變,。例如,,它將使模型更好地理解空間事物。僅從語言角度來看,,很難理解一些空間事物,。盡管值得注意的是,即使在成為多模態(tài)之前,,GPT-4也能做到這一點,。但是,當(dāng)你讓模型成為多模態(tài)時,,如果你讓它既能做視覺,,又能伸手抓東西,它能拿起物體并翻轉(zhuǎn)它們等等,,它就會更好地理解物體,。因此,雖然可以從語言中學(xué)到很多東西,但如果是多模態(tài),,學(xué)習(xí)起來會更容易,。事實上,需要的語言更少,。
多模態(tài)模型顯然會占據(jù)主導(dǎo)地位,。你可以通過這種方式獲得更多數(shù)據(jù),,它們需要的語言會更少,。當(dāng)然,可以僅從語言中學(xué)習(xí)出一個非常好的模型,,但從多模態(tài)系統(tǒng)中學(xué)習(xí)要容易得多,。
主持人:你認(rèn)為這將如何影響模型的推理能力?
Hinton:我認(rèn)為它將使空間推理變得更好,,例如,,實際嘗試撿起物體,會得到各種有用的訓(xùn)練數(shù)據(jù),。
主持人:你認(rèn)為人類大腦的進化服務(wù)于語言,,還是說語言的進步是服務(wù)于人類大腦?
Hinton:這是一個非常好的問題,,我認(rèn)為兩者是共存的,。我曾經(jīng)認(rèn)為,可以完全不需要語言去進行大量的認(rèn)知活動,,但現(xiàn)在我的想法有所改變,。
那么,我將給出三種不同的語言觀點以及它們與認(rèn)知的關(guān)系,。
一種觀點是陳舊的符號觀點,,即認(rèn)知包括使用某種經(jīng)過清理的邏輯語言中的符號串,這些語言沒有歧義,,并應(yīng)用推理規(guī)則,。這就是認(rèn)知——只是對語言符號串之類的事物進行符號操作。這是一種極端觀點,。
另一種極端觀點是,,一旦你進入頭腦,它就全是向量,。符號進來了,,把這些符號轉(zhuǎn)換成大向量,所有內(nèi)容都是用大向量完成的,,然后想產(chǎn)生輸出,,又會生成符號。2014年左右,機器翻譯中有一個說法,,當(dāng)時人們使用循環(huán)神經(jīng)網(wǎng)絡(luò),,單詞會不斷進入,它們會有一個隱藏狀態(tài),,它們會在這個隱藏狀態(tài)下不斷積累信息,。因此,當(dāng)它們讀完一個句子時,,它們會得到一個大的隱藏向量,,它捕捉到了該句子的含義,然后可以用來生成另一種語言的句子,。這被稱為思維向量,。這是對語言的第二種看法——將語言轉(zhuǎn)換成一個與語言完全不同的大向量,這就是認(rèn)知的全部內(nèi)容,。
第三種觀點,,也是我現(xiàn)在所相信的,即你采用這些符號,,將符號轉(zhuǎn)換成嵌入,,并使用多層嵌入,這樣你就得到了這些非常豐富的嵌入,。但是嵌入仍然與符號相關(guān)聯(lián),,從某種意義上說,你有一個用于這個符號的大向量,,以及一個用于那個符號的大向量,。這些向量相互作用,產(chǎn)生下一個單詞的符號的向量,。這就是理解的本質(zhì)——知道如何將符號轉(zhuǎn)換成這些向量,,并知道向量的元素應(yīng)該如何相互作用,從而預(yù)測下一個符號的向量,。無論是在這些大型語言模型中,,還是在我們的大腦中,理解就是這樣進行的,。這是一個介于兩者之間的例子,。你繼續(xù)使用符號,但將它們解釋為這些大向量,,這就是所有工作所在,。所有的知識都在于你使用的向量以及這些向量的元素如何相互作用,而不是符號規(guī)則,。
這并不是說,,能完全擺脫符號,。而是將符號變成大向量,保留符號的表面結(jié)構(gòu),。這就是這些模型的工作方式,。在我看來,這也是人類思維比較合理的模型,。
借助共享權(quán)重,,數(shù)字系統(tǒng)的思維遷移十分高效
主持人:您是最早想到使用GPU的人之一,我知道Jensen(黃仁勛)很喜歡你,。2009年你就告訴Jensen,,這可能是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一個絕佳辦法。當(dāng)初要使用圖形處理單元(GPU)訓(xùn)練神經(jīng)網(wǎng)絡(luò),,您是怎么想的,?
Hinton:記得在2006年,我有位研究生,,是十分優(yōu)秀的計算機視覺專家。一次會議上,,他建議我考慮使用圖形處理卡(GPU),,因為它們在矩陣乘法方面表現(xiàn)出色,我所做的基本上都是矩陣乘法,。我考慮了下,,然后我們開始研究配備四個GPU的Tesla系統(tǒng)。
我們一開始只是購買了游戲用的GPU,,發(fā)現(xiàn)它們將運算速度提高了30倍,。然后又買了一個配備四個GPU的Tesla系統(tǒng),并在此基礎(chǔ)上進行了一次公開匯報,,效果非常好,。2009年,我在NIPS會議上發(fā)表了演講,,告訴在場的一千名機器學(xué)習(xí)研究人員:你們都應(yīng)該去購買NVIDIA的GPU,,它們是未來,你們需要GPU進行機器學(xué)習(xí),。
我還給NVIDIA發(fā)了一封郵件,,說我已經(jīng)動員一千名機器學(xué)習(xí)研究人員去購買你們的卡,你們能不能送我一個,?他們并沒有回復(fù),。但后來把這個故事告訴Jensen時,他免費給了我一個(要顯卡,,得直接找老板談),。
主持人:人工智能發(fā)展過程中,GPU其實也在發(fā)展。在計算領(lǐng)域,,我們路在何方,?
Hinton:我在谷歌的最后幾年里,其實一直在思考模擬計算,。這樣,,我們可以使用 30 瓦的功率(例如大腦),而不是使用一兆瓦的功率,。我希望在模擬硬件中,,運行這些大型語言模型。雖然從來沒實現(xiàn),,但我開始真正重視數(shù)字計算,。
使用低功耗的模擬計算,每個硬件部分都會有所不同,,即需要學(xué)習(xí)利用特定硬件的屬性,。這就是人們身上正在經(jīng)歷的。人和人的大腦都是不同的,。我們不能將你大腦中的權(quán)重,,放入我的大腦中。硬件不同,,各個神經(jīng)元的精確屬性也不同,。我們最后都會死去,我腦中的權(quán)重,,對其他大腦也毫無用處,。
我們可以很低效地將信息從一個人傳遞給另一個人。我寫句子,,你想辦法改變你思維里的權(quán)重,,你就會說同樣的話。這其實叫做提煉,,但這種知識交流非常低效,。
數(shù)字系統(tǒng)卻不同,它們不會死去,。一旦有了一些權(quán)重,,計算機這個殼就不重要了。只需將權(quán)重存儲在某個磁帶或者什么上,,就可以把同樣的權(quán)重轉(zhuǎn)移進另一臺計算機,。如果是數(shù)字的,它就可以與其他系統(tǒng)一樣計算,。所以,,數(shù)字系統(tǒng)能夠以極高效率共享權(quán)重,,甚至還能迭代。假設(shè)你有一大把數(shù)字系統(tǒng),,從相同的權(quán)重開始,,各自進行微量的學(xué)習(xí),還能再次共享權(quán)重,,這樣它們都能知道其他系統(tǒng)學(xué)到了什么,,甚至完成了迭代。人類無法做到這一點,,在知識共享上,,數(shù)字系統(tǒng)比我們做得好太多。
主持人:許多已經(jīng)在該領(lǐng)域?qū)嵤┑南敕?,其實都是非常傳統(tǒng)的,,因為這些想法在神經(jīng)科學(xué)中一直存在。那么,,你認(rèn)為還有哪些想法可以應(yīng)用于我們正在開發(fā)的系統(tǒng)呢,?
Hinton:因此,我們?nèi)孕枳汾s神經(jīng)科學(xué)的發(fā)展,。
在幾乎所有的神經(jīng)網(wǎng)絡(luò)中,,都存在一個快速的活動變化時間尺度。因此,,當(dāng)輸入進來后,活動和嵌入向量都會發(fā)生變化,,然后有一個緩慢的時間尺度會改變權(quán)重,。這就是長期學(xué)習(xí)。
你只有這兩個時間尺度,。然而在大腦中,,權(quán)重會改變的時間尺度很多。例如,,我說一個意想不到的詞,,比如“黃瓜”,五分鐘后,,你戴上耳機,,會聽到很多噪音,而且單詞非常模糊,,但你會更好地識別“黃瓜”這個詞,,因為我五分鐘前說過這個詞。大腦中的這些知識是如何存儲的呢,?這些知識,,顯然是突觸的暫時變化,,而不是神經(jīng)元在重復(fù)“黃瓜”這個詞。你沒有足夠的神經(jīng)元來做這件事,。這是權(quán)重的暫時變化,。你可以用暫時的權(quán)重變化做很多事情,我稱之為快速權(quán)重,。
我們的神經(jīng)模型并不會這樣做,,原因是,對依賴于輸入數(shù)據(jù)的權(quán)重進行臨時更改,,則無法同時處理大量不同的情況,。目前,我們采用大量不同的字符串,,將它們堆疊在一起,,然后并行處理它們,因為這樣我們可以進行矩陣乘法,,效率要高得多,。正是這種效率,阻止了我們使用快速權(quán)重,。但大腦顯然將快速權(quán)重用于臨時記憶,。而且,你可以通過這種方式,。做各種我們目前不做的事情,。
我認(rèn)為這是你必須學(xué)習(xí)的最重要的事情之一。我非常希望像Graphcore(一家英國的AI芯片公司)這樣的設(shè)備,,它們采用順序方式,,并只進行在線學(xué)習(xí),那么它們就可以使用快速權(quán)重,。但這還沒有奏效,。或許當(dāng)人們使用電導(dǎo)作為權(quán)重時,,最終它會奏效,。
官網(wǎng)截圖:https://www.graphcore.ai/
主持人:了解這些模型如何工作,了解大腦如何工作,,對你的思維方式有何影響,?
Hinton:多年來,人們非??床黄鸫笮碗S機神經(jīng)網(wǎng)絡(luò),,只要給它大量的訓(xùn)練數(shù)據(jù),它就會學(xué)會做復(fù)雜的事情的想法,。你和統(tǒng)計學(xué)家或語言學(xué)家,,或者大多數(shù)人工智能領(lǐng)域的人交談,,他們會說,那只是一個白日夢,。沒有某種先天知識,,沒有很多架構(gòu)限制,模型就不可能學(xué)會真正復(fù)雜的事情,。以為隨便用一個大型神經(jīng)網(wǎng)絡(luò),,就能從數(shù)據(jù)中學(xué)習(xí)一大堆東西——但這是完全錯誤的。
隨機梯度下降,,即使用梯度反復(fù)調(diào)整權(quán)重,,也可以學(xué)習(xí)非常復(fù)雜的東西,這些大型模型已經(jīng)證實了這一點,。這是對大腦理解的一個重要觀點,。大腦并不需要擁有所有的先天結(jié)構(gòu)。即使大腦確實擁有許多先天結(jié)構(gòu),,但對易于學(xué)習(xí)的事物,,又并不需要這些先天結(jié)構(gòu)。
喬姆斯基的觀點是,,只有當(dāng)知識本身無比扎實,、成熟,才能學(xué)習(xí)像語言這樣復(fù)雜的事物,。然而現(xiàn)在看來,,這種觀點顯然很荒謬。
主持人:喬姆斯基會很高興看到你說他的觀點很荒謬,。
Hinton:喬姆斯基的許多政治觀點非常明智,。我很驚訝,為什么一個在中東問題上觀點如此明智的人,,在語言學(xué)方面會犯如此大的錯誤。
主持人:你認(rèn)為什么會讓這些模型有效模擬人類的意識,?現(xiàn)在的 ChatGPT 每次都從頭開始,,刪除對話的記憶。如果有一個你一生中與之交談過的人工智能助手,,它能自我反省,。有一天,你去世了,,你認(rèn)為助手在那個時候會有感覺嗎,?
Hinton:我認(rèn)為他們也會有感覺。所以我認(rèn)為,,就像我們有這種感知的內(nèi)在劇場模型一樣,,我們也有一個感覺的內(nèi)在劇場模型,。這些是我能體驗到的東西,但其他人卻不能,。我認(rèn)為那個模型同樣是錯誤的,。我認(rèn)為,假設(shè)我說,,我想打Gary的鼻子,,我經(jīng)常這樣做。讓我們試著從內(nèi)心劇場的概念中總結(jié)出這一點——我真正想告訴你的是,,如果不是因為我的額葉受到抑制,,我就會采取行動。所以當(dāng)談?wù)摳杏X時,,我們實際上是在談?wù)摏]有限制的情況下會采取的行動,。這就是感覺的真正含義——沒有限制時,我們會采取的行動,。所以沒有理由說這些東西不能有感覺,。
在 1973 年,我看到過有情感的機器人,。他們在愛丁堡有一個帶有兩個夾子的機器人,,如果你把零件分開放在一塊綠色毛氈上,它可以組裝一輛玩具車,。但是你把零件堆在一起,,機器人視力不夠,看不清零件,。就會把夾子放在一起把零件敲散,,再拼一起。要是看到一個人類這么做,,你會說這個他不太理解情況,,很生氣,所以才敲散了零件,。
主持人:在我們之前的談話中,,你把人類和LLM描述為擅長做類比機器(analogy machines)。你一生中發(fā)現(xiàn)的,,最有力的類比是什么,?
Hinton:我想可能對我影響很大的一種弱類比,是宗教和符號處理之間的類比,。
我來自一個無神論家庭,,我小時候上學(xué)時就面臨著宗教信仰。在我看來,,這簡直是無稽之談,。即使我再次審視,,我仍然認(rèn)為這是無稽之談。有人將符號處理視為對人們工作方式時,,我認(rèn)為這種觀點依然荒謬,。
但我不認(rèn)為現(xiàn)在的觀點完全是荒謬的,我們確實在進行符號處理,,我們把大的嵌入向量賦予給符號,。但不是像人們以為的那樣,單單匹配符號——符號的唯一屬性就是與另一個符號異同,,讓這成為符號的唯一屬性,。但我們并不是這樣做的。我們用上下文,,為符號提供嵌入向量,;借助嵌入向量組成部分之間的交互,我們才能進行思考,。
有位非常優(yōu)秀的谷歌研究員叫 Fernando Pereira,。他認(rèn)為,我們確實在進行符號推理,,但唯一符號就是自然語言,。我們把自然語言作為符號語言進行推理。我現(xiàn)在覺得這很正確,。
很難因為安全問題減緩AI研究,,看好醫(yī)療保健應(yīng)用
主持人:你已經(jīng)進行了一些計算機科學(xué)史上最有意義的研究。你能給我們講講,,你是如何發(fā)現(xiàn)合適的研究問題的,?
Hinton:首先,我要糾正你一下,,是我和學(xué)生一起完成了很多有意義的研究,。這離不開我與學(xué)生的良好合作,離不開我發(fā)現(xiàn)優(yōu)秀學(xué)生的能力,。從70年代到本世紀(jì)初,,研究神經(jīng)網(wǎng)絡(luò)的人不多。我作為少數(shù)研究神經(jīng)網(wǎng)絡(luò)的人,,可以選到最優(yōu)秀的學(xué)生。這非常幸運,。
科學(xué)家都有自己的一套研究方法理論,,雖然很多科學(xué)家會總結(jié)一套自己的研究方法理論,但是實際上他們不一定真的是這么做的。但我還是想說,,我的理論是,,我會尋找那些人人都贊同,、但直覺又能感覺出有點不對的問題,。然后我就把這個定為研究問題,,看看我是否能深入,,說清楚我認(rèn)為它是錯的原因,。比如也許我能用一個小的計算機程序做個demo,,說明大家的預(yù)期是錯的,。
讓我舉一個例子。很多人認(rèn)為,,給神經(jīng)網(wǎng)絡(luò)添加噪音會讓結(jié)果變得更糟,。如果訓(xùn)練示例,讓一半的神經(jīng)元保持沉默,,效果就會更糟,。然而實際上,這樣做的話會帶來更好的泛化效果,。你可以用一個簡單的例子來證明這一點,。這就是計算機模擬的優(yōu)點。你可以證明,,增加噪音會使情況變得更糟,,去掉一半的神經(jīng)元,會使它工作得更糟,。短期內(nèi)確實如此,。但你這樣訓(xùn)練它,最終它會工作得更好,。你可以用一個小型計算機程序來證明這一點,,然后你可以認(rèn)真思考為什么會這樣,以及它如何阻止復(fù)雜的協(xié)同適應(yīng),。
這是我的研究方法,。找到并研究那些看上去不可靠的事情,看看自己能否給出簡單demo,,說明為什么錯誤,。
主持人:你覺得現(xiàn)在有什么不可靠的點呢?
Hinton:我們不使用快速權(quán)重的做法,,貌似不是很可靠,,我們只有兩個時間尺度,這完全是錯誤的,,一點不像大腦的工作方式,。從長遠(yuǎn)來看,肯定要有更多的時間尺度。這只是一個例子,。
主持人:我們談到了推理,、時間尺度。假設(shè)一群學(xué)生來問你,,你的領(lǐng)域中最重要的問題是什么,?你又會給他們什么最值得研究的問題?
Hinton:對于我來說,,現(xiàn)在的問題和我過去 30 年來一直存在的問題是一樣的,,那就是大腦會進行反向傳播嗎?我相信大腦會獲得梯度,。你得不到梯度,,你的學(xué)習(xí)效果就會比得到梯度時差很多。但是大腦是如何獲得梯度的,?它是以某種方式實現(xiàn)某種近似版本的反向傳播,,還是某種完全不同的技術(shù)?這是一個懸而未決的大問題,。我繼續(xù)做研究的話,,這就是我要研究的內(nèi)容。
主持人:當(dāng)你現(xiàn)在回顧你的研究生涯時,,你會發(fā)現(xiàn)你在很多事情上都是對的,。但是你在什么地方做錯了,以至于你希望自己花更少的時間,?
Hinton:這是兩個獨立的問題,。一是錯在什么地方,二是是否希望自己花更少的時間在這上面,。
我認(rèn)為我對玻爾茲曼機的看法是錯誤的,,我很高興我花了很長時間研究它。關(guān)于如何獲得梯度,,有比反向傳播更漂亮的理論,。反向傳播很普通,很明智,,它只是一個鏈?zhǔn)椒▌t,。玻爾茲曼機很聰明,它是一種獲取梯度的非常有趣的方法,。我希望大腦也能這樣工作,,但事實應(yīng)該并非如此。
主持人:您是否也花了很多時間想象,,這些系統(tǒng)開發(fā)后會發(fā)生什么,?您是否曾經(jīng)想過,,我們能讓這些系統(tǒng)運行良好,我們就能讓教育民主化,,讓知識更容易獲得,解決醫(yī)學(xué)上的一些難題,。對您來說,,這更多的是了解大腦?
Hinton:科學(xué)家應(yīng)該做一些對社會有益的事情,,但實際上這并不是開展研究的最佳方式,。當(dāng)好奇心驅(qū)使時,您會進行最好的研究,。您只需要了解一些事情,,僅此而已。
但最近,,我意識到這些技術(shù)是把雙刃劍,,開始更加擔(dān)心它們對社會的影響。但這不是我的研究動機,。我只是想了解,,大腦究竟是如何學(xué)習(xí)做事的?這正是我想要知道的,。但我有點失敗了,。作為失敗的副作用,我們得到了一些不錯的工程,。
主持人:是的,,這對世界來說是一次很好的“失敗”。從真正可能順利的事情的角度來看,,你認(rèn)為最有前途的應(yīng)用是什么,?
Hinton:醫(yī)療保健顯然會是很大的應(yīng)用。社會可以吸收的醫(yī)療保健幾乎是無窮無盡的,。以一位老年人為例,,他們可能需要五位全職醫(yī)生的照顧。因此,,當(dāng)人工智能在某些領(lǐng)域的表現(xiàn)超過人類時,,我們會期待它能在更多領(lǐng)域發(fā)揮更大的作用。這可能意味著我們需要更多的醫(yī)生,。每個人都能擁有三位專屬的醫(yī)生,,那將是極好的。我們有望實現(xiàn)這一目標(biāo),,這也是醫(yī)療保健領(lǐng)域的優(yōu)勢之一,。
此外,,新的工程項目和新材料的開發(fā),例如用于改進太陽能電池板或超導(dǎo)性能的材料,,或者僅僅是為了更深入地了解人體的運作機制,,都將產(chǎn)生巨大的影響。這些都是積極的一面,。
然而,,我擔(dān)心有政治家可能會利用這些技術(shù)來做邪惡的事情,比如利用人工智能制造殺人機器人,,操縱輿論或進行大規(guī)模監(jiān)控,。這些都是非常令人擔(dān)憂的問題。
主持人:你是否擔(dān)心,,我們放慢這個領(lǐng)域的發(fā)展速度,,也會阻礙其積極一面的發(fā)展?
Hinton:當(dāng)然,,我有這樣的擔(dān)憂,。我認(rèn)為這個領(lǐng)域的發(fā)展速度不太可能放慢,部分原因是它具有國際性,。一個國家選擇放慢發(fā)展速度,,其他國家并不會跟隨。因此,,中國和美國之間顯然存在人工智能領(lǐng)域競爭,,雙方都不會選擇放慢發(fā)展速度。有人提出我們應(yīng)該放慢六個月的發(fā)展速度,,但我并未簽署這一提議,,因為我認(rèn)為這種情況永遠(yuǎn)不會發(fā)生。盡管如此,,我可能應(yīng)該簽署這一提議,,因為即使這種情況永遠(yuǎn)不會發(fā)生,它也提出了一個政治觀點,。為了表達(dá)觀點,,有時候我們需要提出一些無法實現(xiàn)的要求,這往往是一種有效的策略,。但我不認(rèn)為我們會放慢發(fā)展的步伐,。
主持人:你認(rèn)為有了這些人工智能助手,會對 AI 研究過程產(chǎn)生什么影響,?
Hinton:我認(rèn)為它們會大大提高研究效率,。有了這些助手,AI研究將變得更加高效,,它們不僅能幫助你編程,,還能幫助你思考問題,,甚至可能在各種方程式方面為你提供很大幫助。
建立自己的認(rèn)知框架對于獨立思考來說非常重要
主持人:你是否考慮過人才選拔的過程,?這對你來說主要是依賴直覺嗎,?例如,當(dāng)Ilya出現(xiàn)在門口時,,你會覺得他很聰明,,于是決定與他一起工作。
Hinton:在人才選拔方面,,有時候你就是能感覺到。與Ilya交談不久后,,我就覺得他非常聰明,。再深入交談幾句,他的直覺,、數(shù)學(xué)能力都非常出色,,這讓我覺得他是理想的合作伙伴。
還有一次,,我參加了一次NIPS會議,。我們有一張海報,有人走過來,,他開始詢問有關(guān)學(xué)術(shù)海報上的問題,。他提出的每一個問題都深入地揭示了我們的錯誤。五分鐘后,,我就給他提供了一個博士后職位,。那個人就是 David McKay,他非常聰明,。他去世了,,這讓人感到非常遺憾,但他的才華是顯而易見的,,你會希望能與他一起工作,。然而,有時候,,情況并不總是那么明顯,。
我確實學(xué)到了一件事,那就是人與人是不同的,。優(yōu)秀的學(xué)生并不只有一種類型,。有些學(xué)生可能沒有那么有創(chuàng)造力,但他們在技術(shù)上非常強,,能夠讓任何事情都成功,。有些學(xué)生在技術(shù)上可能并不出色,,但他們卻擁有極高的創(chuàng)造力。理想的情況下,,我們希望找到的是既有技術(shù)實力又具備創(chuàng)造力的學(xué)生,,但實際上,這樣的學(xué)生并不總是那么容易找到,。然而,,我認(rèn)為在實驗室環(huán)境中,我們需要的是各種不同類型的研究生,。
我始終堅信我的直覺,,有時候,你只需要和某人進行一次交談,,他們就能理解你的意思,。這就是我們所期待的。
主持人:你是否曾經(jīng)思考過,,為什么有些人的直覺會更強呢,?他們是否只是比其他人擁有更好的訓(xùn)練數(shù)據(jù)?或者,,你是如何培養(yǎng)自己的直覺的,?
Hinton:我認(rèn)為,部分原因在于他們不允許胡說八道,。因此,,這里有一種獲取錯誤直覺的方式,那就是盲目相信你被告知的一切,,這是非常危險的,。我認(rèn)為有些人就是這樣做的。我覺得有獨立思考能力的人會有一個理解現(xiàn)實的完整框架,。當(dāng)有人告訴他們某件事情時,,他們會試圖弄清楚這件事如何融入他們的框架。無法融入,,他們就會予以拒絕,。這是一個非常好的策略。
那些試圖將他們被告知的一切都融入自己的框架的人,,最終會得到一個非常模糊的框架,,并且會相信一切。這是無效的,。因此,,我認(rèn)為,對世界有強烈的看法,,并試圖操縱傳入的事實以符合自身觀點,,是非常重要的,。顯然,這可能會導(dǎo)致你陷入深刻的宗教信仰和致命缺陷等等,,就像我對玻爾茲曼機器的信仰一樣,。但我認(rèn)為這是正確的做法。
主持人:當(dāng)你看到今天正在進行的研究類型時,,你是否認(rèn)為我們把所有的雞蛋都放在一個籃子里,,我們應(yīng)該在這個領(lǐng)域更加多樣化我們的想法?或者你認(rèn)為這是最有前途的方向然后全力以赴,?
Hinton:我認(rèn)為擁有大型模型并在多模態(tài)數(shù)據(jù)上訓(xùn)練它們,,即使只是為了預(yù)測下一個單詞,也是一種非常有前途的方法,,我們應(yīng)該全力以赴,。顯然,現(xiàn)在有很多人在做這件事,。看到有很多人似乎在做瘋狂的事情,,這很好,。我認(rèn)為大多數(shù)人走這條路是可以的,它效果很好,。
主持人:你認(rèn)為學(xué)習(xí)算法真的那么重要嗎,,還是只是尺度之一?我們是否有數(shù)百萬種方法可以達(dá)到人類水平的智能,,或者我們需要發(fā)現(xiàn)少數(shù)幾種,?
Hinton:特定的學(xué)習(xí)算法是否非常重要,或者是否有各種各樣的學(xué)習(xí)算法可以完成這項工作,,我不知道這個問題的答案,。但在我看來,反向傳播某種意義上是正確的做法,。獲得梯度以便更改參數(shù)使其更好地工作,,這似乎是對的,而且它也取得了驚人的成功,。
可能還有其他學(xué)習(xí)算法,,它們是獲得相同梯度的替代方法,或者將梯度轉(zhuǎn)移到其他東西上,,并且也有效,。我認(rèn)為現(xiàn)在這一切都是開放的,也是非常有趣的問題,,關(guān)于是否還有其他你可以嘗試和最大化利用的東西,,可以為你提供良好的系統(tǒng),,也許大腦這樣做是因為這樣更容易。但反向傳播在某種意義上是正確的做法,,我們知道這樣做效果很好,。
主持人:最后一個問題,當(dāng)您回顧您幾十年的研究歷程,,您最引以為豪的成就是什么,?是你學(xué)生的成就嗎?或者是您的研究成果,?在您的整個職業(yè)生涯中,,您最引以為豪的是什么?
Hinton:我的回答是玻爾茲曼機的學(xué)習(xí)算法,。這個算法非常優(yōu)雅,,盡管在實踐中可能并不實用,但這是我和 Terry共同開發(fā)的過程中最享受的事情,,也是我最引以為豪的成就,,即使它可能是錯誤的。
5月14日,OpenAI在春季發(fā)布會上揭曉了其最新的旗艦AI模型——GPT-4o,,這一模型以“全知全能”為目標(biāo),,實現(xiàn)了實時的語音、文本,、圖像交互功能
2024-05-15 09:10:07OpenAI發(fā)布全新生成式AI模型GPT-4o