主持人:你可能會說,,它會超越人類的認知。盡管我們看到了一些例子,,但貌似尚未真正見到你說的這點,。很大程度上,,我們?nèi)匀惶幱诋斍暗目茖W水平,。你認為什么能讓它開始有所超越呢,?
Hinton:我覺得在特定情況中已經(jīng)看到這點了,。以AlphaGo為例。與李世石的那場著名比賽中,,AlphaGo的第37步,,所有專家看來都覺得是錯棋,但后來他們意識到這又是一步妙棋,。
這已經(jīng)是在那個有限的領域內(nèi),,頗具創(chuàng)造力的動作。隨著模型規(guī)模增加,,這樣的例子會更多的,。
主持人:AlphaGo的不同之處在于,它使用了強化學習,,能夠超越當前狀態(tài),。它從模仿學習開始,,觀察人類如何在棋盤上博弈,然后通過自我對弈,,最終有所超越,。你認為這是當前數(shù)據(jù)實驗室缺少的嗎?
Hinton:我認為這很可能有所缺失,。AlphaGo和AlphaZero的自我對弈,,是它能夠做出這些創(chuàng)造性舉動的重要原因。但這不是完全必要的,。
很久以前我做過一個小實驗,,訓練神經(jīng)網(wǎng)絡識別手寫數(shù)字。給它訓練數(shù)據(jù),,一半的答案是錯誤的,。它能學得多好?你把一半的答案弄錯一次,,然后保持這種狀態(tài),。所以,它不能通過只看同一個例子來把錯誤率平均,。有時答案正確,,有時答案錯誤,訓練數(shù)據(jù)的誤差為50%,。
但是你訓練反向傳播,,誤差會降到5%或更低。換句話說,,從標記不良的數(shù)據(jù)中,,它可以得到更好的結果。它可以看到訓練數(shù)據(jù)是錯誤的,。
聰明的學生能比他們的導師更聰明,。即使接收了導師傳授的所有內(nèi)容,但他們能取其精華去其糟粕,,最終比導師更聰明,。因此,這些大型神經(jīng)網(wǎng)絡,,其實具有超越訓練數(shù)據(jù)的能力,,大多數(shù)人沒有意識到。
主持人:這些模型能夠獲得推理能力嗎,?一種可能的方法是,,在這些模型之上添加某種啟發(fā)式方法。目前,,許多研究都在嘗試這種,,即將一個思維鏈的推理反饋到模型自身中,。另一種可能的方法是,在模型本身中增加參數(shù)規(guī)模,。你對此有何看法,?
5月14日,,OpenAI在春季發(fā)布會上揭曉了其最新的旗艦AI模型——GPT-4o,這一模型以“全知全能”為目標,,實現(xiàn)了實時的語音,、文本、圖像交互功能
2024-05-15 09:10:07OpenAI發(fā)布全新生成式AI模型GPT-4o微軟在新園區(qū)發(fā)布了一款專為AI體驗設計的Windows 11 AI PC新品,,這款產(chǎn)品內(nèi)置的NPU芯片每秒運算能力超過40萬億次,能顯著提升AI應用性能
2024-05-21 15:48:2611