我認(rèn)為它不僅僅是預(yù)測下一個符號,。
問一個問題,,答案第一個單詞是下一個符號,那就必須理解這個問題,。大多數(shù)人認(rèn)為的“自動填充”則是,看到不同的單詞出現(xiàn)在第三位的頻率,,這樣就可以預(yù)測下一個符號,。但其實(shí)不是這樣。
為了預(yù)測下一個符號,,必須理解正在說什么,。我們是通過讓它預(yù)測下一個符號,迫使它理解,。很多人說,,它們不像人類那樣推理,只是在預(yù)測下一個符號,。但我認(rèn)為,,它的理解方式像我們一樣。為了預(yù)測下一個符號,,它必須進(jìn)行一些推理?,F(xiàn)在已經(jīng)看到,你制作一個大的模型,,不添加任何特殊的推理內(nèi)容,,它們也已經(jīng)可以進(jìn)行一些推理。規(guī)模越大,,它們未來能進(jìn)行的推理也更多,。
主持人:現(xiàn)在除了預(yù)測下一個符號外,還做了其他什么嗎,?
Hinton:這就是學(xué)習(xí)的方式,。不管是預(yù)測下一個視頻幀,還是預(yù)測下一個聲音,。我覺得這就是解釋大腦學(xué)習(xí)的十分合理的理論,。
主持人:為什么這些模型能夠?qū)W習(xí)如此廣泛的領(lǐng)域?
Hinton:大語言模型所做的,,是尋找事物之間共同的結(jié)構(gòu)?;诠餐Y(jié)構(gòu)對事物進(jìn)行編碼,,這樣一來效率很高。
舉個例子,。問GPT-4,,為什么堆肥堆像原子彈?大多數(shù)人都無法回答這個問題,,覺得原子彈和堆肥堆是非常不同的東西,。但GPT-4會告訴你,,盡管能量、時間尺度不同,,但相同的是,,堆肥堆變熱時會更快地產(chǎn)生熱量;原子彈產(chǎn)生更多的中子時,,產(chǎn)生中子的速度也會隨之加快,。這就引出了鏈?zhǔn)椒磻?yīng)的概念。通過這種理解,,所有的信息都被壓縮到它自己的權(quán)重中,。
這樣一來,它將能處理人類尚未見過的數(shù)百種類比,,這些看似不相關(guān)的類比,,正是創(chuàng)造力的源泉。我想,,GPT-4變得更大時,,創(chuàng)造力將非常高。如果只是覺得,,它只在反芻學(xué)過的知識,,只是將它已經(jīng)學(xué)過的文本拼湊在一起,那就小看它的創(chuàng)造力了,。