多模態(tài)模型顯然會占據(jù)主導(dǎo)地位,。你可以通過這種方式獲得更多數(shù)據(jù),它們需要的語言會更少,。當(dāng)然,,可以僅從語言中學(xué)習(xí)出一個非常好的模型,,但從多模態(tài)系統(tǒng)中學(xué)習(xí)要容易得多。
主持人:你認(rèn)為這將如何影響模型的推理能力,?
Hinton:我認(rèn)為它將使空間推理變得更好,,例如,實際嘗試撿起物體,,會得到各種有用的訓(xùn)練數(shù)據(jù),。
主持人:你認(rèn)為人類大腦的進(jìn)化服務(wù)于語言,還是說語言的進(jìn)步是服務(wù)于人類大腦,?
Hinton:這是一個非常好的問題,,我認(rèn)為兩者是共存的。我曾經(jīng)認(rèn)為,,可以完全不需要語言去進(jìn)行大量的認(rèn)知活動,,但現(xiàn)在我的想法有所改變。
那么,,我將給出三種不同的語言觀點以及它們與認(rèn)知的關(guān)系,。
一種觀點是陳舊的符號觀點,即認(rèn)知包括使用某種經(jīng)過清理的邏輯語言中的符號串,,這些語言沒有歧義,,并應(yīng)用推理規(guī)則。這就是認(rèn)知——只是對語言符號串之類的事物進(jìn)行符號操作,。這是一種極端觀點,。
另一種極端觀點是,一旦你進(jìn)入頭腦,,它就全是向量,。符號進(jìn)來了,把這些符號轉(zhuǎn)換成大向量,,所有內(nèi)容都是用大向量完成的,,然后想產(chǎn)生輸出,又會生成符號,。2014年左右,機(jī)器翻譯中有一個說法,,當(dāng)時人們使用循環(huán)神經(jīng)網(wǎng)絡(luò),,單詞會不斷進(jìn)入,,它們會有一個隱藏狀態(tài),它們會在這個隱藏狀態(tài)下不斷積累信息,。因此,,當(dāng)它們讀完一個句子時,它們會得到一個大的隱藏向量,,它捕捉到了該句子的含義,,然后可以用來生成另一種語言的句子。這被稱為思維向量,。這是對語言的第二種看法——將語言轉(zhuǎn)換成一個與語言完全不同的大向量,,這就是認(rèn)知的全部內(nèi)容。
第三種觀點,,也是我現(xiàn)在所相信的,,即你采用這些符號,將符號轉(zhuǎn)換成嵌入,,并使用多層嵌入,,這樣你就得到了這些非常豐富的嵌入。但是嵌入仍然與符號相關(guān)聯(lián),,從某種意義上說,,你有一個用于這個符號的大向量,以及一個用于那個符號的大向量,。這些向量相互作用,,產(chǎn)生下一個單詞的符號的向量。這就是理解的本質(zhì)——知道如何將符號轉(zhuǎn)換成這些向量,,并知道向量的元素應(yīng)該如何相互作用,,從而預(yù)測下一個符號的向量。無論是在這些大型語言模型中,,還是在我們的大腦中,,理解就是這樣進(jìn)行的。這是一個介于兩者之間的例子,。你繼續(xù)使用符號,,但將它們解釋為這些大向量,這就是所有工作所在,。所有的知識都在于你使用的向量以及這些向量的元素如何相互作用,,而不是符號規(guī)則。
5月14日,,OpenAI在春季發(fā)布會上揭曉了其最新的旗艦AI模型——GPT-4o,這一模型以“全知全能”為目標(biāo),,實現(xiàn)了實時的語音,、文本、圖像交互功能
2024-05-15 09:10:07OpenAI發(fā)布全新生成式AI模型GPT-4o