2025年人工智能三大關(guān)注點(diǎn) 構(gòu)建準(zhǔn)確世界模型

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-12 15:35:04 新華社客戶端

如何建立一個(gè)足以控制超級(jí)智能并使其為人類服務(wù)的技術(shù)治理體制，同時(shí)使其成為國(guó)家治理體系的有機(jī)組成部分,，仍需在未來(lái)找到確切的答案,。“大世界模型”之所以引發(fā)關(guān)注,，在于其直接面對(duì)了當(dāng)前人工智能的一個(gè)關(guān)鍵難點(diǎn)：如何令A(yù)I認(rèn)識(shí)和理解世界,。當(dāng)前，智能體研究的兩大領(lǐng)域——強(qiáng)化學(xué)習(xí)與機(jī)器人——都在關(guān)注如何形成一個(gè)足夠準(zhǔn)確的“世界模型”,。

2024年,，人們見(jiàn)證了Sora、Germini,、GPT-4o等新的大模型問(wèn)世,，國(guó)產(chǎn)大模型也在技術(shù)水平上不斷接近OpenAI。雖然過(guò)去一年并未等來(lái)GPT-5這樣的重磅產(chǎn)品,，但人工智能的應(yīng)用仍在不斷加速演進(jìn),，呈現(xiàn)百花齊放之勢(shì)。2025年,，通用人工智能之后的新紅線,、具身智能和大世界模型的研發(fā)，將獲得各方更多的關(guān)注,。

2024年9月,，OpenAI總裁薩姆·奧爾特曼在以自己名字命名的網(wǎng)站上發(fā)表了一篇隨筆性質(zhì)的文章《智能時(shí)代》，認(rèn)為超級(jí)人工智能（ASI）可能會(huì)在幾千天或更長(zhǎng)時(shí)間內(nèi)到來(lái),。關(guān)于什么是超級(jí)智能及其與此前廣泛討論的通用人工智能（AGI）的區(qū)別,，引發(fā)了各方討論。牛津大學(xué)哲學(xué)家尼克·博斯特羅姆在其專著《超級(jí)智能：路徑,、危險(xiǎn),、策略》中定義超級(jí)智能為“在幾乎所有人類感興趣的領(lǐng)域都大大超過(guò)人類認(rèn)知能力的智能體”。書(shū)中引用一則歐洲寓言,，生動(dòng)地映照著當(dāng)前人類面對(duì)ASI時(shí)的兩難處境：麻雀?jìng)円庖?jiàn)不一,，有的認(rèn)為應(yīng)當(dāng)先考慮好如何不讓長(zhǎng)大后的貓頭鷹吃掉它們，否則便不應(yīng)將它養(yǎng)大,；有的則認(rèn)為不把貓頭鷹養(yǎng)大便永遠(yuǎn)無(wú)法知道馴服它的方法,。這則寓言并未給出麻雀一家的結(jié)局，而今人類正如故事里的麻雀一樣,，無(wú)法確定自身在面對(duì)知識(shí)儲(chǔ)備,、認(rèn)知能力和反應(yīng)速度均大大超過(guò)人類的ASI時(shí)，是否有辦法控制其不對(duì)人類造成危害,。

從過(guò)去一年全球各界的討論來(lái)看,，將ASI代替AGI作為劃定人工智能給人類帶來(lái)存亡危機(jī)的紅線，已經(jīng)在一定程度上成為新共識(shí),。學(xué)界不斷反思當(dāng)前人工智能安全的紅線是否設(shè)置得過(guò)低,。一項(xiàng)針對(duì)AI領(lǐng)域?qū)I(yè)人士的問(wèn)卷調(diào)查顯示，受訪者認(rèn)為出現(xiàn)超級(jí)智能的中位年份可能在2061年左右,。盡管各方未能就大模型是否應(yīng)當(dāng)被認(rèn)為是AGI達(dá)成共識(shí),，但從定義的出發(fā)點(diǎn)來(lái)看，一個(gè)能夠完成多種任務(wù)的智能體,，若其智能水平基本與人類相當(dāng),，則未必會(huì)擁有足以威脅到全人類的能力。故此,，使人工智能安全的紅線由AGI提升至ASI,，更有利于學(xué)者們保持自身理論的說(shuō)服力,。

現(xiàn)實(shí)中監(jiān)管部門對(duì)人工智能安全威脅的反應(yīng)，以及歐美民間不斷高漲的“停止GPT-5”等反人工智能的呼聲,，正使AI企業(yè)在西方國(guó)家面臨逆水行舟的窘境,。為了應(yīng)對(duì)監(jiān)管、安撫歐美民眾,，AI企業(yè)推廣新的安全概念與標(biāo)準(zhǔn),，將人工智能造成威脅的紅線由AGI提高到ASI，成為心照不宣的選擇,。然而,，紅線的提高并不意味著風(fēng)險(xiǎn)不復(fù)存在。

具身智能是一種將AI融入機(jī)器人等物理實(shí)體的技術(shù),，目的是使其具備從環(huán)境中感知和學(xué)習(xí)并與環(huán)境進(jìn)行動(dòng)態(tài)交互的能力,。該概念首次出現(xiàn)在1991年羅德尼·布魯克斯發(fā)表的論文《無(wú)需表征的智能》中，主要觀點(diǎn)是：智能行為可以直接從自主機(jī)器與環(huán)境的簡(jiǎn)單物理交互中產(chǎn)生,，而無(wú)需復(fù)雜的算法或內(nèi)部表征,。具身智能不只是“AI+機(jī)器人”，如果對(duì)具身智能的理解僅限于給AI一副身體,，那么就會(huì)忽視其與語(yǔ)言模型的不同,。

具身智能相對(duì)于語(yǔ)言模型包含的智能范疇更廣。生活中人們或多或少有過(guò)想要傳達(dá)的“意”難以用“言”來(lái)表達(dá)的體驗(yàn),。從智能的范疇來(lái)看,，智能經(jīng)由語(yǔ)言表達(dá)出的部分，僅占所有智能的一小部分,。因此,，具身智能在理論上具有得天獨(dú)厚的優(yōu)勢(shì)。具身智能的智能獲取方式更接近于人類,。譬如,，人類的智能主要來(lái)源于自身通過(guò)雙眼、雙手及其他器官習(xí)得的經(jīng)驗(yàn),，以及人類在傳承進(jìn)化過(guò)程中不斷積累形成的生物本能,。相比于語(yǔ)言模型只讀取文字，具身智能可使智能體通過(guò)與人基本相同的感官來(lái)感知外界,，其發(fā)展出的智能在理論上具有同人類智能更為相似的特點(diǎn),。具身智能更為接近智能發(fā)展的終極目標(biāo)。近年來(lái)已有不少AI領(lǐng)域的學(xué)者指出,，語(yǔ)言模型并非AI的終極發(fā)展方向,，充其量只是一個(gè)階段性成果。由于語(yǔ)言模型只能通過(guò)學(xué)習(xí)人類的語(yǔ)言文字材料來(lái)獲取智能，其輸出的結(jié)果,，究竟應(yīng)當(dāng)算作對(duì)人類語(yǔ)言的模仿,，還是實(shí)實(shí)在在的來(lái)自機(jī)器智能的“思考”，學(xué)界尚無(wú)定論,。無(wú)論如何,，大模型都無(wú)法繞開(kāi)人類語(yǔ)言這一中介，即使從中獲得了智能,，也只是一鱗半爪，存在著較為明顯的上限,。

當(dāng)然,，具身智能目前也面臨著尚待突破的難題。一方面,，具身智能要通過(guò)與現(xiàn)實(shí)環(huán)境的互動(dòng)來(lái)獲取智能,，但即使一個(gè)理論上能夠完美感知周遭世界并進(jìn)行無(wú)監(jiān)督學(xué)習(xí)的具身智能，也面臨著學(xué)習(xí)效率受環(huán)境制約的問(wèn)題,，對(duì)于當(dāng)前零樣本學(xué)習(xí)能力尚不完備的具身智能來(lái)說(shuō),，這將大大限制其發(fā)展速度。另一方面,，以仿真環(huán)境為依托的具身智能雖然能夠藉由計(jì)算機(jī)仿真出的環(huán)境來(lái)進(jìn)行非實(shí)時(shí)的高速訓(xùn)練,，但面臨著仿真環(huán)境無(wú)法完全“還原”現(xiàn)實(shí)世界的問(wèn)題，導(dǎo)致該智能體難以在現(xiàn)實(shí)環(huán)境中實(shí)用化,，也難以在短時(shí)間內(nèi)積累出如同大模型訓(xùn)練語(yǔ)料庫(kù)那樣的大規(guī)模數(shù)據(jù)集,。如何解決上述難題，將是具身智能未來(lái)發(fā)展的關(guān)鍵,。

2024年3月,，谷歌云前人工智能主管李飛飛創(chuàng)建了一家名為“世界實(shí)驗(yàn)室”的初創(chuàng)公司，主要從事開(kāi)發(fā)一種能夠理解三維物理世界的AI模型,，被稱為“大世界模型”,。其基本用法是，給定任意圖片或文字,，AI能夠從中提取物體,，進(jìn)而還原出一個(gè)完整的三維空間。例如,，如果把文學(xué)作品輸入該模型,，用戶們就可以進(jìn)入J.K.羅琳在《哈利·波特》中描繪的對(duì)角巷，或者劉慈欣描述的三日凌空的《三體》世界,；把畫(huà)作輸入該模型,，你可以坐進(jìn)梵高的《夜晚露天咖啡座》，或者站在霍普的《夜游者》酒吧門口，如同一個(gè)等待進(jìn)入的顧客,。

與此前廣泛應(yīng)用于數(shù)字媒體制作的“2D轉(zhuǎn)3D”工具不同,，使用“大世界模型”，用戶不僅能夠在該空間內(nèi)水平移動(dòng),，還可以進(jìn)行縱深移動(dòng)和視角轉(zhuǎn)換,，從不同角度看到物體的全貌，并且這些物體還具備真實(shí)世界里的部分物理學(xué)特征,，包括受阻,、碰撞、透視關(guān)系等,。李飛飛將這種具備認(rèn)識(shí)和理解空間能力的AI稱為“空間智能”,。

對(duì)于一個(gè)成立不久的公司，以上還只是早期的演示內(nèi)容,，但僅僅依靠這樣的演示內(nèi)容,，該公司便已拿到了2.3億美元的風(fēng)險(xiǎn)投資，四個(gè)月后估值就超過(guò)了10億美元,?！按笫澜缒Ｐ汀敝砸l(fā)關(guān)注，在于其直接面對(duì)了當(dāng)前人工智能的一個(gè)關(guān)鍵難點(diǎn)：如何令A(yù)I認(rèn)識(shí)和理解世界,？其與Sora等圖文生視頻類AI最大的不同點(diǎn),，也在于此。體驗(yàn)過(guò)此類AI應(yīng)用的人或多或少都遇到過(guò)這樣的情況：人工智能生成的內(nèi)容完全不符合現(xiàn)實(shí)生活中的經(jīng)驗(yàn),，其結(jié)果或是令人啼笑皆非,，或是干脆成了“恐怖片”。這便是人工智能沒(méi)有認(rèn)識(shí)和理解世界的結(jié)果,，其所做的僅僅是預(yù)測(cè)每個(gè)像素點(diǎn)的數(shù)值,。

當(dāng)前，智能體研究的兩大領(lǐng)域——強(qiáng)化學(xué)習(xí)與機(jī)器人——都在關(guān)注如何形成一個(gè)足夠準(zhǔn)確的“世界模型”,。這也是楊·勒丘恩等人工智能領(lǐng)域泰斗級(jí)學(xué)者都在反復(fù)強(qiáng)調(diào)的,，只有解決了構(gòu)建世界模型的問(wèn)題，才能真正突破人工智能的訓(xùn)練瓶頸,。屆時(shí),，人工智能能夠利用世界模型中的狀態(tài)表征和動(dòng)作表征數(shù)據(jù)進(jìn)行反復(fù)試錯(cuò)，進(jìn)而找到現(xiàn)實(shí)世界問(wèn)題的解決方案,。盡管當(dāng)前距離這一目標(biāo)還比較遙遠(yuǎn),，但李飛飛的“大世界模型”或許可以看作朝向這一人工智能解決方案邁出了一小步。

(責(zé)任編輯：張小花 TT1000)

關(guān)閉

2025年人工智能三大關(guān)注點(diǎn) 構(gòu)建準(zhǔn)確世界模型

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)