2025年人工智能三大關(guān)注點(diǎn) 構(gòu)建準(zhǔn)確世界模型(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-12 15:35:04 新華社客戶端

當(dāng)然，具身智能目前也面臨著尚待突破的難題,。一方面,，具身智能要通過與現(xiàn)實(shí)環(huán)境的互動來獲取智能,，但即使一個理論上能夠完美感知周遭世界并進(jìn)行無監(jiān)督學(xué)習(xí)的具身智能,，也面臨著學(xué)習(xí)效率受環(huán)境制約的問題,，對于當(dāng)前零樣本學(xué)習(xí)能力尚不完備的具身智能來說,，這將大大限制其發(fā)展速度,。另一方面，以仿真環(huán)境為依托的具身智能雖然能夠藉由計(jì)算機(jī)仿真出的環(huán)境來進(jìn)行非實(shí)時的高速訓(xùn)練,，但面臨著仿真環(huán)境無法完全“還原”現(xiàn)實(shí)世界的問題,，導(dǎo)致該智能體難以在現(xiàn)實(shí)環(huán)境中實(shí)用化，也難以在短時間內(nèi)積累出如同大模型訓(xùn)練語料庫那樣的大規(guī)模數(shù)據(jù)集,。如何解決上述難題,，將是具身智能未來發(fā)展的關(guān)鍵。

2024年3月,，谷歌云前人工智能主管李飛飛創(chuàng)建了一家名為“世界實(shí)驗(yàn)室”的初創(chuàng)公司,，主要從事開發(fā)一種能夠理解三維物理世界的AI模型，被稱為“大世界模型”。其基本用法是,，給定任意圖片或文字,，AI能夠從中提取物體，進(jìn)而還原出一個完整的三維空間,。例如,，如果把文學(xué)作品輸入該模型，用戶們就可以進(jìn)入J.K.羅琳在《哈利·波特》中描繪的對角巷,，或者劉慈欣描述的三日凌空的《三體》世界,；把畫作輸入該模型，你可以坐進(jìn)梵高的《夜晚露天咖啡座》,，或者站在霍普的《夜游者》酒吧門口,，如同一個等待進(jìn)入的顧客。

與此前廣泛應(yīng)用于數(shù)字媒體制作的“2D轉(zhuǎn)3D”工具不同,，使用“大世界模型”,，用戶不僅能夠在該空間內(nèi)水平移動，還可以進(jìn)行縱深移動和視角轉(zhuǎn)換,，從不同角度看到物體的全貌,，并且這些物體還具備真實(shí)世界里的部分物理學(xué)特征，包括受阻,、碰撞、透視關(guān)系等,。李飛飛將這種具備認(rèn)識和理解空間能力的AI稱為“空間智能”,。

對于一個成立不久的公司，以上還只是早期的演示內(nèi)容,，但僅僅依靠這樣的演示內(nèi)容,，該公司便已拿到了2.3億美元的風(fēng)險(xiǎn)投資，四個月后估值就超過了10億美元,?！按笫澜缒Ｐ汀敝砸l(fā)關(guān)注，在于其直接面對了當(dāng)前人工智能的一個關(guān)鍵難點(diǎn)：如何令A(yù)I認(rèn)識和理解世界,？其與Sora等圖文生視頻類AI最大的不同點(diǎn),，也在于此。體驗(yàn)過此類AI應(yīng)用的人或多或少都遇到過這樣的情況：人工智能生成的內(nèi)容完全不符合現(xiàn)實(shí)生活中的經(jīng)驗(yàn),，其結(jié)果或是令人啼笑皆非,，或是干脆成了“恐怖片”。這便是人工智能沒有認(rèn)識和理解世界的結(jié)果,，其所做的僅僅是預(yù)測每個像素點(diǎn)的數(shù)值,。

當(dāng)前，智能體研究的兩大領(lǐng)域——強(qiáng)化學(xué)習(xí)與機(jī)器人——都在關(guān)注如何形成一個足夠準(zhǔn)確的“世界模型”,。這也是楊·勒丘恩等人工智能領(lǐng)域泰斗級學(xué)者都在反復(fù)強(qiáng)調(diào)的,，只有解決了構(gòu)建世界模型的問題,，才能真正突破人工智能的訓(xùn)練瓶頸。屆時,，人工智能能夠利用世界模型中的狀態(tài)表征和動作表征數(shù)據(jù)進(jìn)行反復(fù)試錯,，進(jìn)而找到現(xiàn)實(shí)世界問題的解決方案。盡管當(dāng)前距離這一目標(biāo)還比較遙遠(yuǎn),，但李飛飛的“大世界模型”或許可以看作朝向這一人工智能解決方案邁出了一小步,。

首頁上一頁 1 23共 3 頁

(責(zé)任編輯：張小花 TT1000)

關(guān)閉

2025年人工智能三大關(guān)注點(diǎn) 構(gòu)建準(zhǔn)確世界模型(3)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)