也就是說,在基于判別式AI的物體識(shí)別之外,,生成式AI的意圖理解和長時(shí)序理解能力使其可以建立對(duì)整體駕駛環(huán)境的理解,,更加貼近人類駕駛的知識(shí)邏輯。
自動(dòng)駕駛真正的挑戰(zhàn)并不在于能否檢測(感知)出各個(gè)獨(dú)立的物體,,而是要準(zhǔn)確判斷(認(rèn)知)物體的意圖,,根據(jù)車輛、行人微妙多變的姿態(tài)做出準(zhǔn)確的博弈和決策,,只有建立了這樣復(fù)雜的語義理解和場景理解能力,,才能像老司機(jī)那樣游刃有余地駕馭各種路況。而從部分到整體,,從分立到連續(xù),,從感知到認(rèn)知,正是大模型給傳統(tǒng)自動(dòng)駕駛感知技術(shù)棧帶來的重大轉(zhuǎn)變。
世界模型的引入標(biāo)志著自動(dòng)駕駛向數(shù)據(jù)驅(qū)動(dòng)智能的關(guān)鍵轉(zhuǎn)變,,在這種智能中,,預(yù)測和模擬未來情景的能力成為安全和效率的基石。
數(shù)據(jù)稀缺性問題,,特別是在如數(shù)據(jù)標(biāo)注等專業(yè)任務(wù)中,,突顯了世界模型的創(chuàng)新性和必要性。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列,,輸入是當(dāng)前時(shí)刻視頻,,輸出是下一時(shí)刻視頻,可以像語言模型拿自帶標(biāo)簽信息的文字序列那樣進(jìn)行無監(jiān)督訓(xùn)練,,不再需要數(shù)據(jù)標(biāo)注,,這也就解決了傳統(tǒng)端到端模型訓(xùn)練需要精確標(biāo)注海量視頻數(shù)據(jù)的巨大難題。
同時(shí),,通過從歷史數(shù)據(jù)中生成預(yù)測情景,,世界模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)注帶來的限制,還增強(qiáng)了在模擬環(huán)境中訓(xùn)練自主系統(tǒng)的能力,,這些環(huán)境可以反映甚至超越現(xiàn)實(shí)世界條件的復(fù)雜性。
這種方法預(yù)示著一個(gè)新時(shí)代的到來,,在這個(gè)時(shí)代,,自動(dòng)駕駛汽車具備反映某種直覺的預(yù)測能力,使它們能夠以前所未有的復(fù)雜程度響應(yīng)各類交通環(huán)境,。
世界模型可以通過模擬和預(yù)測其他車輛,、行人和動(dòng)態(tài)環(huán)境變化,從而幫助自主系統(tǒng)做出更安全,、更高效的駕駛決策,。例如,世界模型可以預(yù)測交通流量,、路況變化以及潛在的風(fēng)險(xiǎn)因素,,使自動(dòng)駕駛車輛能夠提前做出反應(yīng),避免事故和優(yōu)化行駛路徑,。