端到端最核心的一點(diǎn)在于將自動(dòng)駕駛算法進(jìn)行了全面的AI化,轉(zhuǎn)向了完全的數(shù)據(jù)驅(qū)動(dòng),,但這意味著需要更加海量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練,。
但對(duì)于到底需要多少數(shù)據(jù)才能訓(xùn)練出一個(gè)完美的自動(dòng)駕駛模型,業(yè)界并沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),。之前有報(bào)道稱,,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬(wàn)個(gè)。按照每個(gè)視頻片段30秒,、30FPS的幀率,、8個(gè)攝像頭計(jì)算,訓(xùn)練圖片數(shù)量高達(dá)220億張,。
此外,,這種規(guī)模的訓(xùn)練數(shù)據(jù)訓(xùn)練出來(lái)的自動(dòng)駕駛系統(tǒng)的等級(jí)仍未達(dá)到L3,自動(dòng)駕駛系統(tǒng)能力每提高一個(gè)等級(jí),,需要的訓(xùn)練數(shù)據(jù)量至少會(huì)提升一個(gè)數(shù)量級(jí),,也就是說(shuō),要達(dá)到L4,,至少需要訓(xùn)練幾億個(gè)視頻片段,。
端到端雖然強(qiáng)化了數(shù)據(jù)的作用,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標(biāo)注需求,。在基于語(yǔ)言模型的自動(dòng)駕駛大模型中,,其輸入是當(dāng)前駕駛場(chǎng)景的圖片,其輸出是各類交通參與者,、道路拓?fù)?、交通信?hào)標(biāo)識(shí)的語(yǔ)義信息,,這種模型不具備自回歸特性,進(jìn)行有監(jiān)督學(xué)習(xí),,其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作。
這引發(fā)了一個(gè)新的問(wèn)題:如果端到端自動(dòng)駕駛模型的訓(xùn)練還需要繼續(xù)打標(biāo)簽,,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,,還如何保證高效訓(xùn)練?這也是一直以來(lái)影響端到端進(jìn)一步發(fā)展的最大阻礙,。
世界模型實(shí)現(xiàn)從感知到認(rèn)知的躍遷
無(wú)論是BEV檢測(cè)的白名單障礙物還是OCC占用網(wǎng)絡(luò)檢測(cè)的通用障礙物,,從本質(zhì)上來(lái)說(shuō),都屬于基于判別式AI實(shí)現(xiàn)的對(duì)分立物體的單獨(dú)感知,。
生成式AI大模型具備的超強(qiáng)理解能力使得視覺(jué)語(yǔ)言模型,、大語(yǔ)言模型、世界模型可以建立對(duì)當(dāng)下場(chǎng)景的整體認(rèn)知,,實(shí)現(xiàn)從感知到認(rèn)知的階躍,。
舉例來(lái)說(shuō),BEV可以檢測(cè)到一個(gè)行人,,大模型可以通過(guò)意圖理解判斷出這是一個(gè)要橫穿馬路的行人,。BEV網(wǎng)絡(luò)可以檢測(cè)到前方的一個(gè)車輛,大模型可以更進(jìn)一步,,通過(guò)長(zhǎng)時(shí)序信息判斷出這是一個(gè)即將減速的車輛,。