端到端最核心的一點(diǎn)在于將自動駕駛算法進(jìn)行了全面的AI化,,轉(zhuǎn)向了完全的數(shù)據(jù)驅(qū)動,,但這意味著需要更加海量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練。
但對于到底需要多少數(shù)據(jù)才能訓(xùn)練出一個完美的自動駕駛模型,,業(yè)界并沒有一個統(tǒng)一的標(biāo)準(zhǔn),。之前有報道稱,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個,。按照每個視頻片段30秒,、30FPS的幀率、8個攝像頭計算,,訓(xùn)練圖片數(shù)量高達(dá)220億張,。
此外,這種規(guī)模的訓(xùn)練數(shù)據(jù)訓(xùn)練出來的自動駕駛系統(tǒng)的等級仍未達(dá)到L3,,自動駕駛系統(tǒng)能力每提高一個等級,,需要的訓(xùn)練數(shù)據(jù)量至少會提升一個數(shù)量級,也就是說,,要達(dá)到L4,,至少需要訓(xùn)練幾億個視頻片段。
端到端雖然強(qiáng)化了數(shù)據(jù)的作用,,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標(biāo)注需求,。在基于語言模型的自動駕駛大模型中,其輸入是當(dāng)前駕駛場景的圖片,,其輸出是各類交通參與者,、道路拓?fù)洹⒔煌ㄐ盘枠?biāo)識的語義信息,,這種模型不具備自回歸特性,,進(jìn)行有監(jiān)督學(xué)習(xí),其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作,。
這引發(fā)了一個新的問題:如果端到端自動駕駛模型的訓(xùn)練還需要繼續(xù)打標(biāo)簽,,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,還如何保證高效訓(xùn)練,?這也是一直以來影響端到端進(jìn)一步發(fā)展的最大阻礙,。
世界模型實現(xiàn)從感知到認(rèn)知的躍遷
無論是BEV檢測的白名單障礙物還是OCC占用網(wǎng)絡(luò)檢測的通用障礙物,,從本質(zhì)上來說,都屬于基于判別式AI實現(xiàn)的對分立物體的單獨(dú)感知,。
生成式AI大模型具備的超強(qiáng)理解能力使得視覺語言模型,、大語言模型、世界模型可以建立對當(dāng)下場景的整體認(rèn)知,,實現(xiàn)從感知到認(rèn)知的階躍,。
舉例來說,BEV可以檢測到一個行人,,大模型可以通過意圖理解判斷出這是一個要橫穿馬路的行人,。BEV網(wǎng)絡(luò)可以檢測到前方的一個車輛,大模型可以更進(jìn)一步,,通過長時序信息判斷出這是一個即將減速的車輛,。