1942年,科幻小說家艾薩克·阿西莫夫在他的短篇小說《轉(zhuǎn)圈圈》中首次提出了“機器人三定律”,,這一定律被視為現(xiàn)代人工智能技術(shù)的基石,。八十年后,世界在許多方面已經(jīng)接近甚至超越了阿西莫夫的想象,。
如今,,人們生活在一個由人工智能滲透的世界里。2024年,,我們見證了一系列人工智能技術(shù)的創(chuàng)新與涌現(xiàn),,如AI視頻生成模型Sora和GPT-4o等。這些新技術(shù)不僅提升了駕駛體驗,,還為城市交通的安全性,、效率和可持續(xù)性帶來了新的可能。
展望2025年,,隨著人工智能與交通的進(jìn)一步融合,,BEV+OCC感知能力困局待解。近年來,,自動駕駛領(lǐng)域熱詞依次為:BEV+Transformer,、OCC占用網(wǎng)絡(luò)、無圖NOA,、端到端,。BEV網(wǎng)絡(luò)通過矢量化的鳥瞰視角檢測白名單障礙物,而OCC通過體素化的占用網(wǎng)絡(luò)預(yù)測3D空間的占位情況,,實現(xiàn)對通用障礙物的感知,。然而,目前BEV網(wǎng)絡(luò)的感知上限大約為1000多種物體,,OCC網(wǎng)格大小受限于算力和實時性,,通常只能做到10厘米左右,難以檢測微小物體。此外,,天氣,、光照、雨霧等復(fù)雜語義也是當(dāng)前技術(shù)難以解決的問題,。
數(shù)據(jù)成為端到端方案的最大瓶頸,。相較于分模塊方案,端到端方案主要解決了從人工邏輯代碼到數(shù)據(jù)驅(qū)動的問題,,并通過自動抽取信息減少信息損失,。決策和規(guī)劃的進(jìn)步顯著,但感知能力提升有限,。訓(xùn)練一個完美的自動駕駛模型需要海量數(shù)據(jù),,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個,但仍未達(dá)到L3級別,。大模型的引入增加了數(shù)據(jù)標(biāo)注需求,,如何保證高效訓(xùn)練成為關(guān)鍵問題,。
世界模型實現(xiàn)了從感知到認(rèn)知的躍遷,。生成式AI大模型具備超強理解能力,能夠建立對當(dāng)下場景的整體認(rèn)知,。例如,,大模型可以通過意圖理解判斷出行人是否要橫穿馬路,或通過長時序信息判斷車輛是否即將減速,。這種從部分到整體,、從分立到連續(xù)、從感知到認(rèn)知的轉(zhuǎn)變,,使自動駕駛系統(tǒng)更加貼近人類駕駛的知識邏輯,。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列,輸入當(dāng)前時刻視頻,,輸出下一時刻視頻,,可以進(jìn)行無監(jiān)督訓(xùn)練,解決了傳統(tǒng)端到端模型需要精確標(biāo)注海量視頻數(shù)據(jù)的難題,。