不過(guò),,VLA的實(shí)現(xiàn)也不是一個(gè)突變的過(guò)程,。在李想的技術(shù)演進(jìn)框架中,,AI智能被劃分為昆蟲動(dòng)物智能,、哺乳動(dòng)物智能和人類智能三個(gè)階段,。第一階段,,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,,類似“昆蟲動(dòng)物智能”,。第二階段,,接近“哺乳動(dòng)物智能”。理想汽車自2023年起研究,,并于2024年正式推送的端到端+VLM(視覺(jué)語(yǔ)言模型)輔助駕駛,,此階段通過(guò)三維圖像判斷自身速度和軌跡以及在空間中所處的位置,足以應(yīng)對(duì)大部分泛化場(chǎng)景,,但很難解決從未遇到過(guò)或特別復(fù)雜的問(wèn)題,,需要配合視覺(jué)語(yǔ)言VLM模型,但現(xiàn)有視覺(jué)語(yǔ)言模型在應(yīng)對(duì)復(fù)雜交通環(huán)境時(shí)只能起到輔助作用,。
在端到端的基礎(chǔ)上,,到第三階段,VLA將開(kāi)啟“人類智能”的階段——能通過(guò)3D和2D視覺(jué)的組合,,完整地看到物理世界,,而不像VLM僅能解析2D圖像。同時(shí),,VLA擁有完整的腦系統(tǒng),,不僅能看見(jiàn)物理世界,更能進(jìn)一步理解物理世界,,具有自己的語(yǔ)言和思維鏈系統(tǒng),,有推理能力,可以像人類一樣執(zhí)行一些復(fù)雜動(dòng)作,?!爸挥凶屗兂梢粋€(gè)真正的司機(jī),它才是一個(gè)生產(chǎn)力工具,不只是一個(gè)輔助工具,?!崩钕雽I工具分為信息工具、輔助工具和生產(chǎn)工具,,在他看來(lái),,現(xiàn)階段人們大多還是把AI當(dāng)作一個(gè)信息工具來(lái)用,這是不完美的,。L2,,L2+也只是把AI當(dāng)成輔助工具在用,只有當(dāng)AI成為生產(chǎn)工具時(shí),,人工智能才會(huì)真正爆發(fā),。
隨著AI能力躍升,行業(yè)也迎來(lái)關(guān)于“安全性”的拷問(wèn),。最近智能駕駛技術(shù)安全性被質(zhì)疑,,整個(gè)行業(yè)被推至輿論風(fēng)口浪尖,行業(yè)普遍面臨“能力提升悖論”:隨著自動(dòng)駕駛能力的提升,,其上限高,,下限低的弊端也隨之暴露。超級(jí)對(duì)齊的目標(biāo)就是通過(guò)設(shè)計(jì)有效且高效的對(duì)齊算法,,確保這些超人類智能系統(tǒng)仍然安全,、可靠并與人類價(jià)值觀保持一致。例如在彎道限速60時(shí),,其他車輛保持60kph,,而自車保持30kph,此時(shí)自車就成了最危險(xiǎn)的車輛,,因此為了保證安全性,,需要與其他車輛進(jìn)行速度對(duì)齊,以60kph的速度行駛,,更符合法規(guī)常識(shí),。