李想:L2級(jí)輔助駕駛不算生產(chǎn)工具 未來(lái)VLA將成專(zhuān)業(yè)司機(jī),!5月7日晚,,理想汽車(chē)推出了“理想AI Talk第二季——理想VLA司機(jī)大模型,從動(dòng)物進(jìn)化到人類(lèi)”,。理想汽車(chē)創(chuàng)始人,、CEO李想分享了對(duì)人工智能的最新思考,,包括VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn),,以及對(duì)創(chuàng)業(yè)和個(gè)人成長(zhǎng)的見(jiàn)解,。
李想將當(dāng)前熱門(mén)的AI工具分為三個(gè)層級(jí):信息工具、輔助工具和生產(chǎn)工具,。他指出,,目前大多數(shù)人將AI作為信息工具使用,但這些工具常伴隨大量無(wú)效信息,,僅具參考價(jià)值,。成為輔助工具后,AI可以提升效率,,例如現(xiàn)在的輔助駕駛,,但仍需人類(lèi)參與。未來(lái),,AI發(fā)展為生產(chǎn)工具后,,將能獨(dú)立完成專(zhuān)業(yè)任務(wù),顯著提升效率與質(zhì)量,。李想認(rèn)為,,判斷AI是否真正智能的關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具,,才是其真正爆發(fā)的時(shí)刻,。
面對(duì)AI的發(fā)展,李想強(qiáng)調(diào)所有的人性都應(yīng)被保留,,無(wú)論好壞,,因?yàn)橐磺腥诵远际俏幕⑸?、性格,、能力的特質(zhì),,也是人類(lèi)真正的生命力所在。對(duì)于智能輔助駕駛,,李想直言如今的L2,、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA(視覺(jué)語(yǔ)言行動(dòng)模型)能夠讓AI真正成為司機(jī),,成為交通領(lǐng)域的專(zhuān)業(yè)生產(chǎn)工具,。未來(lái)的VLA就像人類(lèi)司機(jī)一樣工作。
VLA的實(shí)現(xiàn)經(jīng)歷了三個(gè)階段,。第一階段,,理想汽車(chē)自2021年起自研依賴(lài)規(guī)則算法和高精地圖的輔助駕駛,類(lèi)似“昆蟲(chóng)動(dòng)物智能”,。第二階段,,理想汽車(chē)自2023年起研究并于2024年正式推送的端到端+VLM(視覺(jué)語(yǔ)言模型)輔助駕駛,接近“哺乳動(dòng)物智能”,。第三階段,,VLA將開(kāi)啟“人類(lèi)智能”階段,通過(guò)3D和2D視覺(jué)的組合,,完整地看到物理世界,,并具備語(yǔ)言和CoT(思維鏈)推理能力,既能看也能理解并執(zhí)行行動(dòng),,符合人類(lèi)運(yùn)作方式,。
VLA的訓(xùn)練分為預(yù)訓(xùn)練,、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)環(huán)節(jié),。預(yù)訓(xùn)練相當(dāng)于學(xué)習(xí)物理世界和交通領(lǐng)域的常識(shí),通過(guò)大量高清2D和3D視覺(jué)數(shù)據(jù),、交通相關(guān)的語(yǔ)言語(yǔ)料,,以及與物理世界相關(guān)的視覺(jué)和語(yǔ)言聯(lián)合數(shù)據(jù),訓(xùn)練出云端的VL基座模型,,并轉(zhuǎn)化為在車(chē)端高效運(yùn)行的端側(cè)模型,。后訓(xùn)練類(lèi)似于去駕校學(xué)開(kāi)車(chē),加入動(dòng)作數(shù)據(jù)后,,VL基座變?yōu)閂LA司機(jī)大模型,,具備實(shí)時(shí)性和復(fù)雜交通環(huán)境中的博弈能力。強(qiáng)化訓(xùn)練類(lèi)似于實(shí)際開(kāi)車(chē)練習(xí),,目標(biāo)是讓VLA更安全,、舒適,對(duì)齊人類(lèi)價(jià)值觀,,甚至超越人類(lèi)駕駛水平,。經(jīng)過(guò)預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練后,VLA即可部署至車(chē)端運(yùn)行,。
VLA以“司機(jī)Agent”的產(chǎn)品形態(tài)呈現(xiàn),,用戶(hù)可通過(guò)自然語(yǔ)言與司機(jī)Agent溝通。簡(jiǎn)單通用的短指令由端側(cè)的VLA直接處理,,復(fù)雜指令則先由云端的VL基座模型解析,,再交由VLA處理。為了保障VLA的安全和舒適,,理想汽車(chē)在強(qiáng)化訓(xùn)練環(huán)節(jié)投入大量資源,,并于2024年底組建超過(guò)100人的超級(jí)對(duì)齊團(tuán)隊(duì),注入職業(yè)素養(yǎng),。此外,,理想汽車(chē)結(jié)合重建和生成兩種路徑,打造了真實(shí),、符合物理世界規(guī)律的世界模型,,提升解決問(wèn)題的效率,有效應(yīng)對(duì)模型黑盒帶來(lái)的挑戰(zhàn),。
判斷司機(jī)Agent是否是個(gè)好司機(jī)有三個(gè)關(guān)鍵標(biāo)準(zhǔn):專(zhuān)業(yè)能力,、職業(yè)能力和構(gòu)建信任的能力。VLA提升了專(zhuān)業(yè)能力,,超級(jí)對(duì)齊增強(qiáng)了職業(yè)能力,,VLA通過(guò)理解自然語(yǔ)言和具備記憶能力提升了構(gòu)建信任的能力。理想汽車(chē)依托自有編譯團(tuán)隊(duì),,自研底層推理引擎,,使芯片可通過(guò)INT4量化的方式運(yùn)行VLM。憑借綜合能力,,理想汽車(chē)實(shí)現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運(yùn)行同等規(guī)模的VLA司機(jī)大模型,。
李想還提到,得益于DeepSeek的開(kāi)源,,理想汽車(chē)在VLA司機(jī)大模型的語(yǔ)言能力研發(fā)上提速顯著,,節(jié)省了近9個(gè)月的時(shí)間和數(shù)億元成本。今年7月,,理想汽車(chē)將迎來(lái)成立十周年,。李想表示,創(chuàng)業(yè)路上苦多于甜,,他選擇保留有價(jià)值的美好片段來(lái)激勵(lì)自己保持正能量,。回顧幾次創(chuàng)業(yè)經(jīng)歷,,李想表示思維方式?jīng)]有變化,,遇到問(wèn)題解決問(wèn)題,,解決用戶(hù)的痛點(diǎn),不斷向他人學(xué)習(xí),。不同的是,,如今面臨的問(wèn)題更復(fù)雜、服務(wù)的用戶(hù)群體更多,、公司規(guī)模和組織也更龐大,。