李想再度發(fā)聲:不追特斯拉FSD VLA模型引領(lǐng)智能駕駛新階段,!今年3月,英偉達(dá)2025春季GTC大會(huì)上,理想汽車(chē)自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬介紹了他們的最新成果:MindVLA大模型。這是一個(gè)擁有22億參數(shù)的視覺(jué)-語(yǔ)言-動(dòng)作模型,,已經(jīng)成功部署于車(chē)端。理想認(rèn)為,,VLA模型是解決AI與物理世界交互難題最有效的方法。
在過(guò)去的一年里,,端到端架構(gòu)成為智能駕駛領(lǐng)域的技術(shù)熱點(diǎn),,推動(dòng)車(chē)企從傳統(tǒng)的分模塊規(guī)則設(shè)計(jì)轉(zhuǎn)向一體化系統(tǒng)。理想在智能駕駛上的進(jìn)步顯著,,7月份率先實(shí)現(xiàn)了全國(guó)無(wú)圖NOA,并推出了獨(dú)特的「端到端(快系統(tǒng))+VLM(慢系統(tǒng))」架構(gòu),,受到行業(yè)廣泛關(guān)注,。
隨著理想AI Talk第二季的進(jìn)行,我們對(duì)李想口中的「人工智能公司」有了更深的了解,。理想汽車(chē)CEO李想提到,他們?cè)谧龅腗ind GPT是一個(gè)大語(yǔ)言模型,,而自動(dòng)駕駛則被稱(chēng)為行為智能或空間智能,。他認(rèn)為,,基座模型最終會(huì)變成VLA,,因?yàn)檎Z(yǔ)言模型只能通過(guò)語(yǔ)言和認(rèn)知理解三維世界,顯然不夠,。VLA的誕生是對(duì)語(yǔ)言智能和空間智能深度結(jié)合的一次大膽嘗試,,也是理想汽車(chē)對(duì)「智能汽車(chē)」概念的一次重新詮釋。
李想進(jìn)一步定義VLA為一個(gè)司機(jī)大模型,,像人類(lèi)司機(jī)一樣工作,。它不僅是一項(xiàng)技術(shù),更是一個(gè)能與用戶自然溝通,、自主決策的智能伙伴,。VLA的核心在于整合視覺(jué)感知、自然語(yǔ)言理解和動(dòng)作生成能力,,讓車(chē)輛變成一個(gè)能與人溝通,、能自己做決定的「司機(jī)Agent」。
實(shí)現(xiàn)這樣的目標(biāo)并不容易,。VLA將視覺(jué)、語(yǔ)言和動(dòng)作三個(gè)維度打通,,使它們無(wú)縫協(xié)作,。例如,用戶說(shuō)一句「今天有點(diǎn)累,,開(kāi)慢點(diǎn)吧」,,車(chē)輛不僅能聽(tīng)懂意思,還會(huì)調(diào)整速度,,甚至選擇一條更平穩(wěn)的路線,。VLA的技術(shù)底色體現(xiàn)在理想汽車(chē)在智能駕駛上的演進(jìn)脈絡(luò)。早期的系統(tǒng)依賴(lài)規(guī)則和高精地圖,,遇到復(fù)雜路況束手無(wú)策,。后來(lái),端到端架構(gòu)和視覺(jué)-語(yǔ)言模型讓技術(shù)躍升至「哺乳動(dòng)物級(jí)別」,,擺脫地圖依賴(lài),,全國(guó)無(wú)圖NOA成為現(xiàn)實(shí),。
VLA的出現(xiàn)標(biāo)志著理想汽車(chē)的智能駕駛技術(shù)邁入了「人類(lèi)智能」的新階段。VLA不僅能感知3D物理世界,,還能進(jìn)行邏輯推理,生成接近人類(lèi)水平的駕駛行為,。例如,在擁堵街道上說(shuō)「找個(gè)地方掉頭」,,VLA不會(huì)機(jī)械執(zhí)行指令,而是綜合路況,、車(chē)流和交通規(guī)則,找到最合理的時(shí)間和位置完成掉頭,。VLA通過(guò)生成數(shù)據(jù)快速適應(yīng)新場(chǎng)景,,三天內(nèi)優(yōu)化應(yīng)對(duì)復(fù)雜修路情況,這種靈活性和判斷力是其核心優(yōu)勢(shì)。
支撐VLA的是理想汽車(chē)自研的一套復(fù)雜而精妙的技術(shù)體系,。首先是3D高斯表征技術(shù),,用大量「高斯點(diǎn)」拼出3D物體,每個(gè)點(diǎn)含有自己的位置,、顏色和大小等信息,。這項(xiàng)技術(shù)通過(guò)自監(jiān)督學(xué)習(xí),訓(xùn)練出強(qiáng)大的3D空間理解模型,。接著是混合專(zhuān)家架構(gòu)(MoE),該架構(gòu)由專(zhuān)家網(wǎng)絡(luò),、門(mén)控網(wǎng)絡(luò)和組合器組成,,保證激活參數(shù)不會(huì)大幅增加。最后,,理想為VLA引入了稀疏注意力機(jī)制,,提升端側(cè)的推理效率。
從感知到?jīng)Q策,,VLA借鑒了人類(lèi)思維的快慢結(jié)合模式,。既能快速輸出簡(jiǎn)單的動(dòng)作決策,也能通過(guò)短思維鏈進(jìn)行「慢思考」,,應(yīng)對(duì)更復(fù)雜的場(chǎng)景,。為了進(jìn)一步提升實(shí)時(shí)性,VLA還引入了投機(jī)推理和并行解碼技術(shù),,充分利用車(chē)端芯片的算力,確保決策過(guò)程快而不亂,。
在生成駕駛行為時(shí),,VLA用到了Diffusion模型和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)。Diffusion模型負(fù)責(zé)生成優(yōu)化的駕駛軌跡,,而RLHF則讓這些軌跡更貼近人類(lèi)習(xí)慣,,既安全又舒適。世界模型是另一關(guān)鍵技術(shù),,理想通過(guò)場(chǎng)景重建和生成,,為強(qiáng)化學(xué)習(xí)提供了高質(zhì)量的虛擬環(huán)境,驗(yàn)證成本大幅降低,。
VLA的成長(zhǎng)過(guò)程分為預(yù)訓(xùn)練,、后訓(xùn)練和強(qiáng)化學(xué)習(xí)三個(gè)階段。預(yù)訓(xùn)練階段,,理想汽車(chē)為VLA打造了一個(gè)視覺(jué)-語(yǔ)言基座模型,,讓它先學(xué)會(huì)「看」和「聽(tīng)」;后訓(xùn)練加入動(dòng)作模塊,,生成4-8秒駕駛軌跡,。強(qiáng)化學(xué)習(xí)分為兩步:先用RLHF對(duì)齊人類(lèi)習(xí)慣,,再用純強(qiáng)化學(xué)習(xí)優(yōu)化,基于G值(舒適性),、碰撞和交通規(guī)則反饋,,讓VLA「開(kāi)得比人類(lèi)更好」。
李想強(qiáng)調(diào),,AI正在經(jīng)歷從「信息工具」到「生產(chǎn)工具」的深刻變革,。理想汽車(chē)的VLA模型正是這一趨勢(shì)的生動(dòng)實(shí)踐。它通過(guò)整合視覺(jué),、語(yǔ)言和動(dòng)作智能,,將汽車(chē)打造成一個(gè)能夠自主駕駛、與用戶自然交互的智能體,,完美詮釋了「具身智能」的核心理念,。
VLA的成功離不開(kāi)行業(yè)標(biāo)桿的啟發(fā)。DeepSeek的MoE架構(gòu)不僅提升了訓(xùn)練效率,,還為理想提供了寶貴經(jīng)驗(yàn),。李想感慨,他們站在巨人的肩膀上加速了VLA的研發(fā),。這種開(kāi)放學(xué)習(xí)的態(tài)度,,讓理想在無(wú)人區(qū)中走得更遠(yuǎn)。
當(dāng)然,,VLA的發(fā)展并非沒(méi)有挑戰(zhàn),。算力的持續(xù)投入、數(shù)據(jù)倫理以及消費(fèi)者對(duì)自動(dòng)駕駛的信任建立,,都是理想汽車(chē)需要面對(duì)的課題,。此外,AI行業(yè)的競(jìng)爭(zhēng)日趨激烈,,理想需要在技術(shù)迭代和市場(chǎng)推廣上保持領(lǐng)先,。理想計(jì)劃在2025年7月與純電SUV理想i8同步發(fā)布VLA,并在2026年實(shí)現(xiàn)量產(chǎn),。這不僅是對(duì)技術(shù)的一次全面檢驗(yàn),,更是市場(chǎng)的一塊重要試金石。
《再見(jiàn)愛(ài)人》新一期播出,,李行亮,、麥琳在節(jié)目中的相處模式讓很多網(wǎng)友感到不適,并吐槽麥麥在節(jié)目中的做法,。
2024-11-26 15:19:32李行亮粉絲發(fā)聲李行亮的支持者粉絲發(fā)聲,,在李行亮參加快男的時(shí)候就帶著麥琳,,兩人感情很好,而粉絲們都自愿給李行亮宣傳,,付出,,被麥琳解散了。
2024-11-27 10:02:56疑似麥琳解散李行亮核心粉絲群