1942年,科幻小說家艾薩克·阿西莫夫(Isaac Asimov)在他的短篇小說《轉(zhuǎn)圈圈》(Runaround)中第一次明確提出了“機器人三定律”,,這一定律也被稱為“現(xiàn)代人工智能技術(shù)的基石”,。
阿西莫夫可能沒有完全預(yù)見到,八十年后的世界會多么接近他的科幻夢想,。
如今,,人們生活在一個由人工智能滲透的世界里,這個世界在許多方面已超越阿西莫夫的想象,。2024年,,我們見證了一系列人工智能技術(shù)的創(chuàng)新與涌現(xiàn)。從AI視頻生成模型Sora到GPT-4o,,一系列生成式人工智能新技術(shù)相繼問世,、更新迭代,讓人感覺到似乎“未來已來”,。
這一年,,大模型、端到端,、世界模型,、車路云等已成為交通智能化領(lǐng)域最具革命性的技術(shù)應(yīng)用,不僅提升了駕駛體驗,,還為城市交通的安全性,、效率和可持續(xù)性帶來新的可能。
展望2025年,,隨著人工智能與交通的進(jìn)一步深度融合,,哪些技術(shù)領(lǐng)域充滿機遇,?誰將引領(lǐng)新一年的行業(yè)發(fā)展?
BEV+OCC感知能力困局待解
對照著自動駕駛領(lǐng)域這幾年的行業(yè)熱詞按圖索驥,,可以把握自動駕駛算法模型的發(fā)展脈絡(luò),。在特斯拉的帶動下,自2021年至今,,自動駕駛行業(yè)這幾年的動態(tài)熱詞依次為:BEV+Transformer,、OCC占用網(wǎng)絡(luò)、無圖NOA,、端到端,。
BEV(鳥瞰圖)網(wǎng)絡(luò)通過矢量化的鳥瞰視角檢測白名單障礙物,OCC通過體素化的占用網(wǎng)絡(luò)預(yù)測3D空間的占位情況,,實現(xiàn)對通用障礙物的感知,,到無圖NOA的階段,自動駕駛算法可以通過車道網(wǎng)絡(luò)實時建圖,,構(gòu)建道路拓?fù)洹?/p>
再到今年大火的端到端,,一方面,由于消除了傳統(tǒng)分模塊方案中各種小模型的冗余,,計算資源得以集約化使用,,神經(jīng)網(wǎng)絡(luò)的參數(shù)量或規(guī)模得以進(jìn)一步提升;另一方面,,無論是分段式端到端還是一體式端到端,,感知到?jīng)Q策之間的傳輸帶寬增加,信息損失減少,,進(jìn)一步增強了系統(tǒng)的感知能力,。
對于駕駛而言,感知交通環(huán)境信息越全面,、越及時,,駕駛的安全性也就相對越高。因此,,自動駕駛系統(tǒng)對感知能力的需求是沒有上限的,。
BEV網(wǎng)絡(luò)固然可以檢測白名單障礙物,但能檢測到1000多種物體基本上就是目前BEV網(wǎng)絡(luò)的感知上限,。OCC占用網(wǎng)絡(luò)可以檢測通用障礙物,,但OCC算法的運算量跟隨網(wǎng)格的大小成倍變化,網(wǎng)格大小縮減一倍,,OCC算法的運算量將增加8倍,受限于算力和實時性,,OCC網(wǎng)格的大小一般只能做到10厘米左右,,這就意味著它很難檢測微小物體,。在很多情況下,10公分大的物體足以造成交通事故了,。
不僅如此,,那些和駕駛安全、效率,、舒適性密切相關(guān)的天氣,、光照、雨霧等復(fù)雜語義,,也是目前的BEV+OCC所解決不了的,,而光照和天氣恰恰是可以影響自動駕駛車輛行駛的關(guān)鍵要素。
數(shù)據(jù)正在成為端到端最大瓶頸
相較于分模塊的自動駕駛方案,,端到端方案主要解決了兩個問題,。首先,從人工邏輯代碼到數(shù)據(jù)驅(qū)動,,人工智能真正擺脫了“人工”,,從此可以使用海量的數(shù)據(jù)迭代模型的性能;其次,,通過自動抽取信息,,減少信息損失,可以充分利用數(shù)據(jù)中的信息,。
在過去幾年的時間里,,隨著Transformer+BEV+OCC的問世,分立級聯(lián)的感知模塊已經(jīng)慢慢完成了到端到端感知的切換,,自2023年下半年以來這波端到端狂潮引發(fā)的“從人工邏輯代碼到數(shù)據(jù)驅(qū)動”的轉(zhuǎn)變,,其實主要體現(xiàn)在決策和規(guī)劃層面。
決策和規(guī)劃從一板一眼的手工編寫規(guī)則進(jìn)化到基于神經(jīng)網(wǎng)絡(luò)的經(jīng)驗直覺,,這種AI化和端到端化使得可以通過海量數(shù)據(jù)不間斷訓(xùn)練優(yōu)化駕駛策略,,復(fù)現(xiàn)擬人且絲滑的老司機腳法。決策和規(guī)劃的進(jìn)步是巨大的,,相比之下,,感知能力的進(jìn)步并不大。
端到端最核心的一點在于將自動駕駛算法進(jìn)行了全面的AI化,,轉(zhuǎn)向了完全的數(shù)據(jù)驅(qū)動,,但這意味著需要更加海量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練。
但對于到底需要多少數(shù)據(jù)才能訓(xùn)練出一個完美的自動駕駛模型,,業(yè)界并沒有一個統(tǒng)一的標(biāo)準(zhǔn),。之前有報道稱,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個,。按照每個視頻片段30秒,、30FPS的幀率,、8個攝像頭計算,訓(xùn)練圖片數(shù)量高達(dá)220億張,。
此外,,這種規(guī)模的訓(xùn)練數(shù)據(jù)訓(xùn)練出來的自動駕駛系統(tǒng)的等級仍未達(dá)到L3,自動駕駛系統(tǒng)能力每提高一個等級,,需要的訓(xùn)練數(shù)據(jù)量至少會提升一個數(shù)量級,,也就是說,要達(dá)到L4,,至少需要訓(xùn)練幾億個視頻片段,。
端到端雖然強化了數(shù)據(jù)的作用,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標(biāo)注需求,。在基于語言模型的自動駕駛大模型中,,其輸入是當(dāng)前駕駛場景的圖片,其輸出是各類交通參與者,、道路拓?fù)?、交通信號?biāo)識的語義信息,這種模型不具備自回歸特性,,進(jìn)行有監(jiān)督學(xué)習(xí),,其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作。
這引發(fā)了一個新的問題:如果端到端自動駕駛模型的訓(xùn)練還需要繼續(xù)打標(biāo)簽,,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,,還如何保證高效訓(xùn)練?這也是一直以來影響端到端進(jìn)一步發(fā)展的最大阻礙,。
世界模型實現(xiàn)從感知到認(rèn)知的躍遷
無論是BEV檢測的白名單障礙物還是OCC占用網(wǎng)絡(luò)檢測的通用障礙物,,從本質(zhì)上來說,都屬于基于判別式AI實現(xiàn)的對分立物體的單獨感知,。
生成式AI大模型具備的超強理解能力使得視覺語言模型,、大語言模型、世界模型可以建立對當(dāng)下場景的整體認(rèn)知,,實現(xiàn)從感知到認(rèn)知的階躍,。
舉例來說,BEV可以檢測到一個行人,,大模型可以通過意圖理解判斷出這是一個要橫穿馬路的行人,。BEV網(wǎng)絡(luò)可以檢測到前方的一個車輛,大模型可以更進(jìn)一步,,通過長時序信息判斷出這是一個即將減速的車輛,。
也就是說,在基于判別式AI的物體識別之外,生成式AI的意圖理解和長時序理解能力使其可以建立對整體駕駛環(huán)境的理解,,更加貼近人類駕駛的知識邏輯,。
自動駕駛真正的挑戰(zhàn)并不在于能否檢測(感知)出各個獨立的物體,而是要準(zhǔn)確判斷(認(rèn)知)物體的意圖,,根據(jù)車輛、行人微妙多變的姿態(tài)做出準(zhǔn)確的博弈和決策,,只有建立了這樣復(fù)雜的語義理解和場景理解能力,,才能像老司機那樣游刃有余地駕馭各種路況。而從部分到整體,,從分立到連續(xù),,從感知到認(rèn)知,正是大模型給傳統(tǒng)自動駕駛感知技術(shù)棧帶來的重大轉(zhuǎn)變,。
世界模型的引入標(biāo)志著自動駕駛向數(shù)據(jù)驅(qū)動智能的關(guān)鍵轉(zhuǎn)變,,在這種智能中,預(yù)測和模擬未來情景的能力成為安全和效率的基石,。
數(shù)據(jù)稀缺性問題,,特別是在如數(shù)據(jù)標(biāo)注等專業(yè)任務(wù)中,突顯了世界模型的創(chuàng)新性和必要性,。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列,,輸入是當(dāng)前時刻視頻,輸出是下一時刻視頻,,可以像語言模型拿自帶標(biāo)簽信息的文字序列那樣進(jìn)行無監(jiān)督訓(xùn)練,,不再需要數(shù)據(jù)標(biāo)注,這也就解決了傳統(tǒng)端到端模型訓(xùn)練需要精確標(biāo)注海量視頻數(shù)據(jù)的巨大難題,。
同時,,通過從歷史數(shù)據(jù)中生成預(yù)測情景,世界模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)注帶來的限制,,還增強了在模擬環(huán)境中訓(xùn)練自主系統(tǒng)的能力,,這些環(huán)境可以反映甚至超越現(xiàn)實世界條件的復(fù)雜性。
這種方法預(yù)示著一個新時代的到來,,在這個時代,,自動駕駛汽車具備反映某種直覺的預(yù)測能力,使它們能夠以前所未有的復(fù)雜程度響應(yīng)各類交通環(huán)境,。
世界模型可以通過模擬和預(yù)測其他車輛,、行人和動態(tài)環(huán)境變化,從而幫助自主系統(tǒng)做出更安全,、更高效的駕駛決策,。例如,世界模型可以預(yù)測交通流量、路況變化以及潛在的風(fēng)險因素,,使自動駕駛車輛能夠提前做出反應(yīng),,避免事故和優(yōu)化行駛路徑。
盡管世界模型已經(jīng)表現(xiàn)出巨大的技術(shù)潛力,,但其發(fā)展和應(yīng)用仍面臨挑戰(zhàn),。
首先,是數(shù)據(jù)的多樣性和質(zhì)量,。世界模型依賴大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和測試,。然而,獲取和處理這些數(shù)據(jù)往往需要耗費大量時間和資源,。如何確保模型從多樣化和高質(zhì)量的數(shù)據(jù)中學(xué)習(xí),,是下一階段世界模型在發(fā)展過程中迫切需要解決的問題。
其次,,巨量的計算資源需求,。訓(xùn)練和運行世界模型需要大量的計算資源,特別是在處理高維數(shù)據(jù)和復(fù)雜場景時,。
第三,,模型的可解釋性。世界模型的復(fù)雜性使其決策過程難以解釋和理解,,這將在醫(yī)療診斷,、自動駕駛等應(yīng)用場景中可能帶來潛在風(fēng)險。
車路云,,一個正在發(fā)生的潮流
如果說以上自動駕駛技術(shù)都是“舶來品”,,那么車路云一體化則是一個帶有鮮明“中國智慧”的技術(shù)方案。
2024年,,是車路云一體化全面落地的里程碑年份,。面對汽車智能化、網(wǎng)聯(lián)化的大勢所趨,,中國率先提出車路云一體化與智能網(wǎng)聯(lián)汽車融合發(fā)展的新路徑,,并發(fā)揮中國在統(tǒng)籌規(guī)劃、基礎(chǔ)設(shè)施建設(shè),、信息通信技術(shù)等方面的優(yōu)勢,,積極開展試點。
1月,,工業(yè)和信息化部,、公安部、交通運輸部等五部門聯(lián)合印發(fā)《關(guān)于開展智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點的通知》,,這是“車路云一體化”首次被寫入國家政策文件,。7月,,五部門正式對外公布《關(guān)于智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點城市名單的通知》,共計20個城市進(jìn)入試點,,從南到北,、由西至東覆蓋全國。
與單一技術(shù)最大限度挖掘自身潛力不同,,車路云一體化更多體現(xiàn)的是一種“眾智”,,其通過集成通信基站、衛(wèi)星通信和定位,、各類傳感器,、云控平臺等基礎(chǔ)設(shè)施,形成一個信息共享,、高效協(xié)同的車路云網(wǎng)絡(luò),為普通汽車,、智能汽車,、機器人、無人機等所有智能設(shè)備提供系統(tǒng)級的實時數(shù)據(jù)服務(wù),,同時能夠?qū)崟r數(shù)據(jù)信息在云平臺進(jìn)行海量交互與智能分析,,在系統(tǒng)層面解決全局安全、全局效率與全局博弈問題,。
站在系統(tǒng)發(fā)展角度看,,自動駕駛追求越來越極致的智能化,而車路云一體化則追求的是極致的系統(tǒng)智能,。車路云網(wǎng)絡(luò)讓車輛不再是孤立的智能體,,而是融入到一個更大范圍的智能交通生態(tài)系統(tǒng)中。
道路上布設(shè)的智能路側(cè)設(shè)施如AI數(shù)字道路基站,、V2X通信設(shè)備能夠?qū)崟r監(jiān)測路況,,通過多源數(shù)據(jù)融合技術(shù),將不同類型,、不同來源的數(shù)據(jù)進(jìn)行有機整合,,從而為后續(xù)的數(shù)據(jù)分析提供更豐富的素材。
根據(jù)車百智庫研究報告顯示,,一輛L4級別自動駕駛汽車,,每日通過車內(nèi)外傳感器采集的行駛數(shù)據(jù)、環(huán)境數(shù)據(jù)和行為數(shù)據(jù)等,,已達(dá)到10TB量級,,是傳統(tǒng)汽車的5-10倍。其預(yù)計,,在路上行駛的智能汽車每年上傳到云端的數(shù)據(jù)超過7萬PB,。
在收集到海量的交通數(shù)據(jù)之后,云端利用大數(shù)據(jù)和AI算法,對數(shù)據(jù)進(jìn)行分析與挖掘,,從中提取有價值的信息,。例如,通過對交通流量進(jìn)行數(shù)據(jù)分析,,交管部門可以根據(jù)實時交通流和道路情況智能調(diào)整配時方案,,提高道路通行效率。同時,,車輛也能接收到車路云網(wǎng)絡(luò)的信息,,提前了解道路上的障礙和危險,從而采取相應(yīng)措施確保行車安全,。
在數(shù)據(jù)分發(fā)與共享過程中,,保障數(shù)據(jù)的安全性至關(guān)重要。智能車輛所采集的數(shù)據(jù)涵蓋了多種傳感器類型和數(shù)據(jù)源,,通過這些數(shù)據(jù)不僅能夠高精度地全面掌握城市各交通要道的狀況,,其中還可能會牽扯到重要區(qū)域的地理信息、人員流量,、車輛流量等敏感數(shù)據(jù),,以及臉部識別、聲紋,、動作等個人信息,,這些數(shù)據(jù)一旦被泄露或被非法調(diào)用和共享,不僅會侵犯個人隱私,,還可能會危及到國家安全,。因此,在數(shù)據(jù)采集后,,要根據(jù)國家相關(guān)法律法規(guī),,對數(shù)據(jù)進(jìn)行分類分級、降密,、脫敏,、加密等操作,為車路云數(shù)據(jù)的共享應(yīng)用提供安全合規(guī)保障,。
車路云一體化為城市交通管理的智能化升級提供了一條具有實踐意義的路徑,。隨著技術(shù)的成熟,車路云網(wǎng)絡(luò)還將助力數(shù)字智能社會進(jìn)入到一個整合系統(tǒng),,其將整合地面網(wǎng)絡(luò),、低空網(wǎng)絡(luò)、衛(wèi)星網(wǎng)絡(luò),,形成空天地一體化的通感算網(wǎng)絡(luò),。最終,,車路云網(wǎng)絡(luò)將發(fā)展成為智能交通、低空經(jīng)濟,、具身智能,、AI智能終端的底層實時數(shù)據(jù)網(wǎng)絡(luò),為智能設(shè)備的大規(guī)模運行與自主交互協(xié)作提供重要支撐,。
未來十年,,所有行業(yè)都值得用人工智能重新做一遍。毫無疑問,,人工智能仍將是2025年最受關(guān)注的技術(shù),。從自動駕駛到車路云一體化、從交通基礎(chǔ)設(shè)施智能化建設(shè)到城市交通智能化管理,,人工智能將越來越深地與交通領(lǐng)域進(jìn)行融合,,并拓展出更多超乎想象的全新應(yīng)用場景,在為人們帶來更智能,、便捷出行方式的同時,,也重塑著智能交通的未來。