1942年,科幻小說家艾薩克·阿西莫夫(Isaac Asimov)在他的短篇小說《轉(zhuǎn)圈圈》(Runaround)中第一次明確提出了“機(jī)器人三定律”,這一定律也被稱為“現(xiàn)代人工智能技術(shù)的基石”。
阿西莫夫可能沒有完全預(yù)見到,八十年后的世界會多么接近他的科幻夢想,。
如今,人們生活在一個由人工智能滲透的世界里,,這個世界在許多方面已超越阿西莫夫的想象,。2024年,我們見證了一系列人工智能技術(shù)的創(chuàng)新與涌現(xiàn)。從AI視頻生成模型Sora到GPT-4o,,一系列生成式人工智能新技術(shù)相繼問世,、更新迭代,讓人感覺到似乎“未來已來”,。
這一年,,大模型、端到端,、世界模型,、車路云等已成為交通智能化領(lǐng)域最具革命性的技術(shù)應(yīng)用,不僅提升了駕駛體驗(yàn),,還為城市交通的安全性,、效率和可持續(xù)性帶來新的可能。
展望2025年,,隨著人工智能與交通的進(jìn)一步深度融合,,哪些技術(shù)領(lǐng)域充滿機(jī)遇?誰將引領(lǐng)新一年的行業(yè)發(fā)展,?
BEV+OCC感知能力困局待解
對照著自動駕駛領(lǐng)域這幾年的行業(yè)熱詞按圖索驥,,可以把握自動駕駛算法模型的發(fā)展脈絡(luò)。在特斯拉的帶動下,,自2021年至今,自動駕駛行業(yè)這幾年的動態(tài)熱詞依次為:BEV+Transformer,、OCC占用網(wǎng)絡(luò),、無圖NOA、端到端,。
BEV(鳥瞰圖)網(wǎng)絡(luò)通過矢量化的鳥瞰視角檢測白名單障礙物,,OCC通過體素化的占用網(wǎng)絡(luò)預(yù)測3D空間的占位情況,實(shí)現(xiàn)對通用障礙物的感知,,到無圖NOA的階段,,自動駕駛算法可以通過車道網(wǎng)絡(luò)實(shí)時建圖,構(gòu)建道路拓?fù)洹?/p>
再到今年大火的端到端,,一方面,由于消除了傳統(tǒng)分模塊方案中各種小模型的冗余,,計(jì)算資源得以集約化使用,,神經(jīng)網(wǎng)絡(luò)的參數(shù)量或規(guī)模得以進(jìn)一步提升;另一方面,,無論是分段式端到端還是一體式端到端,,感知到?jīng)Q策之間的傳輸帶寬增加,信息損失減少,進(jìn)一步增強(qiáng)了系統(tǒng)的感知能力,。
對于駕駛而言,,感知交通環(huán)境信息越全面、越及時,,駕駛的安全性也就相對越高,。因此,自動駕駛系統(tǒng)對感知能力的需求是沒有上限的,。
BEV網(wǎng)絡(luò)固然可以檢測白名單障礙物,,但能檢測到1000多種物體基本上就是目前BEV網(wǎng)絡(luò)的感知上限。OCC占用網(wǎng)絡(luò)可以檢測通用障礙物,,但OCC算法的運(yùn)算量跟隨網(wǎng)格的大小成倍變化,,網(wǎng)格大小縮減一倍,OCC算法的運(yùn)算量將增加8倍,,受限于算力和實(shí)時性,,OCC網(wǎng)格的大小一般只能做到10厘米左右,這就意味著它很難檢測微小物體,。在很多情況下,,10公分大的物體足以造成交通事故了。
不僅如此,,那些和駕駛安全,、效率、舒適性密切相關(guān)的天氣,、光照,、雨霧等復(fù)雜語義,也是目前的BEV+OCC所解決不了的,,而光照和天氣恰恰是可以影響自動駕駛車輛行駛的關(guān)鍵要素,。
數(shù)據(jù)正在成為端到端最大瓶頸
相較于分模塊的自動駕駛方案,端到端方案主要解決了兩個問題,。首先,,從人工邏輯代碼到數(shù)據(jù)驅(qū)動,人工智能真正擺脫了“人工”,,從此可以使用海量的數(shù)據(jù)迭代模型的性能,;其次,通過自動抽取信息,,減少信息損失,,可以充分利用數(shù)據(jù)中的信息。
在過去幾年的時間里,,隨著Transformer+BEV+OCC的問世,,分立級聯(lián)的感知模塊已經(jīng)慢慢完成了到端到端感知的切換,,自2023年下半年以來這波端到端狂潮引發(fā)的“從人工邏輯代碼到數(shù)據(jù)驅(qū)動”的轉(zhuǎn)變,其實(shí)主要體現(xiàn)在決策和規(guī)劃層面,。
決策和規(guī)劃從一板一眼的手工編寫規(guī)則進(jìn)化到基于神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)直覺,,這種AI化和端到端化使得可以通過海量數(shù)據(jù)不間斷訓(xùn)練優(yōu)化駕駛策略,復(fù)現(xiàn)擬人且絲滑的老司機(jī)腳法,。決策和規(guī)劃的進(jìn)步是巨大的,,相比之下,感知能力的進(jìn)步并不大,。
端到端最核心的一點(diǎn)在于將自動駕駛算法進(jìn)行了全面的AI化,,轉(zhuǎn)向了完全的數(shù)據(jù)驅(qū)動,但這意味著需要更加海量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練,。
但對于到底需要多少數(shù)據(jù)才能訓(xùn)練出一個完美的自動駕駛模型,,業(yè)界并沒有一個統(tǒng)一的標(biāo)準(zhǔn)。之前有報道稱,,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個,。按照每個視頻片段30秒、30FPS的幀率,、8個攝像頭計(jì)算,,訓(xùn)練圖片數(shù)量高達(dá)220億張。
此外,,這種規(guī)模的訓(xùn)練數(shù)據(jù)訓(xùn)練出來的自動駕駛系統(tǒng)的等級仍未達(dá)到L3,,自動駕駛系統(tǒng)能力每提高一個等級,需要的訓(xùn)練數(shù)據(jù)量至少會提升一個數(shù)量級,,也就是說,,要達(dá)到L4,至少需要訓(xùn)練幾億個視頻片段,。
端到端雖然強(qiáng)化了數(shù)據(jù)的作用,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標(biāo)注需求,。在基于語言模型的自動駕駛大模型中,,其輸入是當(dāng)前駕駛場景的圖片,其輸出是各類交通參與者,、道路拓?fù)?、交通信號?biāo)識的語義信息,這種模型不具備自回歸特性,,進(jìn)行有監(jiān)督學(xué)習(xí),,其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作。
這引發(fā)了一個新的問題:如果端到端自動駕駛模型的訓(xùn)練還需要繼續(xù)打標(biāo)簽,,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,,還如何保證高效訓(xùn)練,?這也是一直以來影響端到端進(jìn)一步發(fā)展的最大阻礙。
世界模型實(shí)現(xiàn)從感知到認(rèn)知的躍遷
無論是BEV檢測的白名單障礙物還是OCC占用網(wǎng)絡(luò)檢測的通用障礙物,,從本質(zhì)上來說,,都屬于基于判別式AI實(shí)現(xiàn)的對分立物體的單獨(dú)感知。
生成式AI大模型具備的超強(qiáng)理解能力使得視覺語言模型,、大語言模型,、世界模型可以建立對當(dāng)下場景的整體認(rèn)知,實(shí)現(xiàn)從感知到認(rèn)知的階躍,。
舉例來說,,BEV可以檢測到一個行人,大模型可以通過意圖理解判斷出這是一個要橫穿馬路的行人,。BEV網(wǎng)絡(luò)可以檢測到前方的一個車輛,,大模型可以更進(jìn)一步,通過長時序信息判斷出這是一個即將減速的車輛,。
也就是說,,在基于判別式AI的物體識別之外,生成式AI的意圖理解和長時序理解能力使其可以建立對整體駕駛環(huán)境的理解,,更加貼近人類駕駛的知識邏輯,。
自動駕駛真正的挑戰(zhàn)并不在于能否檢測(感知)出各個獨(dú)立的物體,而是要準(zhǔn)確判斷(認(rèn)知)物體的意圖,,根據(jù)車輛,、行人微妙多變的姿態(tài)做出準(zhǔn)確的博弈和決策,只有建立了這樣復(fù)雜的語義理解和場景理解能力,,才能像老司機(jī)那樣游刃有余地駕馭各種路況,。而從部分到整體,從分立到連續(xù),,從感知到認(rèn)知,,正是大模型給傳統(tǒng)自動駕駛感知技術(shù)棧帶來的重大轉(zhuǎn)變。
世界模型的引入標(biāo)志著自動駕駛向數(shù)據(jù)驅(qū)動智能的關(guān)鍵轉(zhuǎn)變,,在這種智能中,,預(yù)測和模擬未來情景的能力成為安全和效率的基石。
數(shù)據(jù)稀缺性問題,,特別是在如數(shù)據(jù)標(biāo)注等專業(yè)任務(wù)中,,突顯了世界模型的創(chuàng)新性和必要性。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列,,輸入是當(dāng)前時刻視頻,,輸出是下一時刻視頻,可以像語言模型拿自帶標(biāo)簽信息的文字序列那樣進(jìn)行無監(jiān)督訓(xùn)練,,不再需要數(shù)據(jù)標(biāo)注,,這也就解決了傳統(tǒng)端到端模型訓(xùn)練需要精確標(biāo)注海量視頻數(shù)據(jù)的巨大難題,。
同時,通過從歷史數(shù)據(jù)中生成預(yù)測情景,,世界模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)注帶來的限制,,還增強(qiáng)了在模擬環(huán)境中訓(xùn)練自主系統(tǒng)的能力,這些環(huán)境可以反映甚至超越現(xiàn)實(shí)世界條件的復(fù)雜性,。
這種方法預(yù)示著一個新時代的到來,,在這個時代,自動駕駛汽車具備反映某種直覺的預(yù)測能力,,使它們能夠以前所未有的復(fù)雜程度響應(yīng)各類交通環(huán)境,。
世界模型可以通過模擬和預(yù)測其他車輛、行人和動態(tài)環(huán)境變化,,從而幫助自主系統(tǒng)做出更安全,、更高效的駕駛決策。例如,,世界模型可以預(yù)測交通流量,、路況變化以及潛在的風(fēng)險因素,使自動駕駛車輛能夠提前做出反應(yīng),,避免事故和優(yōu)化行駛路徑,。
盡管世界模型已經(jīng)表現(xiàn)出巨大的技術(shù)潛力,但其發(fā)展和應(yīng)用仍面臨挑戰(zhàn),。
首先,,是數(shù)據(jù)的多樣性和質(zhì)量。世界模型依賴大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和測試,。然而,,獲取和處理這些數(shù)據(jù)往往需要耗費(fèi)大量時間和資源。如何確保模型從多樣化和高質(zhì)量的數(shù)據(jù)中學(xué)習(xí),,是下一階段世界模型在發(fā)展過程中迫切需要解決的問題,。
其次,巨量的計(jì)算資源需求,。訓(xùn)練和運(yùn)行世界模型需要大量的計(jì)算資源,,特別是在處理高維數(shù)據(jù)和復(fù)雜場景時。
第三,,模型的可解釋性,。世界模型的復(fù)雜性使其決策過程難以解釋和理解,,這將在醫(yī)療診斷,、自動駕駛等應(yīng)用場景中可能帶來潛在風(fēng)險。
車路云,,一個正在發(fā)生的潮流
如果說以上自動駕駛技術(shù)都是“舶來品”,,那么車路云一體化則是一個帶有鮮明“中國智慧”的技術(shù)方案,。
2024年,是車路云一體化全面落地的里程碑年份,。面對汽車智能化,、網(wǎng)聯(lián)化的大勢所趨,中國率先提出車路云一體化與智能網(wǎng)聯(lián)汽車融合發(fā)展的新路徑,,并發(fā)揮中國在統(tǒng)籌規(guī)劃,、基礎(chǔ)設(shè)施建設(shè)、信息通信技術(shù)等方面的優(yōu)勢,,積極開展試點(diǎn),。
1月,工業(yè)和信息化部,、公安部,、交通運(yùn)輸部等五部門聯(lián)合印發(fā)《關(guān)于開展智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點(diǎn)的通知》,這是“車路云一體化”首次被寫入國家政策文件,。7月,,五部門正式對外公布《關(guān)于智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點(diǎn)城市名單的通知》,共計(jì)20個城市進(jìn)入試點(diǎn),,從南到北,、由西至東覆蓋全國。
與單一技術(shù)最大限度挖掘自身潛力不同,,車路云一體化更多體現(xiàn)的是一種“眾智”,,其通過集成通信基站、衛(wèi)星通信和定位,、各類傳感器,、云控平臺等基礎(chǔ)設(shè)施,形成一個信息共享,、高效協(xié)同的車路云網(wǎng)絡(luò),,為普通汽車、智能汽車,、機(jī)器人,、無人機(jī)等所有智能設(shè)備提供系統(tǒng)級的實(shí)時數(shù)據(jù)服務(wù),同時能夠?qū)?shí)時數(shù)據(jù)信息在云平臺進(jìn)行海量交互與智能分析,,在系統(tǒng)層面解決全局安全,、全局效率與全局博弈問題。
站在系統(tǒng)發(fā)展角度看,,自動駕駛追求越來越極致的智能化,,而車路云一體化則追求的是極致的系統(tǒng)智能。車路云網(wǎng)絡(luò)讓車輛不再是孤立的智能體,,而是融入到一個更大范圍的智能交通生態(tài)系統(tǒng)中,。
道路上布設(shè)的智能路側(cè)設(shè)施如AI數(shù)字道路基站,、V2X通信設(shè)備能夠?qū)崟r監(jiān)測路況,通過多源數(shù)據(jù)融合技術(shù),,將不同類型,、不同來源的數(shù)據(jù)進(jìn)行有機(jī)整合,從而為后續(xù)的數(shù)據(jù)分析提供更豐富的素材,。
根據(jù)車百智庫研究報告顯示,,一輛L4級別自動駕駛汽車,每日通過車內(nèi)外傳感器采集的行駛數(shù)據(jù),、環(huán)境數(shù)據(jù)和行為數(shù)據(jù)等,,已達(dá)到10TB量級,是傳統(tǒng)汽車的5-10倍,。其預(yù)計(jì),,在路上行駛的智能汽車每年上傳到云端的數(shù)據(jù)超過7萬PB。
在收集到海量的交通數(shù)據(jù)之后,,云端利用大數(shù)據(jù)和AI算法,,對數(shù)據(jù)進(jìn)行分析與挖掘,從中提取有價值的信息,。例如,,通過對交通流量進(jìn)行數(shù)據(jù)分析,交管部門可以根據(jù)實(shí)時交通流和道路情況智能調(diào)整配時方案,,提高道路通行效率,。同時,車輛也能接收到車路云網(wǎng)絡(luò)的信息,,提前了解道路上的障礙和危險,,從而采取相應(yīng)措施確保行車安全。
在數(shù)據(jù)分發(fā)與共享過程中,,保障數(shù)據(jù)的安全性至關(guān)重要,。智能車輛所采集的數(shù)據(jù)涵蓋了多種傳感器類型和數(shù)據(jù)源,通過這些數(shù)據(jù)不僅能夠高精度地全面掌握城市各交通要道的狀況,,其中還可能會牽扯到重要區(qū)域的地理信息,、人員流量、車輛流量等敏感數(shù)據(jù),,以及臉部識別,、聲紋、動作等個人信息,,這些數(shù)據(jù)一旦被泄露或被非法調(diào)用和共享,,不僅會侵犯個人隱私,還可能會危及到國家安全。因此,,在數(shù)據(jù)采集后,要根據(jù)國家相關(guān)法律法規(guī),,對數(shù)據(jù)進(jìn)行分類分級,、降密、脫敏,、加密等操作,,為車路云數(shù)據(jù)的共享應(yīng)用提供安全合規(guī)保障。
車路云一體化為城市交通管理的智能化升級提供了一條具有實(shí)踐意義的路徑,。隨著技術(shù)的成熟,,車路云網(wǎng)絡(luò)還將助力數(shù)字智能社會進(jìn)入到一個整合系統(tǒng),其將整合地面網(wǎng)絡(luò),、低空網(wǎng)絡(luò),、衛(wèi)星網(wǎng)絡(luò),形成空天地一體化的通感算網(wǎng)絡(luò),。最終,,車路云網(wǎng)絡(luò)將發(fā)展成為智能交通、低空經(jīng)濟(jì),、具身智能,、AI智能終端的底層實(shí)時數(shù)據(jù)網(wǎng)絡(luò),為智能設(shè)備的大規(guī)模運(yùn)行與自主交互協(xié)作提供重要支撐,。
未來十年,,所有行業(yè)都值得用人工智能重新做一遍。毫無疑問,,人工智能仍將是2025年最受關(guān)注的技術(shù),。從自動駕駛到車路云一體化、從交通基礎(chǔ)設(shè)施智能化建設(shè)到城市交通智能化管理,,人工智能將越來越深地與交通領(lǐng)域進(jìn)行融合,,并拓展出更多超乎想象的全新應(yīng)用場景,在為人們帶來更智能,、便捷出行方式的同時,,也重塑著智能交通的未來。