在具身智能和自動(dòng)駕駛領(lǐng)域,數(shù)據(jù)同樣面臨挑戰(zhàn),。上海交大博導(dǎo)盧策吾教授指出,,具身智能面臨數(shù)據(jù)規(guī)模不足的問(wèn)題,,工業(yè)級(jí)應(yīng)用需要大量數(shù)據(jù)才能達(dá)到標(biāo)準(zhǔn),。數(shù)據(jù)采集成本高昂,,限制了數(shù)據(jù)規(guī)模,。在自動(dòng)駕駛領(lǐng)域,,端到端技術(shù)的核心在于通過(guò)大量數(shù)據(jù)訓(xùn)練模型,使其識(shí)別和預(yù)測(cè)各種駕駛場(chǎng)景,。高質(zhì)量數(shù)據(jù)決定了模型輸出的準(zhǔn)確性和可靠性,。華為在智駕方面的一半投入用于數(shù)據(jù)采集和處理。特斯拉FSD測(cè)試?yán)锍绦柽_(dá)60億英里才能滿足監(jiān)管要求,,長(zhǎng)尾數(shù)據(jù)的收集難度和成本更高,。
獲取高質(zhì)量數(shù)據(jù)的方式主要有標(biāo)注、采集和生成,。數(shù)據(jù)標(biāo)注以人機(jī)協(xié)同為主,,未來(lái)有望出現(xiàn)自動(dòng)化程度更高的平臺(tái)。數(shù)據(jù)采集主要通過(guò)人工,、設(shè)備或爬蟲等方式進(jìn)行,,適用于多種領(lǐng)域。數(shù)據(jù)生成則處于早期階段,,其中世界模型受到廣泛關(guān)注,,旨在生成高質(zhì)量虛擬場(chǎng)景,用于數(shù)據(jù)處理和模型訓(xùn)練,。雖然世界模型不能完全替代數(shù)據(jù)采集,,但可以實(shí)現(xiàn)有效互補(bǔ)。
為解決人工智能產(chǎn)業(yè)中的數(shù)據(jù)痛點(diǎn),,多地政府加速推動(dòng)高質(zhì)量數(shù)據(jù)建設(shè),。國(guó)家數(shù)據(jù)局在北京召開(kāi)高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動(dòng)會(huì),武漢市發(fā)布促進(jìn)人工智能產(chǎn)業(yè)發(fā)展政策措施,,深圳市加快構(gòu)建高價(jià)值垂類數(shù)據(jù)集和具身智能數(shù)據(jù)集,。這些舉措表明,中國(guó)科技創(chuàng)新變革是舉國(guó)推動(dòng)的結(jié)果,,人才紅利疊加完備產(chǎn)業(yè)鏈形成堅(jiān)實(shí)基礎(chǔ),,科研型企業(yè)家實(shí)現(xiàn)了范式創(chuàng)新。還有許多優(yōu)秀創(chuàng)業(yè)者和研發(fā)團(tuán)隊(duì)在日夜兼程,,政府也在積極推動(dòng)基礎(chǔ)設(shè)施建設(shè),,為創(chuàng)新提供土壤。