在DeepSeekV3和R1推出后,頂尖的模型效果和用戶體驗(yàn),,加上開源特性,大大緩解了我國在算法和算力上的困境,,但數(shù)據(jù)方面的挑戰(zhàn)依然存在。高質(zhì)量數(shù)據(jù)能夠保障模型推理回答的準(zhǔn)確性,,多模態(tài)多種類的數(shù)據(jù)能提升模型的泛化性和推理能力,。然而,國內(nèi)和國外在可用數(shù)據(jù)量上存在天然差距,。據(jù)W3Techs調(diào)研顯示,,英文網(wǎng)站占比為59.3%,,而中文只有1.3%。國內(nèi)可供訓(xùn)練的公開中文數(shù)據(jù)不足,,標(biāo)準(zhǔn)化程度也不高,。IDC和浪潮信息的研究顯示,,目前企業(yè)在應(yīng)用人工智能中面臨的最大挑戰(zhàn)是缺乏高質(zhì)量可用數(shù)據(jù),,占比高達(dá)66%。此外,,數(shù)據(jù)采集與處理是國內(nèi)企業(yè)在生成式AI應(yīng)用時(shí)的主要支出方向,。
DeepSeek采用創(chuàng)新性架構(gòu)(MLA+MoE),解決了許多工程化難題,,使其在極低成本下成為最強(qiáng)的開源基礎(chǔ)模型之一,。DeepSeek的關(guān)鍵在于使用數(shù)據(jù)蒸餾技術(shù),得到更為精煉有用的數(shù)據(jù),。具體而言,,DeepSeek-R1-Zero模型通過自我嘗試和調(diào)整行為來學(xué)習(xí),不需要預(yù)先標(biāo)注的數(shù)據(jù),。該模型在數(shù)學(xué)和編程方面表現(xiàn)優(yōu)異,,但也存在可讀性差的問題。為此,,DeepSeek團(tuán)隊(duì)通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)優(yōu)化模型,,使生成的答案更清晰,語言更統(tǒng)一,。
DeepSeek除了在算法層面進(jìn)行創(chuàng)新和優(yōu)化,,其核心步驟中的數(shù)據(jù)都是自行人工處理或撰寫的。爆火后,,DeepSeek開啟了數(shù)據(jù)百曉生實(shí)習(xí)生招聘,,崗位要求不高但薪資豐厚,顯示出對(duì)高質(zhì)量數(shù)據(jù)的重視,。值得注意的是,,該崗位優(yōu)先考慮小語種專業(yè),這可能是為了進(jìn)軍全球市場(chǎng)所做的準(zhǔn)備,。
在具身智能和自動(dòng)駕駛領(lǐng)域,,數(shù)據(jù)同樣面臨挑戰(zhàn)。上海交大博導(dǎo)盧策吾教授指出,,具身智能面臨數(shù)據(jù)規(guī)模不足的問題,,工業(yè)級(jí)應(yīng)用需要大量數(shù)據(jù)才能達(dá)到標(biāo)準(zhǔn)。數(shù)據(jù)采集成本高昂,,限制了數(shù)據(jù)規(guī)模,。在自動(dòng)駕駛領(lǐng)域,,端到端技術(shù)的核心在于通過大量數(shù)據(jù)訓(xùn)練模型,使其識(shí)別和預(yù)測(cè)各種駕駛場(chǎng)景,。高質(zhì)量數(shù)據(jù)決定了模型輸出的準(zhǔn)確性和可靠性,。華為在智駕方面的一半投入用于數(shù)據(jù)采集和處理。特斯拉FSD測(cè)試?yán)锍绦柽_(dá)60億英里才能滿足監(jiān)管要求,,長尾數(shù)據(jù)的收集難度和成本更高,。