在DeepSeekV3和R1推出后,,頂尖的模型效果和用戶體驗,,加上開源特性,大大緩解了我國在算法和算力上的困境,,但數(shù)據(jù)方面的挑戰(zhàn)依然存在,。高質(zhì)量數(shù)據(jù)能夠保障模型推理回答的準確性,多模態(tài)多種類的數(shù)據(jù)能提升模型的泛化性和推理能力,。然而,國內(nèi)和國外在可用數(shù)據(jù)量上存在天然差距。據(jù)W3Techs調(diào)研顯示,,英文網(wǎng)站占比為59.3%,,而中文只有1.3%。國內(nèi)可供訓練的公開中文數(shù)據(jù)不足,,標準化程度也不高,。IDC和浪潮信息的研究顯示,目前企業(yè)在應用人工智能中面臨的最大挑戰(zhàn)是缺乏高質(zhì)量可用數(shù)據(jù),,占比高達66%,。此外,數(shù)據(jù)采集與處理是國內(nèi)企業(yè)在生成式AI應用時的主要支出方向,。
DeepSeek采用創(chuàng)新性架構(MLA+MoE),,解決了許多工程化難題,使其在極低成本下成為最強的開源基礎模型之一,。DeepSeek的關鍵在于使用數(shù)據(jù)蒸餾技術,,得到更為精煉有用的數(shù)據(jù)。具體而言,,DeepSeek-R1-Zero模型通過自我嘗試和調(diào)整行為來學習,,不需要預先標注的數(shù)據(jù)。該模型在數(shù)學和編程方面表現(xiàn)優(yōu)異,,但也存在可讀性差的問題,。為此,DeepSeek團隊通過監(jiān)督微調(diào)和強化學習優(yōu)化模型,,使生成的答案更清晰,,語言更統(tǒng)一。
DeepSeek除了在算法層面進行創(chuàng)新和優(yōu)化,,其核心步驟中的數(shù)據(jù)都是自行人工處理或撰寫的,。爆火后,DeepSeek開啟了數(shù)據(jù)百曉生實習生招聘,,崗位要求不高但薪資豐厚,,顯示出對高質(zhì)量數(shù)據(jù)的重視。值得注意的是,,該崗位優(yōu)先考慮小語種專業(yè),,這可能是為了進軍全球市場所做的準備。
在具身智能和自動駕駛領域,,數(shù)據(jù)同樣面臨挑戰(zhàn),。上海交大博導盧策吾教授指出,具身智能面臨數(shù)據(jù)規(guī)模不足的問題,,工業(yè)級應用需要大量數(shù)據(jù)才能達到標準,。數(shù)據(jù)采集成本高昂,限制了數(shù)據(jù)規(guī)模。在自動駕駛領域,,端到端技術的核心在于通過大量數(shù)據(jù)訓練模型,,使其識別和預測各種駕駛場景。高質(zhì)量數(shù)據(jù)決定了模型輸出的準確性和可靠性,。華為在智駕方面的一半投入用于數(shù)據(jù)采集和處理,。特斯拉FSD測試里程需達60億英里才能滿足監(jiān)管要求,長尾數(shù)據(jù)的收集難度和成本更高,。