在DeepSeekV3和R1推出后,,頂尖的模型效果和用戶體驗,,加上開源特性,大大緩解了我國在算法和算力上的困境,,但數(shù)據(jù)方面的挑戰(zhàn)依然存在,。高質(zhì)量數(shù)據(jù)能夠保障模型推理回答的準(zhǔn)確性,多模態(tài)多種類的數(shù)據(jù)能提升模型的泛化性和推理能力,。然而,,國內(nèi)和國外在可用數(shù)據(jù)量上存在天然差距。據(jù)W3Techs調(diào)研顯示,,英文網(wǎng)站占比為59.3%,,而中文只有1.3%。國內(nèi)可供訓(xùn)練的公開中文數(shù)據(jù)不足,標(biāo)準(zhǔn)化程度也不高,。IDC和浪潮信息的研究顯示,,目前企業(yè)在應(yīng)用人工智能中面臨的最大挑戰(zhàn)是缺乏高質(zhì)量可用數(shù)據(jù),占比高達(dá)66%,。此外,,數(shù)據(jù)采集與處理是國內(nèi)企業(yè)在生成式AI應(yīng)用時的主要支出方向。
DeepSeek采用創(chuàng)新性架構(gòu)(MLA+MoE),,解決了許多工程化難題,,使其在極低成本下成為最強(qiáng)的開源基礎(chǔ)模型之一。DeepSeek的關(guān)鍵在于使用數(shù)據(jù)蒸餾技術(shù),,得到更為精煉有用的數(shù)據(jù),。具體而言,DeepSeek-R1-Zero模型通過自我嘗試和調(diào)整行為來學(xué)習(xí),,不需要預(yù)先標(biāo)注的數(shù)據(jù)。該模型在數(shù)學(xué)和編程方面表現(xiàn)優(yōu)異,,但也存在可讀性差的問題,。為此,DeepSeek團(tuán)隊通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)優(yōu)化模型,,使生成的答案更清晰,,語言更統(tǒng)一。
DeepSeek除了在算法層面進(jìn)行創(chuàng)新和優(yōu)化,,其核心步驟中的數(shù)據(jù)都是自行人工處理或撰寫的,。爆火后,DeepSeek開啟了數(shù)據(jù)百曉生實習(xí)生招聘,,崗位要求不高但薪資豐厚,,顯示出對高質(zhì)量數(shù)據(jù)的重視。值得注意的是,,該崗位優(yōu)先考慮小語種專業(yè),,這可能是為了進(jìn)軍全球市場所做的準(zhǔn)備。