問DeepSeek:孩子手機成癮的底層邏輯 創(chuàng)新突破算力禁運,!想象一下,,在世界廚藝錦標賽上,,你和一群有夢想的年輕人在一個破舊的毛坯灶臺上,,炒出了驚艷全球的創(chuàng)新菜,。而你的對手在五星級酒店里帶領豪華團隊,用著頂級廚具和豐富食材,,卻在比賽中惜敗于你,,引發(fā)全球轟動。這不是虛構的故事,,這是正在發(fā)生的現(xiàn)實,。你就是低調積累許久的“一代食神”——DeepSeek。
年初,,DeepSeek App 橫空出世,,其創(chuàng)新性的架構設計和工程化落地使得模型性能在極低成本下達到全球頂尖水平。加上用戶體驗良好的思維鏈展示和模型開源的方式,,春節(jié)期間用戶量迅速增長,。這一現(xiàn)象不僅吸引了全球關注,還促使全球資本重新評估中國科技資產(chǎn),,AI投資邏輯悄然轉變,。特別是在大模型領域,DeepSeek成為一匹黑馬,,挑戰(zhàn)了過去巨額投入但屢次推遲的ChatGPT5以及國內(nèi)六小龍的地位,。中國AI企業(yè)在突破“算力禁運”后,正面臨高質量數(shù)據(jù)稀缺的挑戰(zhàn),,尤其是高質量,、低成本,、多種類、多模態(tài)的數(shù)據(jù),,將成為未來AI產(chǎn)業(yè)發(fā)展的關鍵,。
主流的AI大模型訓練方式基于Transformer進行下一個Token的預測,通過互聯(lián)網(wǎng)吸收海量數(shù)據(jù),,并對匹配結果偏差較大的部分進行人工打分或標簽,,提升模型準確性。AI大模型的核心要素是數(shù)據(jù),、算法和算力,。當前,算力硬件性能已接近瓶頸,,迭代速度遠不及大模型日益增長的訓練需求和能耗壓力,。可供預訓練的數(shù)據(jù)也逐漸見頂,,簡單增加數(shù)據(jù)和計算能力的時代已經(jīng)結束,。隨著大語言模型向多模態(tài)發(fā)展,算力和數(shù)據(jù)的挑戰(zhàn)將進一步加劇,。
我國面臨美國的“芯片禁令”,,無法使用高端算力設備,只能從算法和數(shù)據(jù)兩方面突圍,。過去普遍認為我國與OpenAI等美國頭部AI公司存在1到2年的差距,。根據(jù)CB Insights發(fā)布的數(shù)據(jù),2024年中國AI初創(chuàng)企業(yè)籌集的資金僅占美國的7%,。豐厚的資金儲備意味著能高薪招攬頂尖人才,,進一步鞏固算法優(yōu)勢。在DeepSeekV3之前,,我國人工智能領域的形勢嚴峻,。
在DeepSeekV3和R1推出后,頂尖的模型效果和用戶體驗,,加上開源特性,,大大緩解了我國在算法和算力上的困境,但數(shù)據(jù)方面的挑戰(zhàn)依然存在,。高質量數(shù)據(jù)能夠保障模型推理回答的準確性,,多模態(tài)多種類的數(shù)據(jù)能提升模型的泛化性和推理能力。然而,,國內(nèi)和國外在可用數(shù)據(jù)量上存在天然差距,。據(jù)W3Techs調研顯示,英文網(wǎng)站占比為59.3%,,而中文只有1.3%,。國內(nèi)可供訓練的公開中文數(shù)據(jù)不足,,標準化程度也不高。IDC和浪潮信息的研究顯示,,目前企業(yè)在應用人工智能中面臨的最大挑戰(zhàn)是缺乏高質量可用數(shù)據(jù),,占比高達66%。此外,,數(shù)據(jù)采集與處理是國內(nèi)企業(yè)在生成式AI應用時的主要支出方向,。
DeepSeek采用創(chuàng)新性架構(MLA+MoE),,解決了許多工程化難題,,使其在極低成本下成為最強的開源基礎模型之一。DeepSeek的關鍵在于使用數(shù)據(jù)蒸餾技術,,得到更為精煉有用的數(shù)據(jù),。具體而言,DeepSeek-R1-Zero模型通過自我嘗試和調整行為來學習,,不需要預先標注的數(shù)據(jù),。該模型在數(shù)學和編程方面表現(xiàn)優(yōu)異,但也存在可讀性差的問題,。為此,,DeepSeek團隊通過監(jiān)督微調和強化學習優(yōu)化模型,使生成的答案更清晰,,語言更統(tǒng)一,。
DeepSeek除了在算法層面進行創(chuàng)新和優(yōu)化,其核心步驟中的數(shù)據(jù)都是自行人工處理或撰寫的,。爆火后,,DeepSeek開啟了數(shù)據(jù)百曉生實習生招聘,崗位要求不高但薪資豐厚,,顯示出對高質量數(shù)據(jù)的重視,。值得注意的是,該崗位優(yōu)先考慮小語種專業(yè),,這可能是為了進軍全球市場所做的準備,。
在具身智能和自動駕駛領域,數(shù)據(jù)同樣面臨挑戰(zhàn),。上海交大博導盧策吾教授指出,,具身智能面臨數(shù)據(jù)規(guī)模不足的問題,工業(yè)級應用需要大量數(shù)據(jù)才能達到標準,。數(shù)據(jù)采集成本高昂,,限制了數(shù)據(jù)規(guī)模。在自動駕駛領域,,端到端技術的核心在于通過大量數(shù)據(jù)訓練模型,,使其識別和預測各種駕駛場景,。高質量數(shù)據(jù)決定了模型輸出的準確性和可靠性。華為在智駕方面的一半投入用于數(shù)據(jù)采集和處理,。特斯拉FSD測試里程需達60億英里才能滿足監(jiān)管要求,,長尾數(shù)據(jù)的收集難度和成本更高。
獲取高質量數(shù)據(jù)的方式主要有標注,、采集和生成,。數(shù)據(jù)標注以人機協(xié)同為主,未來有望出現(xiàn)自動化程度更高的平臺,。數(shù)據(jù)采集主要通過人工,、設備或爬蟲等方式進行,適用于多種領域,。數(shù)據(jù)生成則處于早期階段,,其中世界模型受到廣泛關注,旨在生成高質量虛擬場景,,用于數(shù)據(jù)處理和模型訓練,。雖然世界模型不能完全替代數(shù)據(jù)采集,但可以實現(xiàn)有效互補,。
為解決人工智能產(chǎn)業(yè)中的數(shù)據(jù)痛點,,多地政府加速推動高質量數(shù)據(jù)建設。國家數(shù)據(jù)局在北京召開高質量數(shù)據(jù)集建設工作啟動會,,武漢市發(fā)布促進人工智能產(chǎn)業(yè)發(fā)展政策措施,,深圳市加快構建高價值垂類數(shù)據(jù)集和具身智能數(shù)據(jù)集。這些舉措表明,,中國科技創(chuàng)新變革是舉國推動的結果,,人才紅利疊加完備產(chǎn)業(yè)鏈形成堅實基礎,科研型企業(yè)家實現(xiàn)了范式創(chuàng)新,。還有許多優(yōu)秀創(chuàng)業(yè)者和研發(fā)團隊在日夜兼程,,政府也在積極推動基礎設施建設,為創(chuàng)新提供土壤,。