V3模型的性能提升顯著,,但在AI快速迭代的背景下,,半年前的技術(shù)已顯得陳舊,。隨著時(shí)間推移,用更少的計(jì)算資源實(shí)現(xiàn)相當(dāng)或更強(qiáng)的性能成為行業(yè)趨勢(shì),。例如,現(xiàn)在可以在普通筆記本電腦上運(yùn)行的小型模型能達(dá)到與GPT-3相當(dāng)?shù)男阅芩?,而后者在發(fā)布時(shí)需要超級(jí)計(jì)算機(jī)進(jìn)行訓(xùn)練,。
DeepSeek的獨(dú)特之處在于他們率先實(shí)現(xiàn)了成本和性能的突破。雖然開(kāi)源模型權(quán)重的做法已有先例,,但DeepSeek的成就仍然顯著,。預(yù)計(jì)到今年年底,相關(guān)成本可能還會(huì)進(jìn)一步下降5倍左右,。
R1能夠達(dá)到與o1相當(dāng)?shù)男阅芩?,關(guān)鍵在于新的“推理”范式。這種范式通過(guò)合成數(shù)據(jù)生成和后訓(xùn)練強(qiáng)化學(xué)習(xí)提升推理能力,,使得以更低成本獲得快速進(jìn)展成為可能,。然而,R1在許多場(chǎng)景下表現(xiàn)不如o1,。OpenAI最近發(fā)布的o3測(cè)試結(jié)果顯示,,其性能提升幾乎呈垂直上升趨勢(shì)。
谷歌推出的Gemini Flash 2.0 Thinking在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于R1,,具有很強(qiáng)的穩(wěn)定性,。盡管如此,DeepSeek憑借快速行動(dòng),、充足資金,、卓越智慧和明確目標(biāo),,在競(jìng)爭(zhēng)中超越了Meta等科技巨頭,。
DeepSeek的多Token預(yù)測(cè)技術(shù)和混合專(zhuān)家模型架構(gòu)顯著提高了訓(xùn)練和推理效率。這些創(chuàng)新引起了西方實(shí)驗(yàn)室的關(guān)注,。RL在R1中的應(yīng)用也起到了重要作用,,使其在格式化和安全性方面表現(xiàn)出色。通過(guò)合成數(shù)據(jù)集微調(diào),,R1的推理能力得以自然涌現(xiàn),。
MLA技術(shù)顯著降低了DeepSeek模型的推理成本,減少了每次查詢所需的KV緩存量,,從而降低運(yùn)營(yíng)成本,。由于H20芯片的高內(nèi)存帶寬和容量,DeepSeek在推理工作負(fù)載方面獲得了更多效率提升,。
R1并未真正動(dòng)搖o1的技術(shù)優(yōu)勢(shì),,而是以更低的成本實(shí)現(xiàn)了相似的性能。這種現(xiàn)象符合市場(chǎng)邏輯,類(lèi)似于半導(dǎo)體制造業(yè)的發(fā)展模式,。率先突破新能力層次的公司將獲得顯著的價(jià)格溢價(jià),,而追趕者只能獲得適度利潤(rùn)。DeepSeek通過(guò)零利潤(rùn)率策略打破了OpenAI的高利潤(rùn)率格局,,但這是否可持續(xù)仍存疑,。未來(lái),計(jì)算資源的集中度將變得更加重要,。