無(wú)論是價(jià)格還是訓(xùn)練成本,,DeepSeek都追求細(xì)分和創(chuàng)新。例如,,通過(guò)一種新的MLA架構(gòu)和數(shù)據(jù)蒸餾技術(shù),,降低了顯存占用并減少了訓(xùn)練數(shù)據(jù)量。DeepSeek R1的強(qiáng)大推理能力得益于強(qiáng)化學(xué)習(xí)方法,,無(wú)需任何監(jiān)督式微調(diào),。
DeepSeek的成功不僅在于技術(shù)創(chuàng)新,還在于其開(kāi)源理念,。DeepSeek R1的預(yù)訓(xùn)練成本僅為557.6萬(wàn)美元,,遠(yuǎn)低于GPT-4o的水平。此外,,DeepSeek API服務(wù)定價(jià)也遠(yuǎn)低于OpenAI,。這些變化讓市場(chǎng)開(kāi)始質(zhì)疑,是否真的需要那么多算力來(lái)訓(xùn)練高性能的大模型,。
DeepSeek的崛起打破了原有的平衡,,對(duì)傳統(tǒng)AI巨頭構(gòu)成了挑戰(zhàn)。OpenAI迅速做出調(diào)整,,發(fā)布了o3-mini等新模型,,并降低了API調(diào)用價(jià)格。與此同時(shí),,DeepSeek也面臨一些爭(zhēng)議,,包括被指控未經(jīng)授權(quán)竊取數(shù)據(jù)以及遭受網(wǎng)絡(luò)攻擊。不過(guò),,許多企業(yè)如華為云,、騰訊云、阿里云等紛紛宣布支持DeepSeek大模型,。
這場(chǎng)由DeepSeek掀起的新風(fēng)暴仍在繼續(xù),,未來(lái)AI行業(yè)的走向充滿變數(shù)。
在DeepSeek極低成本的推動(dòng)下,開(kāi)源模型和閉源模型之間的差距顯著縮小,,掀起了一輪國(guó)產(chǎn)AI芯片廠商競(jìng)相適配的風(fēng)潮
2025-02-15 18:37:10DeepSeek訓(xùn)練仍基于英偉達(dá)CUDA生態(tài)