昨晚,,DeepSeek 無(wú)預(yù)警發(fā)布了 DeepSeek-V3-0324 模型,。雖然官方低調(diào)地稱其為“小版本迭代”,,但實(shí)測(cè)表現(xiàn)遠(yuǎn)超預(yù)期,。該模型在代碼生成,、前端開(kāi)發(fā)等方面顯著提升,部分能力甚至比肩 Claude 3.7 Sonnet,,引發(fā)了全球 AI 社區(qū)的熱議,。
在大模型競(jìng)技場(chǎng)測(cè)試 KCORES 中,DeepSeek-V3-0324 的代碼能力得分為 328.3 分,,超越了普通版 Claude 3.7 Sonnet 的 322.3 分,,接近 Claude 3.7 Sonnet 思維鏈版本的 334.8 分,。在 Aider LLM Leaderboard 排行榜中,,DeepSeek-V3-0324 在多語(yǔ)言基準(zhǔn)測(cè)試中的得分為 55%,,比 V3 有顯著提升,,略低于 R1。在非思考/推理模型中,,它排名第二,僅次于 Claude Sonnet 3.7,。
測(cè)試數(shù)據(jù)還顯示,在表現(xiàn)良好的模型中,,DeepSeek-V3-0324 的花費(fèi)最低,,比 R1 低很多,,僅需約 1/5 的成本,具有極高的性價(jià)比,。Claude Sonnet 3.7 Thinking 的花費(fèi)是 DeepSeek-V3-0324 的 33 倍,,o1 則是其 167 倍。
目前在 DeepSeek 官網(wǎng)上,只需關(guān)閉“深度思考”選項(xiàng)即可使用新模型,。Hugging Face 上也提供了開(kāi)源下載,。DeepSeek-V3-0324 包含 685B 參數(shù),較前代 V3 小幅增加,,采用 MoE(專家混合)架構(gòu),,激活參數(shù) 370 億。網(wǎng)友實(shí)測(cè) DeepSeek-V3-0324 支持 4-bit 量化,,可在 512GB M3 Ultra Mac 上以 20+ token/s 速度運(yùn)行,,磁盤(pán)占用僅 352GB。新模型采用與 DeepSeek-R1 相同的 MIT 許可,,允許自由修改,、商用及模型蒸餾,比上一版 V3 更開(kāi)放,。
3月2日,,小米集團(tuán)董事長(zhǎng)兼CEO雷軍在微博表示,,Ultra訂單遠(yuǎn)超預(yù)期,當(dāng)天下午將繼續(xù)討論提產(chǎn)問(wèn)題
2025-03-03 08:19:20雷軍