3月24日晚,DeepSeek發(fā)布了模型更新——DeepSeek-V3-0324,。這次更新是DeepSeek V3模型的小版本升級(jí),,并非市場(chǎng)期待的DeepSeek-V4或R2,。其開源版本已上線Hugging Face,,模型體積為6850億參數(shù),。
同日,,DeepSeek在其官方交流群宣布,,DeepSeek V3模型已完成小版本升級(jí),,歡迎用戶前往官方網(wǎng)頁(yè)、App和小程序試用體驗(yàn),。API接口和使用方式保持不變,。
此前于2024年12月發(fā)布的DeepSeek-V3模型以“557.6萬美金比肩Claude 3.5效果”的高性價(jià)比著稱,多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,,并在性能上與世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲,。但截至目前,還沒有關(guān)于新版DeepSeek-V3的能力基準(zhǔn)測(cè)試榜單出現(xiàn),。
2025年1月,,DeepSeek發(fā)布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。該模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),,在僅有極少標(biāo)注數(shù)據(jù)的情況下,,極大提升了模型推理能力,。
V3是一個(gè)擁有6710億參數(shù)的專家混合模型(Moe),,其中370億參數(shù)處于激活狀態(tài)。傳統(tǒng)的大模型通常采用密集的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),,每個(gè)輸入token都會(huì)被激活并參與計(jì)算,,耗費(fèi)大量算力。此外,,傳統(tǒng)的混合專家模型中,,不平衡的專家負(fù)載是一個(gè)很大難題,會(huì)導(dǎo)致路由崩潰現(xiàn)象,,影響計(jì)算效率,。
為解決這個(gè)問題,DeepSeek對(duì)V3進(jìn)行了大膽創(chuàng)新,,提出了輔助損失免費(fèi)的負(fù)載均衡策略,,引入“偏差項(xiàng)”。在模型訓(xùn)練過程中,,每個(gè)專家都被賦予了一個(gè)偏差項(xiàng),,它會(huì)被添加到相應(yīng)的親和力分?jǐn)?shù)上,以此來決定top-K路由,。此外,,V3還采用了節(jié)點(diǎn)受限的路由機(jī)制,限制通信成本,。通過確保每個(gè)輸入最多只能被發(fā)送到預(yù)設(shè)數(shù)量的節(jié)點(diǎn)上,,V3能夠顯著減少跨節(jié)點(diǎn)通信的流量,提高訓(xùn)練效率,。
根據(jù)國(guó)外開源評(píng)測(cè)平臺(tái)kcores-llm-arena對(duì)V3-0324的最新測(cè)試數(shù)據(jù)顯示,,其代碼能力達(dá)到了328.3分,超過了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思維鏈版本,。