3月24日晚,,DeepSeek發(fā)布了模型更新——DeepSeek-V3-0324,。這次更新是DeepSeek V3模型的小版本升級,并非市場期待的DeepSeek-V4或R2,。其開源版本已上線Hugging Face,,模型體積為6850億參數(shù),。
同日,DeepSeek在其官方交流群宣布,,DeepSeek V3模型已完成小版本升級,,歡迎用戶前往官方網(wǎng)頁、App和小程序試用體驗,。API接口和使用方式保持不變,。
此前于2024年12月發(fā)布的DeepSeek-V3模型以“557.6萬美金比肩Claude 3.5效果”的高性價比著稱,多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,,并在性能上與世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲,。但截至目前,還沒有關(guān)于新版DeepSeek-V3的能力基準測試榜單出現(xiàn),。
2025年1月,,DeepSeek發(fā)布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。該模型在后訓練階段大規(guī)模使用了強化學習技術(shù),,在僅有極少標注數(shù)據(jù)的情況下,,極大提升了模型推理能力。
V3是一個擁有6710億參數(shù)的專家混合模型(Moe),,其中370億參數(shù)處于激活狀態(tài),。傳統(tǒng)的大模型通常采用密集的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每個輸入token都會被激活并參與計算,,耗費大量算力,。此外,傳統(tǒng)的混合專家模型中,,不平衡的專家負載是一個很大難題,,會導致路由崩潰現(xiàn)象,影響計算效率,。
為解決這個問題,,DeepSeek對V3進行了大膽創(chuàng)新,提出了輔助損失免費的負載均衡策略,,引入“偏差項”,。在模型訓練過程中,每個專家都被賦予了一個偏差項,,它會被添加到相應(yīng)的親和力分數(shù)上,,以此來決定top-K路由。此外,V3還采用了節(jié)點受限的路由機制,,限制通信成本,。通過確保每個輸入最多只能被發(fā)送到預設(shè)數(shù)量的節(jié)點上,V3能夠顯著減少跨節(jié)點通信的流量,,提高訓練效率,。
根據(jù)國外開源評測平臺kcores-llm-arena對V3-0324的最新測試數(shù)據(jù)顯示,其代碼能力達到了328.3分,,超過了普通版的Claude 3.7 Sonnet(322.3),,可以比肩334.8分的思維鏈版本。