2月24日和25日,,DeepSeek先后宣布開源了FlashMLA代碼和DeepEP通信庫(kù),,致力于推動(dòng)大模型的開源化進(jìn)程。DeepSeek-R1模型的問世與開源為大模型行業(yè)帶來了新的希望,特別是在算力瓶頸方面,。與其他廠商不同,DeepSeek不僅追求算力疊加,,還通過算法創(chuàng)新解決了困擾行業(yè)的算力問題,。
受DeepSeek影響,國(guó)內(nèi)算力產(chǎn)業(yè)格局發(fā)生變化,,AI服務(wù)器出貨量激增,,能支持DeepSeek大模型應(yīng)用的一體機(jī)也變得非常受歡迎,各大廠商紛紛布局,,形成了競(jìng)爭(zhēng)激烈的市場(chǎng)態(tài)勢(shì),。
自DeepSeek-R1 671B模型開源一個(gè)月后,DeepSeek啟動(dòng)了“Open Source Week”,,計(jì)劃在一周內(nèi)開源五個(gè)代碼庫(kù),。2月24日,DeepSeek開源了FlashMLA代碼,。這是一個(gè)MoE訓(xùn)練加速框架,,通過低秩矩陣壓縮KV緩存顯著減少內(nèi)存占用和計(jì)算開銷,支持千億參數(shù)模型的高效訓(xùn)練,。浪潮信息相關(guān)負(fù)責(zé)人表示,,相比主流的MHA和GQA算法,F(xiàn)lashMLA在不降低計(jì)算精度的情況下大幅減少了推理時(shí)的KV緩存占用,,提升了推理效率,。
FlashMLA專為英偉達(dá)Hopper GPU設(shè)計(jì),,優(yōu)化了可變長(zhǎng)度序列處理,實(shí)現(xiàn)了接近H800理論峰值的性能,。通過FlashMLA,,用戶可以將H800的性能提升到H100的水平,同時(shí)降低了大模型部署成本,,推動(dòng)了大模型在各行業(yè)的落地,。此外,F(xiàn)lashMLA的開源為國(guó)產(chǎn)GPU兼容CUDA生態(tài)提供了參考模板,,促進(jìn)了多廠商競(jìng)爭(zhēng)格局的發(fā)展,。
緊接著,2月25日,,DeepSeek又宣布開源了DeepEP通信庫(kù),。這是第一個(gè)用于MoE模型訓(xùn)練和推理的開源EP通信庫(kù),支持低精度運(yùn)算如FP8格式,。DeepEP通過優(yōu)化All-to-All通信和支持NVLink/RDMA協(xié)議,,實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)外高效數(shù)據(jù)傳輸,降低訓(xùn)練和推理延遲,。通過靈活的GPU資源調(diào)度,,DeepEP在通信過程中并行執(zhí)行計(jì)算任務(wù),顯著提升整體效率,。
廣發(fā)證券指出,,大模型的核心競(jìng)爭(zhēng)力在于算法、算力和數(shù)據(jù)的協(xié)同進(jìn)化
2025-02-22 00:18:26券商