北京時間2月27日10點5分,DeepSeek發(fā)布了其“開源周”第四日的內(nèi)容,,包括優(yōu)化的并行策略,。這些策略中包含DualPipe,這是一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法,,以及EPLB,,一種針對V3/R1的專家并行負載均衡器。
DeepSeek還公開分享了其訓練和推理框架的性能分析數(shù)據(jù),,幫助開源社區(qū)更好地了解通信與計算重疊策略和底層實現(xiàn)細節(jié),。
廣發(fā)證券指出,,大模型的核心競爭力在于算法、算力和數(shù)據(jù)的協(xié)同進化
2025-02-22 00:18:26券商DeepSeek宣布在開源周第三天開源了DeepGEMM。這是一個專為簡潔高效的FP8通用矩陣乘法(GEMM)設計的庫,,具備細粒度縮放功能
2025-02-26 11:42:20DeepSeek宣布開源DeepGEMM