專家并行策略將MoE架構(gòu)下的各個(gè)“專家”子模型部署到不同的GPU或計(jì)算節(jié)點(diǎn)上,,使其獨(dú)立運(yùn)算,。DeepSeek團(tuán)隊(duì)在訓(xùn)練中所使用的EP策略中引入了無(wú)輔助損耗的負(fù)載平衡,,通過(guò)動(dòng)態(tài)偏置項(xiàng)實(shí)現(xiàn)對(duì)每個(gè)專家的訓(xùn)練程度的平衡,。
雙重流水線策略通過(guò)將一個(gè)較大數(shù)據(jù)批次分解為多個(gè)微批次,減少了計(jì)算設(shè)備的空閑時(shí)間,。DeepSeek團(tuán)隊(duì)在傳統(tǒng)PP策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual Pipe技術(shù),,有效地融合了前向和后向計(jì)算加速通信。
PTX代碼加持為硬件工程化創(chuàng)新帶來(lái)進(jìn)一步可能。DS團(tuán)隊(duì)在實(shí)施硬件工程優(yōu)化的過(guò)程中使用了PTX代碼,,顯著提升了CUDA程序的可移植性和硬件調(diào)度效率,。PTX指令集可以實(shí)現(xiàn)矩陣乘法加速、數(shù)據(jù)精度轉(zhuǎn)化等多項(xiàng)硬件調(diào)度優(yōu)化方向,。