2月26日,,在開源周第三天,,DeepSeek宣布開放高效的FP8 GEMM庫DeepGEMM。這三天的發(fā)布內(nèi)容都與算法相關(guān),,偏向技術(shù)層面,。大模型生態(tài)社區(qū)OpenCSG創(chuàng)始人陳冉舉例說,,以前DeepSeek直接提供一個產(chǎn)品并說明其性能,現(xiàn)在則深入探討實現(xiàn)高性能的具體方法和框架,。這些“腳手架”的開源有助于后續(xù)生態(tài)建設(shè),。
此次發(fā)布的關(guān)鍵詞是GEMM(通用矩陣乘法),這是一種線性代數(shù)中的基本運算,。FP8 GEMM是一種使用8位浮點數(shù)進行矩陣乘法的操作,,適用于深度學習和高性能計算,能在保持高效率的同時減少內(nèi)存占用和帶寬需求,。據(jù)DeepSeek介紹,,DeepGEMM支持傳統(tǒng)稠密模型和MoE(混合專家)模型的GEMM運算,為基于英偉達Hopper架構(gòu)(如H100 GPU)的V3/R1系列硬件提供高效訓練和推理支持,。
在英偉達Hopper架構(gòu)的GPU上,,DeepGEMM可實現(xiàn)超過1350 FP8 TFLOPS的性能,充分利用了算力,。該代碼庫設(shè)計簡潔,,只有一個核心內(nèi)核函數(shù),約300行代碼,,但在大多數(shù)矩陣規(guī)模上優(yōu)于專家調(diào)優(yōu)的內(nèi)核,。DeepGEMM通過FP8和硬件級優(yōu)化解決了大模型計算效率和資源消耗問題,尤其是對MoE模型的支持,。開源行為加速了技術(shù)民主化,,可能成為AI計算生態(tài)的基礎(chǔ)設(shè)施,推動行業(yè)向更高效,、低成本的方向發(fā)展,。
FP8作為AI計算的新興標準,可以加速千億參數(shù)模型的訓練,,降低顯存需求,。在邊緣設(shè)備或云端部署時,,F(xiàn)P8的低精度計算能顯著提升吞吐量,,降低成本。因此,,開源DeepGEMM有助于推動FP8生態(tài)普及,,降低開發(fā)者使用門檻,促進更多框架和模型適配FP8,,加速行業(yè)向低精度計算遷移,。此外,DeepGEMM的開源還提供了高效實現(xiàn)MoE模型的參考,,可能催生更多應用,,如多模態(tài)模型和邊緣端高效模型,。