2月26日,在開源周的第三天,DeepSeek宣布開放高效的FP8 GEMM庫DeepGEMM,。這三天發(fā)布的都是與算法相關(guān)的技術(shù)內(nèi)容,。OpenCSG創(chuàng)始人陳冉表示,,DeepSeek以前是直接提供一個模型,現(xiàn)在則深入挖掘背后的技術(shù)細(xì)節(jié)和框架,這些“腳手架”的開源有利于后續(xù)生態(tài)的建設(shè)。
此次發(fā)布的關(guān)鍵詞GEMM(通用矩陣乘法)是線性代數(shù)中的基本運算,,而FP8 GEMM則是一種使用8位浮點數(shù)進(jìn)行矩陣乘法的計算操作,。FP8是一種低精度浮點格式,適用于深度學(xué)習(xí)和高性能計算,,能夠在保持較高計算效率的同時減少內(nèi)存占用和帶寬需求,。
DeepSeek介紹稱,DeepGEMM支持傳統(tǒng)的稠密模型和MoE模型的GEMM運算,,為基于英偉達(dá)Hopper架構(gòu)的V3/R1系列硬件提供高效的訓(xùn)練和推理支持,。在英偉達(dá)Hopper架構(gòu)的GPU上,DeepGEMM可實現(xiàn)超過1350 FP8 TFLOPS的性能,,充分利用算力,。該代碼庫設(shè)計簡潔,只有一個核心內(nèi)核函數(shù),,約300行代碼,,但在大多數(shù)矩陣規(guī)模上優(yōu)于專家調(diào)優(yōu)的內(nèi)核。
DeepGEMM通過FP8和硬件級優(yōu)化解決了大模型計算效率和資源消耗的問題,,尤其是對MoE模型的落地提供了關(guān)鍵支持,。其開源行為不僅加速了技術(shù)民主化,,還可能成為AI計算生態(tài)的基礎(chǔ)設(shè)施,,推動行業(yè)向更高效、低成本的方向發(fā)展,。FP8作為AI計算的新興標(biāo)準(zhǔn),,可以加速千億參數(shù)模型的訓(xùn)練,降低顯存需求,。在邊緣設(shè)備或云端部署時,,F(xiàn)P8的低精度計算能顯著提升吞吐量,降低成本,。因此,,開源DeepGEMM可以推動FP8生態(tài)普及,降低開發(fā)者使用門檻,,促進(jìn)更多框架和模型適配FP8,,加速行業(yè)向低精度計算遷移。
此外,,MoE模型因計算復(fù)雜性難以落地,,DeepGEMM的開源提供了高效實現(xiàn)參考,可能催生更多MoE應(yīng)用,,如多模態(tài)模型和邊緣端高效模型,。陳冉認(rèn)為,DeepSeek連續(xù)三天的代碼庫開源非常震撼,,表明他們愿意分享技術(shù)細(xì)節(jié),。長期來看,這一開源動作非常有意義,既有模型標(biāo)準(zhǔn),,也有工具標(biāo)準(zhǔn),,還有生態(tài)基石,有助于整個生態(tài)的發(fā)展,。陳冉判斷,,DeepSeek的代碼開源或許會影響一批從事AI Infra層的從業(yè)者,但這種開源是一把雙刃劍,,用得好可能得利,,用不好則會被沖擊。也有從業(yè)者認(rèn)為,,DeepSeek開源的是Infra層的推理加速部分,,雖然有影響,但不會太大,。
DeepSeek在此前宣布會陸續(xù)開源五個代碼庫,,接下來還有兩個代碼庫將在本周發(fā)布。每分享一行代碼,,都會成為加速AI行業(yè)發(fā)展的集體動力,。
2月26日,,在開源周第三天,,DeepSeek宣布開放高效的FP8 GEMM庫DeepGEMM。這三天的發(fā)布內(nèi)容都與算法相關(guān),,偏向技術(shù)層面
2025-02-26 21:35:35DeepSeek開源第三日行業(yè)影響幾何