2月26日,,在開(kāi)源周第三天,,DeepSeek宣布開(kāi)放高效的FP8 GEMM庫(kù)DeepGEMM,。這三天的發(fā)布內(nèi)容都與算法相關(guān),偏向技術(shù)層面,。大模型生態(tài)社區(qū)OpenCSG創(chuàng)始人陳冉舉例說(shuō),,以前DeepSeek直接提供一個(gè)產(chǎn)品并說(shuō)明其性能,現(xiàn)在則深入探討實(shí)現(xiàn)高性能的具體方法和框架,。這些“腳手架”的開(kāi)源有助于后續(xù)生態(tài)建設(shè),。
此次發(fā)布的關(guān)鍵詞是GEMM(通用矩陣乘法),這是一種線性代數(shù)中的基本運(yùn)算,。FP8 GEMM是一種使用8位浮點(diǎn)數(shù)進(jìn)行矩陣乘法的操作,,適用于深度學(xué)習(xí)和高性能計(jì)算,,能在保持高效率的同時(shí)減少內(nèi)存占用和帶寬需求。據(jù)DeepSeek介紹,,DeepGEMM支持傳統(tǒng)稠密模型和MoE(混合專家)模型的GEMM運(yùn)算,,為基于英偉達(dá)Hopper架構(gòu)(如H100 GPU)的V3/R1系列硬件提供高效訓(xùn)練和推理支持。
在英偉達(dá)Hopper架構(gòu)的GPU上,,DeepGEMM可實(shí)現(xiàn)超過(guò)1350 FP8 TFLOPS的性能,,充分利用了算力。該代碼庫(kù)設(shè)計(jì)簡(jiǎn)潔,,只有一個(gè)核心內(nèi)核函數(shù),,約300行代碼,但在大多數(shù)矩陣規(guī)模上優(yōu)于專家調(diào)優(yōu)的內(nèi)核,。DeepGEMM通過(guò)FP8和硬件級(jí)優(yōu)化解決了大模型計(jì)算效率和資源消耗問(wèn)題,,尤其是對(duì)MoE模型的支持。開(kāi)源行為加速了技術(shù)民主化,,可能成為AI計(jì)算生態(tài)的基礎(chǔ)設(shè)施,,推動(dòng)行業(yè)向更高效、低成本的方向發(fā)展,。
FP8作為AI計(jì)算的新興標(biāo)準(zhǔn),,可以加速千億參數(shù)模型的訓(xùn)練,降低顯存需求,。在邊緣設(shè)備或云端部署時(shí),,F(xiàn)P8的低精度計(jì)算能顯著提升吞吐量,降低成本,。因此,,開(kāi)源DeepGEMM有助于推動(dòng)FP8生態(tài)普及,降低開(kāi)發(fā)者使用門(mén)檻,,促進(jìn)更多框架和模型適配FP8,,加速行業(yè)向低精度計(jì)算遷移。此外,,DeepGEMM的開(kāi)源還提供了高效實(shí)現(xiàn)MoE模型的參考,,可能催生更多應(yīng)用,如多模態(tài)模型和邊緣端高效模型,。
對(duì)于DeepSeek連續(xù)三天的代碼庫(kù)開(kāi)源,,陳冉表示非常震撼。他認(rèn)為DeepSeek的目標(biāo)是展示R1和V3的技術(shù)細(xì)節(jié),,發(fā)布的算法某種意義上屬于“腳手架”,,必須給開(kāi)發(fā)者提供這些基礎(chǔ)工具,才能讓整個(gè)行業(yè)在此基礎(chǔ)上繼續(xù)發(fā)展,。長(zhǎng)期來(lái)看,,這一開(kāi)源動(dòng)作非常有意義,,既有模型標(biāo)準(zhǔn),也有工具標(biāo)準(zhǔn),,還有生態(tài)基石,,這樣才能使生態(tài)成長(zhǎng)起來(lái)。
陳冉認(rèn)為,,DeepSeek的代碼開(kāi)源可能會(huì)影響一批從事AI基礎(chǔ)設(shè)施層的人士,。盡管DeepSeek已經(jīng)公開(kāi)了大部分技術(shù)棧和模型,但數(shù)據(jù)部分仍需復(fù)現(xiàn),。這種開(kāi)源是一把雙刃劍,,如果能用好可能會(huì)帶來(lái)好處,否則可能受到?jīng)_擊,。有從業(yè)者表示,,雖然DeepSeek開(kāi)源的是推理加速部分,對(duì)從業(yè)者的實(shí)際影響或許不會(huì)太大,,但其對(duì)行業(yè)的影響才剛剛開(kāi)始,,未來(lái)走向難以預(yù)測(cè)。
DeepSeek此前宣布會(huì)陸續(xù)開(kāi)源五個(gè)代碼庫(kù),,接下來(lái)還將發(fā)布兩個(gè)代碼庫(kù)。每分享一行代碼,,都將為加速AI行業(yè)發(fā)展貢獻(xiàn)力量,。