DeepSeek-R2曝5月前上線(xiàn)。第三天,,DeepSeek發(fā)布了DeepGEMM,。這是一個(gè)支持稠密和MoE模型的FP8 GEMM計(jì)算庫(kù),,可為V3/R1的訓(xùn)練和推理提供強(qiáng)大支持,。僅用300行代碼,,這個(gè)開(kāi)源庫(kù)就能超越專(zhuān)家精心調(diào)優(yōu)的矩陣計(jì)算內(nèi)核,,為AI訓(xùn)練和推理帶來(lái)顯著性能提升,。
DeepGEMM庫(kù)具有以下特點(diǎn):在Hopper GPU上實(shí)現(xiàn)高達(dá)1350+ FP8 TFLOPS的算力,;極輕量級(jí)依賴(lài),,代碼清晰易懂;完全即時(shí)編譯,,即用即跑,;核心邏輯僅約300行代碼,卻在大多數(shù)矩陣規(guī)模下超越專(zhuān)家級(jí)優(yōu)化內(nèi)核,;同時(shí)支持密集布局和兩種MoE布局,。開(kāi)發(fā)者驚嘆于其簡(jiǎn)潔高效的設(shè)計(jì),認(rèn)為這可能是GPU運(yùn)算技術(shù)的重大突破,。
DeepGEMM改變了使用FP8 GEMM庫(kù)的方式,,簡(jiǎn)單,、快速、開(kāi)源,,代表著AI計(jì)算的未來(lái),。在即將發(fā)布的DeepSeek-R2中,將實(shí)現(xiàn)更好的編碼,,并支持多種語(yǔ)言進(jìn)行推理,。業(yè)內(nèi)人士預(yù)測(cè),這將是AI行業(yè)的一個(gè)關(guān)鍵時(shí)刻,。目前,,DeepSeek已經(jīng)在創(chuàng)建高成本效益模型方面取得成功,打破了該領(lǐng)域的壟斷局面,。DeepGEMM發(fā)布兩天內(nèi),,前兩個(gè)項(xiàng)目FlashMLA和DeepEP分別獲得了近10k和5k星標(biāo)。
DeepGEMM專(zhuān)為清晰高效的FP8通用矩陣乘法設(shè)計(jì),,采用了DeepSeek-V3中提出的細(xì)粒度縮放技術(shù),。它支持常規(guī)矩陣乘法和混合專(zhuān)家模型分組矩陣乘法。DeepGEMM使用CUDA編寫(xiě),,通過(guò)輕量級(jí)即時(shí)編譯模塊在運(yùn)行時(shí)編譯所有內(nèi)核,。目前僅支持NVIDIA Hopper張量核,為了解決FP8張量核在累加計(jì)算時(shí)的精度問(wèn)題,,采用了基于CUDA核心的兩級(jí)累加技術(shù),。盡管借鑒了CUTLASS和CuTe的一些概念,但避免了過(guò)度依賴(lài)它們的模板或代數(shù)系統(tǒng),,追求設(shè)計(jì)簡(jiǎn)潔,,包含一個(gè)核心內(nèi)核函數(shù),代碼量?jī)H約300行,。盡管采用輕量級(jí)設(shè)計(jì),,DeepGEMM在處理各種矩陣形狀時(shí)的性能都能夠達(dá)到甚至超越經(jīng)專(zhuān)家調(diào)優(yōu)的庫(kù)。
研究人員在配備N(xiāo)VCC 12.8的H800上測(cè)試了DeepSeek-V3/R1推理過(guò)程中可能使用的所有矩陣形狀(包括預(yù)填充和解碼階段),,所有性能提升指標(biāo)均與基于CUTLASS 3.6內(nèi)部精心優(yōu)化的實(shí)現(xiàn)進(jìn)行對(duì)比計(jì)算得出,。盡管某些矩陣形狀下的表現(xiàn)還不夠理想,但可以提交優(yōu)化相關(guān)的拉取請(qǐng)求,。
安裝和測(cè)試指南如下:首先通過(guò)命令克隆倉(cāng)庫(kù)及其子模塊,,然后創(chuàng)建第三方庫(kù)(CUTLASS和CuTe)的符號(hào)鏈接以便開(kāi)發(fā)。接著測(cè)試JIT編譯功能,,最后測(cè)試所有GEMM實(shí)現(xiàn),。具體命令包括: ``` git clone --recursive gitgithub.com:deepseek-ai/DeepGEMM.git python setup.py develop python tests/test_jit.py python tests/test_core.py ```
接下來(lái),在Python項(xiàng)目中導(dǎo)入deep_gemm即可開(kāi)始使用。DeepGEMM中的內(nèi)核采用線(xiàn)程束專(zhuān)用化技術(shù),,實(shí)現(xiàn)了數(shù)據(jù)移動(dòng),、張量核心MMA指令和CUDA核心提升操作的重疊執(zhí)行。利用TMA硬件特性實(shí)現(xiàn)更快速的異步數(shù)據(jù)移動(dòng),。此外,,采用完全即時(shí)編譯設(shè)計(jì),無(wú)需在安裝時(shí)編譯,,所有內(nèi)核在運(yùn)行時(shí)通過(guò)輕量級(jí)JIT實(shí)現(xiàn)進(jìn)行編譯,,有效節(jié)省寄存器空間,使編譯器能夠進(jìn)行更多優(yōu)化,。對(duì)于某些形狀,,采用2的冪次對(duì)齊的塊大小可能導(dǎo)致SM利用率不足,團(tuán)隊(duì)為此提供了非對(duì)齊塊大小的支持,,結(jié)合細(xì)粒度縮放技術(shù),,帶來(lái)了顯著的性能提升。
今天是春節(jié)假期的第三天,,也是大年初二回門(mén)日。預(yù)計(jì)從今日起,中東部地區(qū)將有較大范圍的雨雪過(guò)程
2025-01-31 10:07:49今日5省份有大到暴雪大范圍雨水上線(xiàn)