DeepSeek-R2曝5月前上線 AI計算迎來新突破

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-26 13:36:35 新智元

DeepSeek-R2曝5月前上線,。第三天，DeepSeek發(fā)布了DeepGEMM,。這是一個支持稠密和MoE模型的FP8 GEMM計算庫，可為V3/R1的訓(xùn)練和推理提供強大支持,。僅用300行代碼,，這個開源庫就能超越專家精心調(diào)優(yōu)的矩陣計算內(nèi)核，為AI訓(xùn)練和推理帶來顯著性能提升,。

DeepGEMM庫具有以下特點：在Hopper GPU上實現(xiàn)高達(dá)1350+ FP8 TFLOPS的算力,；極輕量級依賴，代碼清晰易懂,；完全即時編譯,，即用即跑；核心邏輯僅約300行代碼,，卻在大多數(shù)矩陣規(guī)模下超越專家級優(yōu)化內(nèi)核,；同時支持密集布局和兩種MoE布局。開發(fā)者驚嘆于其簡潔高效的設(shè)計,，認(rèn)為這可能是GPU運算技術(shù)的重大突破,。

DeepGEMM改變了使用FP8 GEMM庫的方式，簡單,、快速,、開源,，代表著AI計算的未來。在即將發(fā)布的DeepSeek-R2中,，將實現(xiàn)更好的編碼,，并支持多種語言進行推理。業(yè)內(nèi)人士預(yù)測,，這將是AI行業(yè)的一個關(guān)鍵時刻,。目前，DeepSeek已經(jīng)在創(chuàng)建高成本效益模型方面取得成功,，打破了該領(lǐng)域的壟斷局面,。DeepGEMM發(fā)布兩天內(nèi)，前兩個項目FlashMLA和DeepEP分別獲得了近10k和5k星標(biāo),。

DeepGEMM專為清晰高效的FP8通用矩陣乘法設(shè)計,，采用了DeepSeek-V3中提出的細(xì)粒度縮放技術(shù)。它支持常規(guī)矩陣乘法和混合專家模型分組矩陣乘法,。DeepGEMM使用CUDA編寫,，通過輕量級即時編譯模塊在運行時編譯所有內(nèi)核。目前僅支持NVIDIA Hopper張量核,，為了解決FP8張量核在累加計算時的精度問題,，采用了基于CUDA核心的兩級累加技術(shù)。盡管借鑒了CUTLASS和CuTe的一些概念,，但避免了過度依賴它們的模板或代數(shù)系統(tǒng),，追求設(shè)計簡潔，包含一個核心內(nèi)核函數(shù),，代碼量僅約300行,。盡管采用輕量級設(shè)計，DeepGEMM在處理各種矩陣形狀時的性能都能夠達(dá)到甚至超越經(jīng)專家調(diào)優(yōu)的庫,。

研究人員在配備NVCC 12.8的H800上測試了DeepSeek-V3/R1推理過程中可能使用的所有矩陣形狀（包括預(yù)填充和解碼階段）,，所有性能提升指標(biāo)均與基于CUTLASS 3.6內(nèi)部精心優(yōu)化的實現(xiàn)進行對比計算得出。盡管某些矩陣形狀下的表現(xiàn)還不夠理想,，但可以提交優(yōu)化相關(guān)的拉取請求,。

安裝和測試指南如下：首先通過命令克隆倉庫及其子模塊，然后創(chuàng)建第三方庫（CUTLASS和CuTe）的符號鏈接以便開發(fā),。接著測試JIT編譯功能，最后測試所有GEMM實現(xiàn),。具體命令包括： ``` git clone --recursive gitgithub.com:deepseek-ai/DeepGEMM.git python setup.py develop python tests/test_jit.py python tests/test_core.py ```

接下來,，在Python項目中導(dǎo)入deep_gemm即可開始使用,。DeepGEMM中的內(nèi)核采用線程束專用化技術(shù),，實現(xiàn)了數(shù)據(jù)移動,、張量核心MMA指令和CUDA核心提升操作的重疊執(zhí)行。利用TMA硬件特性實現(xiàn)更快速的異步數(shù)據(jù)移動,。此外,，采用完全即時編譯設(shè)計，無需在安裝時編譯,，所有內(nèi)核在運行時通過輕量級JIT實現(xiàn)進行編譯,，有效節(jié)省寄存器空間，使編譯器能夠進行更多優(yōu)化,。對于某些形狀,，采用2的冪次對齊的塊大小可能導(dǎo)致SM利用率不足，團隊為此提供了非對齊塊大小的支持,，結(jié)合細(xì)粒度縮放技術(shù),，帶來了顯著的性能提升。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

DeepSeek-R2曝5月前上線 AI計算迎來新突破

相關(guān)新聞

今日熱點

頻道熱點