DeepSeek-R2曝5月前上線,。第三天,,DeepSeek發(fā)布了DeepGEMM,。這是一個支持稠密和MoE模型的FP8 GEMM計算庫,可為V3/R1的訓練和推理提供強大支持,。僅用300行代碼,這個開源庫就能超越專家精心調優(yōu)的矩陣計算內核,,為AI訓練和推理帶來顯著性能提升。
DeepGEMM庫具有以下特點:在Hopper GPU上實現(xiàn)高達1350+ FP8 TFLOPS的算力,;極輕量級依賴,代碼清晰易懂,;完全即時編譯,即用即跑,;核心邏輯僅約300行代碼,卻在大多數(shù)矩陣規(guī)模下超越專家級優(yōu)化內核,;同時支持密集布局和兩種MoE布局,。開發(fā)者驚嘆于其簡潔高效的設計,認為這可能是GPU運算技術的重大突破,。
DeepGEMM改變了使用FP8 GEMM庫的方式,,簡單,、快速,、開源,,代表著AI計算的未來,。在即將發(fā)布的DeepSeek-R2中,,將實現(xiàn)更好的編碼,,并支持多種語言進行推理。業(yè)內人士預測,,這將是AI行業(yè)的一個關鍵時刻。目前,,DeepSeek已經(jīng)在創(chuàng)建高成本效益模型方面取得成功,打破了該領域的壟斷局面,。DeepGEMM發(fā)布兩天內,,前兩個項目FlashMLA和DeepEP分別獲得了近10k和5k星標,。
DeepGEMM專為清晰高效的FP8通用矩陣乘法設計,采用了DeepSeek-V3中提出的細粒度縮放技術,。它支持常規(guī)矩陣乘法和混合專家模型分組矩陣乘法,。DeepGEMM使用CUDA編寫,,通過輕量級即時編譯模塊在運行時編譯所有內核,。目前僅支持NVIDIA Hopper張量核,,為了解決FP8張量核在累加計算時的精度問題,,采用了基于CUDA核心的兩級累加技術。盡管借鑒了CUTLASS和CuTe的一些概念,,但避免了過度依賴它們的模板或代數(shù)系統(tǒng),,追求設計簡潔,,包含一個核心內核函數(shù),,代碼量僅約300行。盡管采用輕量級設計,,DeepGEMM在處理各種矩陣形狀時的性能都能夠達到甚至超越經(jīng)專家調優(yōu)的庫,。
研究人員在配備NVCC 12.8的H800上測試了DeepSeek-V3/R1推理過程中可能使用的所有矩陣形狀(包括預填充和解碼階段),,所有性能提升指標均與基于CUTLASS 3.6內部精心優(yōu)化的實現(xiàn)進行對比計算得出。盡管某些矩陣形狀下的表現(xiàn)還不夠理想,,但可以提交優(yōu)化相關的拉取請求,。
安裝和測試指南如下:首先通過命令克隆倉庫及其子模塊,然后創(chuàng)建第三方庫(CUTLASS和CuTe)的符號鏈接以便開發(fā),。接著測試JIT編譯功能,,最后測試所有GEMM實現(xiàn)。具體命令包括: ``` git clone --recursive gitgithub.com:deepseek-ai/DeepGEMM.git python setup.py develop python tests/test_jit.py python tests/test_core.py ```
接下來,,在Python項目中導入deep_gemm即可開始使用,。DeepGEMM中的內核采用線程束專用化技術,實現(xiàn)了數(shù)據(jù)移動,、張量核心MMA指令和CUDA核心提升操作的重疊執(zhí)行,。利用TMA硬件特性實現(xiàn)更快速的異步數(shù)據(jù)移動。此外,,采用完全即時編譯設計,,無需在安裝時編譯,所有內核在運行時通過輕量級JIT實現(xiàn)進行編譯,,有效節(jié)省寄存器空間,,使編譯器能夠進行更多優(yōu)化。對于某些形狀,,采用2的冪次對齊的塊大小可能導致SM利用率不足,團隊為此提供了非對齊塊大小的支持,,結合細粒度縮放技術,,帶來了顯著的性能提升。
馬克?古爾曼對關于蘋果新款iPhone SE 4和iPad 11將于今年4月隨iOS 18.3和iPadOS 18.3一起發(fā)布的消息進行了回應
2025-01-08 08:31:21曝蘋果將在4月前推出iPhoneSE4今天是春節(jié)假期的第三天,,也是大年初二回門日,。預計從今日起,中東部地區(qū)將有較大范圍的雨雪過程
2025-01-31 10:07:49今日5省份有大到暴雪大范圍雨水上線