研究人員在配備NVCC 12.8的H800上測(cè)試了DeepSeek-V3/R1推理過(guò)程中可能使用的所有矩陣形狀(包括預(yù)填充和解碼階段),,所有性能提升指標(biāo)均與基于CUTLASS 3.6內(nèi)部精心優(yōu)化的實(shí)現(xiàn)進(jìn)行對(duì)比計(jì)算得出,。盡管某些矩陣形狀下的表現(xiàn)還不夠理想,,但可以提交優(yōu)化相關(guān)的拉取請(qǐng)求,。
安裝和測(cè)試指南如下:首先通過(guò)命令克隆倉(cāng)庫(kù)及其子模塊,,然后創(chuàng)建第三方庫(kù)(CUTLASS和CuTe)的符號(hào)鏈接以便開(kāi)發(fā),。接著測(cè)試JIT編譯功能,,最后測(cè)試所有GEMM實(shí)現(xiàn),。具體命令包括: ``` git clone --recursive gitgithub.com:deepseek-ai/DeepGEMM.git python setup.py develop python tests/test_jit.py python tests/test_core.py ```
接下來(lái),,在Python項(xiàng)目中導(dǎo)入deep_gemm即可開(kāi)始使用,。DeepGEMM中的內(nèi)核采用線程束專用化技術(shù),實(shí)現(xiàn)了數(shù)據(jù)移動(dòng),、張量核心MMA指令和CUDA核心提升操作的重疊執(zhí)行,。利用TMA硬件特性實(shí)現(xiàn)更快速的異步數(shù)據(jù)移動(dòng)。此外,,采用完全即時(shí)編譯設(shè)計(jì),,無(wú)需在安裝時(shí)編譯,所有內(nèi)核在運(yùn)行時(shí)通過(guò)輕量級(jí)JIT實(shí)現(xiàn)進(jìn)行編譯,,有效節(jié)省寄存器空間,,使編譯器能夠進(jìn)行更多優(yōu)化。對(duì)于某些形狀,,采用2的冪次對(duì)齊的塊大小可能導(dǎo)致SM利用率不足,,團(tuán)隊(duì)為此提供了非對(duì)齊塊大小的支持,結(jié)合細(xì)粒度縮放技術(shù),,帶來(lái)了顯著的性能提升,。
今天是春節(jié)假期的第三天,,也是大年初二回門(mén)日,。預(yù)計(jì)從今日起,中東部地區(qū)將有較大范圍的雨雪過(guò)程
2025-01-31 10:07:49今日5省份有大到暴雪大范圍雨水上線