DeepSeek-R2曝5月前上線,。第三天,DeepSeek發(fā)布了DeepGEMM。這是一個(gè)支持稠密和MoE模型的FP8 GEMM計(jì)算庫,,可為V3/R1的訓(xùn)練和推理提供強(qiáng)大支持,。僅用300行代碼,這個(gè)開源庫就能超越專家精心調(diào)優(yōu)的矩陣計(jì)算內(nèi)核,,為AI訓(xùn)練和推理帶來顯著性能提升,。
DeepGEMM庫具有以下特點(diǎn):在Hopper GPU上實(shí)現(xiàn)高達(dá)1350+ FP8 TFLOPS的算力;極輕量級(jí)依賴,,代碼清晰易懂,;完全即時(shí)編譯,即用即跑,;核心邏輯僅約300行代碼,,卻在大多數(shù)矩陣規(guī)模下超越專家級(jí)優(yōu)化內(nèi)核,;同時(shí)支持密集布局和兩種MoE布局,。開發(fā)者驚嘆于其簡(jiǎn)潔高效的設(shè)計(jì),認(rèn)為這可能是GPU運(yùn)算技術(shù)的重大突破,。
DeepGEMM改變了使用FP8 GEMM庫的方式,,簡(jiǎn)單、快速,、開源,,代表著AI計(jì)算的未來。在即將發(fā)布的DeepSeek-R2中,,將實(shí)現(xiàn)更好的編碼,,并支持多種語言進(jìn)行推理。業(yè)內(nèi)人士預(yù)測(cè),,這將是AI行業(yè)的一個(gè)關(guān)鍵時(shí)刻,。目前,DeepSeek已經(jīng)在創(chuàng)建高成本效益模型方面取得成功,,打破了該領(lǐng)域的壟斷局面,。DeepGEMM發(fā)布兩天內(nèi),前兩個(gè)項(xiàng)目FlashMLA和DeepEP分別獲得了近10k和5k星標(biāo),。
DeepGEMM專為清晰高效的FP8通用矩陣乘法設(shè)計(jì),,采用了DeepSeek-V3中提出的細(xì)粒度縮放技術(shù)。它支持常規(guī)矩陣乘法和混合專家模型分組矩陣乘法,。DeepGEMM使用CUDA編寫,,通過輕量級(jí)即時(shí)編譯模塊在運(yùn)行時(shí)編譯所有內(nèi)核。目前僅支持NVIDIA Hopper張量核,,為了解決FP8張量核在累加計(jì)算時(shí)的精度問題,,采用了基于CUDA核心的兩級(jí)累加技術(shù)。盡管借鑒了CUTLASS和CuTe的一些概念,但避免了過度依賴它們的模板或代數(shù)系統(tǒng),,追求設(shè)計(jì)簡(jiǎn)潔,,包含一個(gè)核心內(nèi)核函數(shù),代碼量僅約300行,。盡管采用輕量級(jí)設(shè)計(jì),,DeepGEMM在處理各種矩陣形狀時(shí)的性能都能夠達(dá)到甚至超越經(jīng)專家調(diào)優(yōu)的庫。
馬克?古爾曼對(duì)關(guān)于蘋果新款iPhone SE 4和iPad 11將于今年4月隨iOS 18.3和iPadOS 18.3一起發(fā)布的消息進(jìn)行了回應(yīng)
2025-01-08 08:31:21曝蘋果將在4月前推出iPhoneSE4今天是春節(jié)假期的第三天,,也是大年初二回門日。預(yù)計(jì)從今日起,,中東部地區(qū)將有較大范圍的雨雪過程
2025-01-31 10:07:49今日5省份有大到暴雪大范圍雨水上線