業(yè)內(nèi)：DeepSeek或準(zhǔn)備適配國(guó)產(chǎn)GPU 繞過(guò)CUDA展現(xiàn)工程實(shí)力

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-01 11:18:18 DeepTech深科技

盡管春節(jié)假期已經(jīng)過(guò)半,，但“來(lái)自東方的神秘力量的 DeepSeek”仍在全球范圍內(nèi)引起熱議。各路業(yè)內(nèi)人士從不同角度分析 DeepSeek 的模型和技術(shù),。

韓國(guó) Mirae Asset Securities Research 的一名分析師在 X 撰寫(xiě)長(zhǎng)文分析稱,，這一突破是通過(guò)實(shí)施大量細(xì)粒度優(yōu)化和使用英偉達(dá)的匯編式 PTX 編程實(shí)現(xiàn)的，而非通過(guò) CUDA 中的某些功能,。CUDA 是由英偉達(dá)開(kāi)發(fā)的一種通用編程框架,，允許開(kāi)發(fā)者利用 GPU 進(jìn)行通用計(jì)算。如果 DeepSeek 繞過(guò)了 CUDA,，這說(shuō)明其研發(fā)團(tuán)隊(duì)在大模型訓(xùn)練中采用了不同的技術(shù)路徑,。

對(duì)于程序開(kāi)發(fā)人員來(lái)說(shuō)，CUDA 類似于一種高級(jí)語(yǔ)言,，降低了開(kāi)發(fā)難度,，使開(kāi)發(fā)者能夠?qū)Ｗ⒂谒惴ㄟ壿嫸鵁o(wú)需過(guò)多考慮硬件執(zhí)行細(xì)節(jié)。例如,，使用高級(jí)語(yǔ)言進(jìn)行變量賦值操作只需一條命令,，而用匯編語(yǔ)言則需要多條指令并理解寄存器、內(nèi)存等概念,。因此，CUDA 便于開(kāi)發(fā)基于 GPU 的算法設(shè)計(jì),。

大模型開(kāi)發(fā)商通?；?CUDA 進(jìn)行研發(fā)，因?yàn)?CUDA 已經(jīng)封裝了一些常用函數(shù),，簡(jiǎn)化了開(kāi)發(fā)過(guò)程,。然而，這種通用性也帶來(lái)了一定的靈活性損失,。對(duì)于有特定需求的開(kāi)發(fā)者,，如需要精細(xì)化控制多個(gè) GPU 之間的數(shù)據(jù)傳輸，CUDA 可能無(wú)法提供高效的解決方案,。

當(dāng)使用單個(gè) GPU 時(shí),，CUDA 非常適用。但在多節(jié)點(diǎn)多 GPU 環(huán)境下,，CUDA 的抽象層面效率較低,。開(kāi)發(fā)者可以通過(guò)組合 GPU 驅(qū)動(dòng)提供的函數(shù)接口來(lái)提高效率，或者直接調(diào)用底層硬件接口以實(shí)現(xiàn)更高效的大模型研發(fā),。繞過(guò) CUDA 可以直接根據(jù) GPU 的驅(qū)動(dòng)函數(shù)進(jìn)行新的開(kāi)發(fā),，從而實(shí)現(xiàn)更加細(xì)粒度的操作,。

DeepSeek 在多節(jié)點(diǎn)通信時(shí)繞過(guò)了 CUDA 直接使用 PTX，這使得模型訓(xùn)練速度更快,。這意味著在相同時(shí)間內(nèi)可以處理更多數(shù)據(jù),，間接提高了模型效果。繞過(guò) CUDA 并非新鮮做法,，一些開(kāi)源框架如 Triton 也在嘗試替代 CUDA,。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

業(yè)內(nèi)：DeepSeek或準(zhǔn)備適配國(guó)產(chǎn)GPU 繞過(guò)CUDA展現(xiàn)工程實(shí)力

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)