DeepSeek 在多節(jié)點(diǎn)通信時(shí)繞過(guò)了 CUDA 直接使用 PTX,,這使得模型訓(xùn)練速度更快,。這意味著在相同時(shí)間內(nèi)可以處理更多數(shù)據(jù),間接提高了模型效果,。繞過(guò) CUDA 并非新鮮做法,,一些開源框架如 Triton 也在嘗試替代 CUDA。
AI 技術(shù)人員在本科階段通常接觸的是基于深度學(xué)習(xí)框架(如 Python)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,,很少直接編寫 CUDA 相關(guān)的 C++ 代碼,。工作后,他們可能因項(xiàng)目需求接觸到針對(duì)具體硬件資源的編程,,但通常不需要繞過(guò) CUDA 來(lái)寫模型訓(xùn)練算法,。然而,由于算力短缺等原因,,大模型訓(xùn)練確實(shí)需要更高效的算力利用方法,。
DeepSeek-V3 的技術(shù)報(bào)告提到使用了英偉達(dá)的 PTX 語(yǔ)言。相比 CUDA 提供的編程接口,,PTX 能更精細(xì)地控制 GPU 之間的數(shù)據(jù)傳輸,,但也要求更高的專業(yè)技能。繞過(guò) CUDA 的做法具有一定的技術(shù)難度,,需要開發(fā)者既懂 AI 算法又懂計(jì)算機(jī)系統(tǒng)架構(gòu),。DeepSeek 顯然招聘了具備這些技能的人才,,并將他們有效地組織起來(lái)。
此外,,DeepSeek 的技術(shù)報(bào)告表明其主體實(shí)現(xiàn)仍基于 CUDA 接口,,但在通信部分繞開了 CUDA。這意味著 DeepSeek 擁有一些擅長(zhǎng)寫 PTX 語(yǔ)言的內(nèi)部開發(fā)者,。未來(lái),,若使用國(guó)產(chǎn) GPU,DeepSeek 將更容易適配這些硬件,。從工程角度看,,DeepSeek 的技術(shù)非常有技巧,且已與 AMD 合作,,未來(lái)可能與其他 GPU 廠商合作,。韓國(guó)分析師認(rèn)為,這反映了 DeepSeek 在面對(duì)“GPU 短缺危機(jī)”時(shí)展現(xiàn)出的緊迫感和創(chuàng)造力,。