盡管春節(jié)假期已經(jīng)過半,但“來自東方的神秘力量的 DeepSeek”仍在全球范圍內(nèi)引起熱議,。各路業(yè)內(nèi)人士從不同角度分析 DeepSeek 的模型和技術,。
韓國 Mirae Asset Securities Research 的一名分析師在 X 撰寫長文分析稱,這一突破是通過實施大量細粒度優(yōu)化和使用英偉達的匯編式 PTX 編程實現(xiàn)的,,而非通過 CUDA 中的某些功能,。CUDA 是由英偉達開發(fā)的一種通用編程框架,允許開發(fā)者利用 GPU 進行通用計算,。如果 DeepSeek 繞過了 CUDA,,這說明其研發(fā)團隊在大模型訓練中采用了不同的技術路徑。
對于程序開發(fā)人員來說,,CUDA 類似于一種高級語言,,降低了開發(fā)難度,使開發(fā)者能夠專注于算法邏輯而無需過多考慮硬件執(zhí)行細節(jié),。例如,,使用高級語言進行變量賦值操作只需一條命令,而用匯編語言則需要多條指令并理解寄存器,、內(nèi)存等概念,。因此,,CUDA 便于開發(fā)基于 GPU 的算法設計,。
大模型開發(fā)商通常基于 CUDA 進行研發(fā),,因為 CUDA 已經(jīng)封裝了一些常用函數(shù),,簡化了開發(fā)過程。然而,,這種通用性也帶來了一定的靈活性損失,。對于有特定需求的開發(fā)者,如需要精細化控制多個 GPU 之間的數(shù)據(jù)傳輸,,CUDA 可能無法提供高效的解決方案,。
當使用單個 GPU 時,CUDA 非常適用,。但在多節(jié)點多 GPU 環(huán)境下,,CUDA 的抽象層面效率較低,。開發(fā)者可以通過組合 GPU 驅動提供的函數(shù)接口來提高效率,或者直接調用底層硬件接口以實現(xiàn)更高效的大模型研發(fā),。繞過 CUDA 可以直接根據(jù) GPU 的驅動函數(shù)進行新的開發(fā),,從而實現(xiàn)更加細粒度的操作。
DeepSeek 在多節(jié)點通信時繞過了 CUDA 直接使用 PTX,,這使得模型訓練速度更快,。這意味著在相同時間內(nèi)可以處理更多數(shù)據(jù),間接提高了模型效果,。繞過 CUDA 并非新鮮做法,,一些開源框架如 Triton 也在嘗試替代 CUDA。
AI 技術人員在本科階段通常接觸的是基于深度學習框架(如 Python)的神經(jīng)網(wǎng)絡訓練,,很少直接編寫 CUDA 相關的 C++ 代碼,。工作后,他們可能因項目需求接觸到針對具體硬件資源的編程,,但通常不需要繞過 CUDA 來寫模型訓練算法,。然而,由于算力短缺等原因,,大模型訓練確實需要更高效的算力利用方法,。
DeepSeek-V3 的技術報告提到使用了英偉達的 PTX 語言。相比 CUDA 提供的編程接口,,PTX 能更精細地控制 GPU 之間的數(shù)據(jù)傳輸,,但也要求更高的專業(yè)技能。繞過 CUDA 的做法具有一定的技術難度,,需要開發(fā)者既懂 AI 算法又懂計算機系統(tǒng)架構,。DeepSeek 顯然招聘了具備這些技能的人才,并將他們有效地組織起來,。
此外,,DeepSeek 的技術報告表明其主體實現(xiàn)仍基于 CUDA 接口,但在通信部分繞開了 CUDA,。這意味著 DeepSeek 擁有一些擅長寫 PTX 語言的內(nèi)部開發(fā)者,。未來,若使用國產(chǎn) GPU,,DeepSeek 將更容易適配這些硬件,。從工程角度看,DeepSeek 的技術非常有技巧,,且已與 AMD 合作,,未來可能與其他 GPU 廠商合作。韓國分析師認為,,這反映了 DeepSeek 在面對“GPU 短缺危機”時展現(xiàn)出的緊迫感和創(chuàng)造力,。
7月22日,,小范買了一個西瓜,,請同事一起吃。有同事評價:“這西瓜不好吃,,太甜了,。”小范也有同感:“現(xiàn)在的西瓜變得越來越甜,,甜得齁?!?
2024-07-23 14:21:00西瓜為啥越來越甜了,?業(yè)內(nèi)解答