在人工智能芯片的競爭中,,英偉達憑借其強大的技術實力和完整的生態(tài)系統(tǒng),,構筑了難以逾越的壁壘,。然而,,隨著AI應用場景的擴展,特別是在推理階段的需求爆發(fā),,AMD等競爭者正在尋找突破口,。
最新消息顯示,AMD利用DeepSeek模型走紅的機會,,宣布將新的DeepSeek-V3模型集成到Instinct MI300X GPU上,。這一集成旨在與SGLang配合使用,以實現(xiàn)最佳性能,。DeepSeek-V3專門針對AI推理進行了優(yōu)化,,表明AMD正在積極布局AI應用落地場景,。
這種合作反映了AI行業(yè)格局的變化。過去兩年,,大模型的訓練需求主導了算力市場,,英偉達憑借CUDA生態(tài)和H100系列GPU占據(jù)絕對優(yōu)勢。但隨著大模型進入應用落地階段,,推理需求激增,,企業(yè)更關注成本、能效和部署靈活性,。AMD瞄準這一窗口期,,試圖通過優(yōu)化推理性能打破英偉達的壟斷。
AMD的Instinct MI300X是其AI戰(zhàn)略的核心武器,。這款采用Chiplet設計的GPU集成1460億晶體管,,配備192GB HBM3內存,專為大規(guī)模AI推理設計,。據(jù)AMD數(shù)據(jù),MI300X的推理性能較英偉達H100提升30%,,內存帶寬達5.3TB/s,,尤其擅長實時對話、圖像生成等低延遲任務,。不過,,MI300X面臨生態(tài)短板和產能瓶頸兩大挑戰(zhàn)。
英偉達的CUDA生態(tài)已形成近乎壟斷的開發(fā)者壁壘,,全球90%的AI框架依賴其工具鏈,。盡管AMD推出開源的ROCm平臺并適配PyTorch、TensorFlow,,但遷移成本高,、社區(qū)支持不足的問題依然突出。例如,,Meta雖采用MI300X運行Llama 3.1模型的推理任務,,但訓練階段仍依賴英偉達芯片。此外,,2023年底臺積電先進封裝產能緊張導致MI300X交付延遲,,部分客戶轉投英偉達,也暴露出AMD在供應鏈管理上的脆弱性,。
為應對挑戰(zhàn),,AMD加速硬件迭代并強化生態(tài)合作。2024年6月,,AMD推出了升級版的MI325X芯片,,這款產品采用了8個計算芯片,、4個I/O芯片和8個內存芯片的復雜設計,通過2.5D和3D封裝技術實現(xiàn)整合,。在性能方面,,MI325X提供了1.3petaFLOPS的BF/FP16性能,或2.6petaFLOPS的FP8性能,,超過了英偉達的H200,。特別是在內存容量上,MI325X配備了288GB的HBM3e內存,,是H200的兩倍多,,內存帶寬達到6TB/S。
AI芯片領域的領軍企業(yè)英偉達就近期關于其AI芯片延期發(fā)布的傳言進行了回應
2024-08-04 21:05:19英偉達回應AI芯片推遲發(fā)布