在人工智能芯片的競(jìng)爭(zhēng)中,,英偉達(dá)憑借其強(qiáng)大的技術(shù)實(shí)力和完整的生態(tài)系統(tǒng),,構(gòu)筑了難以逾越的壁壘。然而,,隨著AI應(yīng)用場(chǎng)景的擴(kuò)展,,特別是在推理階段的需求爆發(fā),,AMD等競(jìng)爭(zhēng)者正在尋找突破口。
最新消息顯示,,AMD利用DeepSeek模型走紅的機(jī)會(huì),,宣布將新的DeepSeek-V3模型集成到Instinct MI300X GPU上。這一集成旨在與SGLang配合使用,,以實(shí)現(xiàn)最佳性能,。DeepSeek-V3專門針對(duì)AI推理進(jìn)行了優(yōu)化,表明AMD正在積極布局AI應(yīng)用落地場(chǎng)景,。
這種合作反映了AI行業(yè)格局的變化,。過去兩年,大模型的訓(xùn)練需求主導(dǎo)了算力市場(chǎng),,英偉達(dá)憑借CUDA生態(tài)和H100系列GPU占據(jù)絕對(duì)優(yōu)勢(shì),。但隨著大模型進(jìn)入應(yīng)用落地階段,推理需求激增,,企業(yè)更關(guān)注成本,、能效和部署靈活性。AMD瞄準(zhǔn)這一窗口期,,試圖通過優(yōu)化推理性能打破英偉達(dá)的壟斷,。
AMD的Instinct MI300X是其AI戰(zhàn)略的核心武器。這款采用Chiplet設(shè)計(jì)的GPU集成1460億晶體管,,配備192GB HBM3內(nèi)存,,專為大規(guī)模AI推理設(shè)計(jì),。據(jù)AMD數(shù)據(jù),MI300X的推理性能較英偉達(dá)H100提升30%,,內(nèi)存帶寬達(dá)5.3TB/s,,尤其擅長(zhǎng)實(shí)時(shí)對(duì)話、圖像生成等低延遲任務(wù),。不過,,MI300X面臨生態(tài)短板和產(chǎn)能瓶頸兩大挑戰(zhàn)。
英偉達(dá)的CUDA生態(tài)已形成近乎壟斷的開發(fā)者壁壘,,全球90%的AI框架依賴其工具鏈,。盡管AMD推出開源的ROCm平臺(tái)并適配PyTorch、TensorFlow,,但遷移成本高,、社區(qū)支持不足的問題依然突出。例如,,Meta雖采用MI300X運(yùn)行Llama 3.1模型的推理任務(wù),,但訓(xùn)練階段仍依賴英偉達(dá)芯片。此外,,2023年底臺(tái)積電先進(jìn)封裝產(chǎn)能緊張導(dǎo)致MI300X交付延遲,,部分客戶轉(zhuǎn)投英偉達(dá),也暴露出AMD在供應(yīng)鏈管理上的脆弱性,。
為應(yīng)對(duì)挑戰(zhàn),,AMD加速硬件迭代并強(qiáng)化生態(tài)合作。2024年6月,,AMD推出了升級(jí)版的MI325X芯片,,這款產(chǎn)品采用了8個(gè)計(jì)算芯片、4個(gè)I/O芯片和8個(gè)內(nèi)存芯片的復(fù)雜設(shè)計(jì),,通過2.5D和3D封裝技術(shù)實(shí)現(xiàn)整合,。在性能方面,MI325X提供了1.3petaFLOPS的BF/FP16性能,,或2.6petaFLOPS的FP8性能,,超過了英偉達(dá)的H200。特別是在內(nèi)存容量上,,MI325X配備了288GB的HBM3e內(nèi)存,,是H200的兩倍多,,內(nèi)存帶寬達(dá)到6TB/S,。
AI芯片領(lǐng)域的領(lǐng)軍企業(yè)英偉達(dá)就近期關(guān)于其AI芯片延期發(fā)布的傳言進(jìn)行了回應(yīng)
2024-08-04 21:05:19英偉達(dá)回應(yīng)AI芯片推遲發(fā)布