英偉達(dá)在NVIDIA GTC 2025上宣布,,其NVIDIA Blackwell DGX系統(tǒng)創(chuàng)下DeepSeek-R1大模型推理性能的世界紀(jì)錄。在搭載了八塊Blackwell GPU的單個DGX系統(tǒng)上運行6710億參數(shù)的滿血DeepSeek-R1模型可實現(xiàn)每用戶每秒超250 token的響應(yīng)速度,,系統(tǒng)最高吞吐量突破每秒3萬token,。
隨著NVIDIA平臺繼續(xù)在最新的Blackwell Ultra GPU和Blackwell GPU上突破推理極限,其性能將會不斷提高,。例如,,在運行TensorRT-LLM軟件的NVL8配置的NVIDIA B200 GPU上,,單節(jié)點配置為DGX B200(8塊GPU)與DGX H200(8塊GPU),,測試參數(shù)為輸入1024 token / 輸出2048 token;此前測試為輸入/輸出各1024 token,,計算精度方面,,B200采用FP4,H100/H200采用FP8精度,。
自2025年1月以來,,通過硬件和軟件的結(jié)合,英偉達(dá)成功將DeepSeek-R1 671B模型的吞吐量提高了約36倍,。節(jié)點配置包括DGX B200(8塊GPU),、DGX H200(8塊GPU)以及兩個DGX H100(8塊GPU)系統(tǒng),,測試參數(shù)依然采用TensorRT-LLM內(nèi)部版本,輸入1024 token / 輸出2048 token,,并發(fā)性MAX,,計算精度方面,B200采用FP4,,H100/H200采用FP8精度,。
與Hopper架構(gòu)相比,Blackwell架構(gòu)與TensorRT軟件相結(jié)合實現(xiàn)了顯著的推理性能提升,。DGX B200平臺在運行TensorRT軟件并使用FP4精度時,,與DGX H200平臺相比提供了3倍以上的推理吞吐量提升,適用于包括DeepSeek-R1,、Llama 3.1 405B和Llama 3.3 70B在內(nèi)的多個模型,。在對模型進(jìn)行量化以利用低精度計算優(yōu)勢時,確保精度損失最小化是生產(chǎn)部署的關(guān)鍵,。在DeepSeek-R1模型上,,相較于FP8基準(zhǔn)精度,TensorRT Model Optimizer的FP4訓(xùn)練后量化技術(shù)在不同數(shù)據(jù)集上僅產(chǎn)生微乎其微的精度損失,。
1月28日,,全球多家科技巨頭因DeepSeek的技術(shù)進(jìn)步而受到影響,英偉達(dá)的股價在美股市場收跌16.86%,,每股報18.58美元
2025-01-28 18:22:15英偉達(dá)稱DeepSeek離不開其芯片