當(dāng)然,,你還可以將更多的這些系統(tǒng)連接在一起,,形成更龐大的計(jì)算網(wǎng)絡(luò),。但真正的奇跡在于這個MV鏈接芯片,,隨著大語言模型的日益龐大,,其重要性也日益凸顯,。因?yàn)檫@些大語言模型已經(jīng)不適合單獨(dú)放在一個GPU或節(jié)點(diǎn)上運(yùn)行,,它們需要整個GPU機(jī)架的協(xié)同工作,。就像我剛才提到的那個新DGX系統(tǒng),,它能夠容納參數(shù)達(dá)到數(shù)十萬億的大語言模型,。
MV鏈接交換機(jī)本身就是一個技術(shù)奇跡,擁有500億個晶體管,,74個端口,,每個端口的數(shù)據(jù)速率高達(dá)400GB。但更重要的是,,交換機(jī)內(nèi)部還集成了數(shù)學(xué)運(yùn)算功能,,可以直接進(jìn)行歸約操作,這在深度學(xué)習(xí)中具有極其重要的意義,。這就是現(xiàn)在的DGX系統(tǒng)的全新面貌,。
許多人對我們表示好奇。他們提出疑問,,對英偉達(dá)的業(yè)務(wù)范疇存在誤解,。人們疑惑,英偉達(dá)怎么可能僅憑制造GPU就變得如此龐大,。因此,,很多人形成了這樣一種印象:GPU就應(yīng)該是某種特定的樣子。
然而,,現(xiàn)在我要展示給你們的是,,這確實(shí)是一個GPU,,但它并非你們想象中的那種。這是世界上最先進(jìn)的GPU之一,,但它主要用于游戲領(lǐng)域,。但我們都清楚,GPU的真正力量遠(yuǎn)不止于此,。
各位,,請看這個,這才是GPU的真正形態(tài),。這是DGX GPU,,專為深度學(xué)習(xí)而設(shè)計(jì)。這個GPU的背面連接著MV鏈接主干,,這個主干由5000條線組成,,長達(dá)3公里。這些線,,就是MV鏈接主干,,它們連接了70個GPU,形成一個強(qiáng)大的計(jì)算網(wǎng)絡(luò),。這是一個電子機(jī)械奇跡,,其中的收發(fā)器讓我們能夠在銅線上驅(qū)動信號貫穿整個長度。
因此,,這個MV鏈接交換機(jī)通過MV鏈接主干在銅線上傳輸數(shù)據(jù),,使我們能夠在單個機(jī)架中節(jié)省20千瓦的電力,而這20千瓦現(xiàn)在可以完全用于數(shù)據(jù)處理,,這的確是一項(xiàng)令人難以置信的成就,。這就是MV鏈接主干的力量。
為生成式AI推以太網(wǎng)
但這還不足以滿足需求,,特別是對于大型人工智能工廠來說更是如此,,那么我們還有另一種解決方案。我們必須使用高速網(wǎng)絡(luò)將這些人工智能工廠連接起來,。我們有兩種網(wǎng)絡(luò)選擇:InfiniBand和以太網(wǎng),。其中,InfiniBand已經(jīng)在全球各地的超級計(jì)算和人工智能工廠中廣泛使用,,并且增長迅速,。然而,并非每個數(shù)據(jù)中心都能直接使用InfiniBand,,因?yàn)樗麄冊谝蕴W(wǎng)生態(tài)系統(tǒng)上進(jìn)行了大量投資,,而且管理InfiniBand交換機(jī)和網(wǎng)絡(luò)確實(shí)需要一定的專業(yè)知識和技術(shù)。
因此,,我們的解決方案是將InfiniBand的性能帶到以太網(wǎng)架構(gòu)中,,這并非易事,。原因在于,每個節(jié)點(diǎn),、每臺計(jì)算機(jī)通常與互聯(lián)網(wǎng)上的不同用戶相連,,但大多數(shù)通信實(shí)際上發(fā)生在數(shù)據(jù)中心內(nèi)部,即數(shù)據(jù)中心與互聯(lián)網(wǎng)另一端用戶之間的數(shù)據(jù)傳輸,。然而,在人工智能工廠的深度學(xué)習(xí)場景下,,GPU并不是與互聯(lián)網(wǎng)上的用戶進(jìn)行通信,,而是彼此之間進(jìn)行頻繁的、密集的數(shù)據(jù)交換,。
它們相互通信是因?yàn)樗鼈兌荚谑占糠纸Y(jié)果,。然后它們必須將這些部分結(jié)果進(jìn)行規(guī)約(reduce)并重新分配(redistribute)。這種通信模式的特點(diǎn)是高度突發(fā)性的流量,。重要的不是平均吞吐量,,而是最后一個到達(dá)的數(shù)據(jù),因?yàn)槿绻阏趶乃腥四抢锸占糠纸Y(jié)果,,并且我試圖接收你所有的部分結(jié)果,,如果最后一個數(shù)據(jù)包晚到了,那么整個操作就會延遲,。對于人工智能工廠而言,,延遲是一個至關(guān)重要的問題。
所以,,我們關(guān)注的焦點(diǎn)并非平均吞吐量,,而是確保最后一個數(shù)據(jù)包能夠準(zhǔn)時、無誤地抵達(dá),。然而,,傳統(tǒng)的以太網(wǎng)并未針對這種高度同步化、低延遲的需求進(jìn)行優(yōu)化,。為了滿足這一需求,,我們創(chuàng)造性地設(shè)計(jì)了一個端到端的架構(gòu),使NIC(網(wǎng)絡(luò)接口卡)和交換機(jī)能夠通信,。為了實(shí)現(xiàn)這一目標(biāo),,我們采用了四種關(guān)鍵技術(shù):
第一,英偉達(dá)擁有業(yè)界領(lǐng)先的RDMA(遠(yuǎn)程直接內(nèi)存訪問)技術(shù)?,F(xiàn)在,,我們有了以太網(wǎng)網(wǎng)絡(luò)級別的RDMA,它的表現(xiàn)非常出色,。
第二,,我們引入了擁塞控制機(jī)制,。交換機(jī)具備實(shí)時遙測功能,能夠迅速識別并響應(yīng)網(wǎng)絡(luò)中的擁塞情況,。當(dāng)GPU或NIC發(fā)送的數(shù)據(jù)量過大時,,交換機(jī)會立即發(fā)出信號,告知它們減緩發(fā)送速率,,從而有效避免網(wǎng)絡(luò)熱點(diǎn)的產(chǎn)生,。
第三,我們采用了自適應(yīng)路由技術(shù),。傳統(tǒng)以太網(wǎng)按固定順序傳輸數(shù)據(jù),,但在我們的架構(gòu)中,我們能夠根據(jù)實(shí)時網(wǎng)絡(luò)狀況進(jìn)行靈活調(diào)整,。當(dāng)發(fā)現(xiàn)擁塞或某些端口空閑時,,我們可以將數(shù)據(jù)包發(fā)送到這些空閑端口,再由另一端的Bluefield設(shè)備重新排序,,確保數(shù)據(jù)按正確順序返回,。這種自適應(yīng)路由技術(shù)極大地提高了網(wǎng)絡(luò)的靈活性和效率。
第四,,我們實(shí)施了噪聲隔離技術(shù),。在數(shù)據(jù)中心中,多個模型同時訓(xùn)練產(chǎn)生的噪聲和流量可能會相互干擾,,并導(dǎo)致抖動,。我們的噪聲隔離技術(shù)能夠有效地隔離這些噪聲,確保關(guān)鍵數(shù)據(jù)包的傳輸不受影響,。
通過采用這些技術(shù),,我們成功地為人工智能工廠提供了高性能、低延遲的網(wǎng)絡(luò)解決方案,。在價值高達(dá)數(shù)十億美元的數(shù)據(jù)中心中,,如果網(wǎng)絡(luò)利用率提升40%而訓(xùn)練時間縮短20%,這實(shí)際上意味著價值50億美元的數(shù)據(jù)中心在性能上等同于一個60億美元的數(shù)據(jù)中心,,揭示了網(wǎng)絡(luò)性能對整體成本效益的顯著影響,。
幸運(yùn)的是,帶有Spectrum X的以太網(wǎng)技術(shù)正是我們實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵,,它大大提高了網(wǎng)絡(luò)性能,,使得網(wǎng)絡(luò)成本相對于整個數(shù)據(jù)中心而言幾乎可以忽略不計(jì)。這無疑是我們在網(wǎng)絡(luò)技術(shù)領(lǐng)域取得的一大成就,。
我們擁有一系列強(qiáng)大的以太網(wǎng)產(chǎn)品線,,其中最引人注目的是Spectrum X800。這款設(shè)備以每秒51.2 TB的速度和256路徑(radix)的支持能力,為成千上萬的GPU提供了高效的網(wǎng)絡(luò)連接,。接下來,,我們計(jì)劃一年后推出X800 Ultra,它將支持高達(dá)512路徑的512 radix,,進(jìn)一步提升了網(wǎng)絡(luò)容量和性能,。而X 1600則是為更大規(guī)模的數(shù)據(jù)中心設(shè)計(jì)的,能夠滿足數(shù)百萬個GPU的通信需求,。
隨著技術(shù)的不斷進(jìn)步,,數(shù)百萬個GPU的數(shù)據(jù)中心時代已經(jīng)指日可待。這一趨勢的背后有著深刻的原因,。一方面,,我們渴望訓(xùn)練更大、更復(fù)雜的模型,;但更重要的是,未來的互聯(lián)網(wǎng)和計(jì)算機(jī)交互將越來越多地依賴于云端的生成式人工智能,。這些人工智能將與我們一起工作,、互動,生成視頻,、圖像,、文本甚至數(shù)字人。因此,,我們與計(jì)算機(jī)的每一次交互幾乎都離不開生成式人工智能的參與,。并且總是有一個生成式人工智能與之相連,其中一些在本地運(yùn)行,,一些在你的設(shè)備上運(yùn)行,,很多可能在云端運(yùn)行。
這些生成式人工智能不僅具備強(qiáng)大的推理能力,,還能對答案進(jìn)行迭代優(yōu)化,,以提高答案的質(zhì)量。這意味著我們未來將產(chǎn)生海量的數(shù)據(jù)生成需求,。今晚,,我們共同見證了這一技術(shù)革新的力量。
Blackwell,,作為NVIDIA平臺的第一代產(chǎn)品,,自推出以來便備受矚目。如今,,全球范圍內(nèi)都迎來了生成式人工智能的時代,,這是一個全新的工業(yè)革命的開端,每個角落都在意識到人工智能工廠的重要性。我們深感榮幸,,獲得了來自各行各業(yè)的廣泛支持,,包括每一家OEM(原始設(shè)備制造商)、電腦制造商,、CSP(云服務(wù)提供商),、GPU云、主權(quán)云以及電信公司等,。
Blackwell的成功,、廣泛的采用以及行業(yè)對其的熱情都達(dá)到了前所未有的高度,這讓我們深感欣慰,,并在此向大家表示衷心的感謝,。然而,我們的腳步不會因此而停歇,。在這個飛速發(fā)展的時代,,我們將繼續(xù)努力提升產(chǎn)品性能,降低培訓(xùn)和推理的成本,,同時不斷擴(kuò)展人工智能的能力,,使每一家企業(yè)都能從中受益。我們堅(jiān)信,,隨著性能的提升,,成本將進(jìn)一步降低。而Hopper平臺,,無疑可能是歷史上最成功的數(shù)據(jù)中心處理器,。
Blackwell Ultra將于明年發(fā)布,下一代平臺名為Rubin
美國英偉達(dá)公司的創(chuàng)辦人及CEO黃仁勛訪問臺灣,此行引發(fā)臺灣地區(qū)的高度關(guān)注,他的言論成為媒體聚焦點(diǎn)
2024-06-07 18:12:09黃仁勛妄稱臺灣為“國家”