亚洲一卡2卡3卡4卡5卡6卡_99RE6在线观看国产精品_99欧美日本一区二区留学生_成人国产精品日本在线观看_丰满爆乳在线播放_免费国产午夜理论片不卡_欧美成 人影片 免费观看_日产中字乱码一二三_肉感饱满中年熟妇日本_午夜男女爽爽影院免费视频下载,民工把我奶头掏出来在线视频,日韩经典亚洲,国产精品JIZZ在线观看无码

中華網(wǎng) china.com

新聞

清華光電融合芯片算力是GPU的3000多倍,?媒體搞出的大新聞

關(guān)鍵詞:
2024-12-02 14:18:14  風(fēng)云之聲

近年來,,人工智能突破引發(fā)了高性能GPU需求暴增。GPU生產(chǎn)商英偉達(dá)2023年市值增長239.2%,,2024年又漲了45.9%,,截至2月12日市值達(dá)到1.78萬億美元。GPU已經(jīng)成為全球高科技業(yè)界最炙手可熱的商品之一,,美國商務(wù)部還特別針對中國限制GPU性能,,連游戲玩家用的RTX 4090都不讓賣了。

在這種情況下,,一些媒體注意到了中國的一項成果,。2023年10月25日,清華大學(xué)戴瓊海院士與喬飛副研究員團(tuán)隊在《自然》雜志發(fā)表論文《All-analog photoelectronic chip for high-speed vision tasks》,介紹了光電融合芯片ACCEL,。一些新聞標(biāo)題說這款芯片“算力是商用GPU的3000多倍”,,內(nèi)容中具體是“在包括 ImageNet 等智能視覺任務(wù)實測中,相同準(zhǔn)確率下,,比現(xiàn)有高性能 GPU 算力提升三千倍,,能效提升四百萬倍,具備超高算力,、超低功耗的特點”,。

這是真的嗎?這種光電融合芯片,,能否在行業(yè)中應(yīng)用推廣,,幫助中國突破GPU封鎖?

其實這很大程度是誤讀,,因為這些媒體把ACCEL和商用GPU的“算力”拿來對比的方法有問題,。簡而言之,是把前者的瞬間表現(xiàn)和后者的持續(xù)表現(xiàn)混為一談了,。但要深入理解問題在哪里,,我們就要先來了解下光電融合芯片以及商用GPU芯片的基本知識,包括它們的架構(gòu)與性能特點,。

光電融合芯片ACCEL,,顧名思義,它是一個芯片,,但融合了“光”和“電”的特性,。芯片有邏輯芯片和存儲芯片兩大類(還有一類半導(dǎo)體器件是功率放大器,有時也稱為功率芯片),,高性能GPU就是將計算能力強(qiáng)大的邏輯芯片與多達(dá)幾十G容量的先進(jìn)存儲芯片封裝在一起,。

從性質(zhì)上看,ACCEL是邏輯芯片,,功能是計算,,而且計算功能限定為圖像的模式識別。目前它還是非常專門的邏輯計算芯片,,沒有通用計算功能,。

世界第一款GPU:英偉達(dá)GeForce 256

GPU能不能做通用計算呢?以前不行,,現(xiàn)在可以,。GPU芯片最初功能專一,其前身叫“顯卡”,,處理的是2D屏幕上像素點的顯示問題,。1999年英偉達(dá)推出第一款GPU芯片GeForce 256時,,正式提出了GPU的命名Graphics Processing Unit,能夠處理許多本來由CPU負(fù)責(zé)的T&L(Transforming & Lighting,,幾何光影轉(zhuǎn)換)算法,,已經(jīng)有了通用處理器的一些特性。此時市場上CPU的價值還是更被看重,,用CPU來處理圖像顯示問題(如用CPU實現(xiàn)的“軟光柵”算法)浪費了,就用GPU來打輔助,,用其多核來并行處理天生適合并行的圖像顯示問題,。

英特爾當(dāng)時認(rèn)為,GPU是輔助的,,沒太大價值,,于是干脆和自家的CPU集成在一起賣,叫集成顯卡,。一般人都不知道自己的機(jī)器里有集成顯卡,,專門買獨立顯卡的人才比較懂GPU。這可能是英特爾犯的最大錯誤,,到2022年才開始推出獨立顯卡,,和英偉達(dá)、AMD搶生意,。

到2003年,,GPGPU(General Purpose computing on GPU,GPU通用計算)的概念被提出來,。之后隨著GPU能力越來越強(qiáng),,到2010年之后,高性能GPU已經(jīng)能完成非常多不同種類的計算任務(wù),,如圖形3D,、神經(jīng)網(wǎng)絡(luò)、科學(xué)計算,、云計算,、數(shù)據(jù)中心、AIGC,、大語言模型等等,,非常通用了。到這個階段,,高性能GPU就顯得比CPU有價值多了,,價格也拉開了幾十倍的差距??梢赃@樣說,,CPU能計算的GPU都能算,,而GPU能快速完成的許多計算任務(wù),CPU理論上能完成但實在太慢,,等于不行,。所以現(xiàn)在的情況是,簡單的任務(wù)才會讓便宜的CPU干,,CPU成打輔助的了,。GPU霸主英偉達(dá)的市值,2024年2月12日達(dá)到了老牌CPU霸主英特爾的9.7倍,,這就是GPU強(qiáng)大計算能力的直接體現(xiàn),。

下面我們來看,光電融合芯片ACCEL是如何做計算的,。它融合了“光”與“電”,,其中“光”是指“光計算”(photonic computing),“電”就是電子,。跟電子相比,,光子有很突出的性能,例如沒有靜止質(zhì)量,,光子之間沒有相互作用力,,互相幾乎不干擾,不受電磁場干擾等等,。在通信業(yè)中,,光纖就比銅纜的帶寬大得多,能耗還小,,光通信是成熟應(yīng)用了,。電子的優(yōu)點是,天生適合二進(jìn)制邏輯計算,,因為有半導(dǎo)體的神奇功能,,通過電壓變化,器件就能在導(dǎo)通和阻斷之間靈敏變化,,正好代表了0和1,。

《三體》電視劇中的人列計算機(jī)

稍有計算機(jī)知識的人,會明白基于電流,、電壓的半導(dǎo)體做計算是比較自然的,,二進(jìn)制邏輯不難懂。就如劉慈欣《三體》中描述的,,用幾個士兵就能演示與,、或、非基本邏輯計算,,進(jìn)而實現(xiàn)加減乘除等數(shù)學(xué)運算,,直到整個計算機(jī)系統(tǒng),。

集成光路示意圖

光子其實也是可以搞計算的,而且是零能耗,。上圖是一個與“集成電路”類似的“集成光路”,,激光器產(chǎn)生的光在“光路”的各種元器件里傳輸處理,效果相當(dāng)于計算,。你可能會想到我的朋友袁嵐峰經(jīng)常介紹的,、中國科學(xué)技術(shù)大學(xué)研發(fā)的“九章”系列量子計算機(jī),但它和這里說的光計算并不是一回事,。九章也是用光來做計算,,但它是利用單個光子的量子特性,如疊加和糾纏,。而一般說的光計算,用的還是大量光子的干涉,、衍射等經(jīng)典特性,。

例如一束光通過透鏡衍射,就可以理解為執(zhí)行傅里葉變換積分,。整個過程是“無源”的,,能耗為零,無須如集成電路那樣外加電源,。再一個例子是馬赫-曾德爾干涉儀(MZI,,Mach–Zehnder Interferometer),可以直接構(gòu)造出一個2 × 2的矩陣,,也是無源的,。級聯(lián)的MZI可以進(jìn)行矩陣乘法,非常有特性,,讓MZI成為光計算的基礎(chǔ)單元,,ACCEL論文里也提到了MZI。這就有些專業(yè)了,,不象電子世界的二進(jìn)制邏輯那樣容易理解,。

下面我們來稍微詳細(xì)地介紹一下馬赫-曾德爾干涉儀。你可能聽說過恩斯特·馬赫,,他是非常著名的物理學(xué)家和哲學(xué)家,,愛因斯坦多次表示受到過他的很大啟發(fā)。但馬赫-曾德爾干涉儀中的馬赫并不是恩斯特·馬赫,,而是他的兒子路德維?!ゑR赫。路德維·曾德爾1891年提出這種干涉儀的構(gòu)想,,路德維?!ゑR赫1892年改進(jìn),,兩人提出的這種干涉儀構(gòu)型很靈活,被廣泛應(yīng)用于量子力學(xué)的基礎(chǔ)研究,。MZI后來應(yīng)用到了光通信,,近來又用到了光計算,在光學(xué)測量中也很常用,。

馬赫-曾德爾干涉儀示意圖

如圖,,馬赫-曾德爾干涉儀的圖像效果是,檢測盒(test cell)中的火焰物體,,在右方顯示為白色火焰(相長干涉,,Constructive Interference),上方顯示為黑色火焰(相消干涉,,Destructive Interference),。核心裝置是左下和右上兩個“半鍍鏡”,鍍膜的厚度很小,,正好讓45度角入射的一半光線透射過去,,一半反射走。光源經(jīng)過透鏡形成準(zhǔn)直光束,,被左下的半鍍鏡分成兩道,,往上走的叫“樣品光束”,平走的叫“參考光束”,,半鍍鏡等于起到了“分光器”(beamsplitter,,BS)的作用。參考光束的光路上有一個補(bǔ)償盒(compensating cell),,是和檢驗盒(test cell)一樣的玻璃盒,,消除兩條光路除樣品外的額外影響。精心調(diào)整,,讓兩條光路距離一樣,。兩個光束分別被左上和右下的鍍銀鏡全反射,又在上方的半鍍鏡遇上,,一半樣品光束透射過它,,和被它反射的一半?yún)⒖脊馐黄鸬竭_(dá)右邊探測器(屏幕),發(fā)生相長干涉,;一半樣品光束被它反射,,和透射過它的一半?yún)⒖脊馐黄鸬竭_(dá)上面的探測器,發(fā)生相消干涉,。

你可能想問,,既然兩條光路距離相同,為什么不是兩邊都是相長干涉,,而是一邊相長,,一邊相消,?關(guān)鍵原理是,反射有可能改變相位,,也可能不變,。最終兩束光相位相反就是相消干涉,相位相同就是相長干涉,。仔細(xì)觀察,,左下的半鍍鏡是鍍膜(細(xì)黑條)在上、玻璃(粗灰條)在下,;右上的半鍍鏡是玻璃在上,、鍍膜在下。

反射相位改變與否的規(guī)律是由菲涅爾方程決定的:在低折射率介質(zhì)里傳的波動,,進(jìn)入高折射率的介質(zhì),,波動相位會變。也就是從低到高反射,,相位會變,,但從高到低反射,相位不變,。樣品光束在左下半鍍鏡反射走,是從空氣到鍍膜,,空氣折射率低于鍍膜,,會改變一次相位(參考光束被右上半鍍鏡反射類似)。而樣品光束在右上半鍍鏡反射走,,是從玻璃到鍍膜,,玻璃折射率高于鍍膜,不改變相位,。

透射是不改變相位的,。我們看樣品光束和參考光束經(jīng)過的反射,就會發(fā)現(xiàn),,在右邊屏幕發(fā)生干涉時,,兩束光的相位改變次數(shù)是一樣的(全反射鏡也算一次,各改變了兩次),,相位相同,,相長干涉。而在上邊屏幕發(fā)生干涉時,,樣品光束的相位改變多一次(樣品光束兩次,,參考光束一次),兩者反相了,,相消干涉,。

那MZI是怎么用到光計算里面的,?馬赫與曾德爾是提出實驗構(gòu)想,具體的干涉實現(xiàn)多種多樣,,只要是光束經(jīng)過分光器,,經(jīng)不同路徑又發(fā)生干涉,就符合大意,,通稱為MZI,。光的加法很簡單,就是兩束光通過波導(dǎo)管傳輸,,在波導(dǎo)管相遇的地方,,信號被方向耦合器加在一起。而光的乘法就是MZI的干涉效應(yīng)實現(xiàn)的,,當(dāng)然器件比原始的馬赫-曾德爾干涉儀要小得多了,,有很多改進(jìn)。

單個經(jīng)典的MZI:兩個分光器BS,,兩個反射鏡M,,三個移相器

如圖,一個經(jīng)典的MZI和原始的馬赫-曾德爾干涉儀大致類似,,兩個分光器就等于半鍍鏡,,兩個反射鏡也一樣。但是,,多了三個移相器,,入射的光也變成兩個了,E1和E2兩束光都是一半透射一半90度角反射,,透射的和另一束光反射的正好同方向,。E1和E2就代表一個2 × 1的矩陣E = [E1, E2],這個矩陣經(jīng)過MZI乘以2 × 2的矩陣U,,就變成另一個2 × 1的矩陣E’ = [E’1,E’2],,公式是E’ = E * U。移相器的三個角度值α/β/θ,,代表相乘的2 × 2的矩陣U,,U的數(shù)值是可變的(也就是可編程的),但必須是酉矩陣(unitary matrix,,也叫幺正矩陣),,所以矩陣的4個值用3個參數(shù)可代表。酉矩陣的定義是,,它和另外一個矩陣乘,,能得出對角線全是1的單位矩陣,具有一定的對稱性。具體的數(shù)學(xué)公式很復(fù)雜,,但大致原理并不難明白,。光線在MZI里根據(jù)相位干涉,兩條光路相當(dāng)于兩個并行的數(shù)值計算,。這個MZI就代表了2 × 2的矩陣U,。

這個架構(gòu)是可擴(kuò)展的,例如將4×1的輸入矩陣E分解,,用6個MZI,,就能得到E與4×4的矩陣U相乘的結(jié)果E’。規(guī)律是,,n×n的酉矩陣U,,可以用n(n-1)/2個MZI來表示。上圖U的上角標(biāo)4代表它的維度是4,。

利用矩陣的奇異值分解法(Singular Value Decomposition, SVD),,級聯(lián)MZI可以實現(xiàn)任意矩陣的乘法。SVD是說,,任意m × n的矩陣M,,可以表示為三個矩陣的乘積,M = UEV,,其中U是n × n的酉矩陣,,V是m × m的酉矩陣,E是m × n的對角矩陣(對角線以外全是0),。這三個矩陣都可以用級聯(lián)MZI來表示,,對角矩陣更簡單,用n個MZI光衰減器就可以,。注意一般的n × n方陣也需要用SVD分解,因為可能不是酉矩陣,。

圖為級聯(lián)MZI構(gòu)成的光學(xué)干涉單元(Optical Interference Unit,,OIU)。這些設(shè)計已經(jīng)有實際的光子芯片應(yīng)用了,。MZI概念上是光子芯片的元器件,,有時需要非常多的數(shù)量,如64 × 64的矩陣乘法就需要8128個MZI,。

近來非常流行的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),,最常用的基礎(chǔ)運算是卷積。而透鏡衍射的傅立葉變換就可以模擬卷積運算,,因此用光學(xué)元器件模擬深度神經(jīng)網(wǎng)絡(luò)是可行的,,這就是光學(xué)神經(jīng)網(wǎng)絡(luò)(Optical Neural Network, ONN)。圖為一個手寫數(shù)字識別ONN,一個空間光調(diào)制器(SLM,,Spatial Light Modulator)就相當(dāng)于深度神經(jīng)網(wǎng)絡(luò)中的一層,。有一個實體的掩碼板(weight mask),等于是權(quán)重系數(shù),,放在光路中作為系數(shù)調(diào)制卷積過程,。L7作逆的傅立葉變換,把光線聚焦到CCD中的某個區(qū)域,。運行起來效果是,,輸入端光線代表的數(shù)字,經(jīng)過透鏡與掩碼組,,最后總能神奇地聚焦到CCD的對應(yīng)區(qū)域,。這個過程的數(shù)學(xué)解釋,就是深度神經(jīng)網(wǎng)絡(luò),。

光計算有低能耗的特性,,但是因為計算機(jī)系統(tǒng)沒法解讀光信號,實際應(yīng)用時還需要光電轉(zhuǎn)換以及最終輸出處理環(huán)節(jié),。

傳統(tǒng)的光計算應(yīng)用過程,,摘自ACCEL論文

圖為傳統(tǒng)的圖像識別光計算應(yīng)用過程,小車的圖像是光信號輸入,,經(jīng)過MZI光計算,、D2NN(就是一種ONN,衍射深度神經(jīng)網(wǎng)絡(luò))處理,,形成了特征明顯的光信號,。但這些光信號要經(jīng)過很多photodiode(光電二極管)轉(zhuǎn)成電信號(基于光電效應(yīng)),再從電信號經(jīng)ADC(模數(shù)轉(zhuǎn)換)變成數(shù)字信號進(jìn)入計算機(jī)內(nèi)存,,還要跑一個小型數(shù)字神經(jīng)網(wǎng)絡(luò)全連接層(在光信號那里做不方便),,最終形成識別結(jié)果,認(rèn)出是小汽車,。

這個傳統(tǒng)光計算應(yīng)用架構(gòu)缺點很大,。說是光子零能耗,但是大規(guī)模的光電轉(zhuǎn)換,、ADC轉(zhuǎn)換非常耗能,。光線在眾多級聯(lián)MZI、透鏡掩碼組里傳播,、干涉,、衍射,這個過程并不是很靠譜,,也就是“非線性”,,元器件一多就不靈了。而且也不抗干擾,光線稍有點環(huán)境擾動結(jié)果就不對,。相比之下,,基于電子的芯片就很靠譜,信號在上百億個晶體管之間傳送都不會錯,。所以傳統(tǒng)的光計算多年來都只能“展示潛力”,,如果是關(guān)心前沿技術(shù)進(jìn)展的朋友,會經(jīng)常在文章中看到它,,但從來不見它大規(guī)模應(yīng)用,。這就是因為它應(yīng)用不方便,從光信號到數(shù)字信號過程生硬,,光電融合得不好,。

了解了這些背景,才能明白清華團(tuán)隊ACCEL的進(jìn)步,。它巧妙地融合了光子與電子各自的特性優(yōu)勢,,所以叫光電融合芯片。ACCEL的全稱是All-analog Chip Combining Electronic and Light computing,,全模擬電光計算融合芯片,,這里的重點除了光電融合,就是All-analog,,全程模擬信號,,省去了耗能的ADC環(huán)節(jié)。

ACCEL的架構(gòu)

ACCEL的圖像識別過程,,分為OAC(Optical Analog Computing,,光模擬計算)和EAC(Electronic Analog Computing,電模擬計算)兩個環(huán)節(jié),。小車的光學(xué)圖像包含極多光學(xué)信號,,經(jīng)過光學(xué)元器件陣列,不斷進(jìn)行“特征提取”,,相當(dāng)于用ONN實現(xiàn)深度神經(jīng)網(wǎng)絡(luò)運算,,在OAC里生成了小量光學(xué)信號(但包含了關(guān)鍵信息)。OAC輸出的光信號,,經(jīng)過少量光電二極管陣列轉(zhuǎn)換(只有32 × 32個),變成電信號(仍然是模擬信號),。這些電信號在EAC里的SRAM陣列里傳輸,,用巧妙的辦法模擬了一個神經(jīng)網(wǎng)絡(luò)全連接層。最后電信號形成了簡單的脈沖序列輸出,,完成識別過程,。

可以看出,OAC借鑒了ONN的技術(shù),主要的創(chuàng)新是在EAC環(huán)節(jié),。SRAM是static random-access memory,,存儲一個比特。EAC模擬實現(xiàn)了一個二值化的神經(jīng)網(wǎng)絡(luò)全連接層,。全連接是模式識別的深度神經(jīng)網(wǎng)絡(luò)最后一層常用辦法,,EAC里是1024 × N的全連接(1024就是32 × 32個從OAC轉(zhuǎn)換來的電信號,N是需要識別的物體種類數(shù),,ACCEL里N小于等于16),。

二值化神經(jīng)網(wǎng)絡(luò)連接是說,權(quán)重系數(shù)只有兩種狀態(tài)(正和負(fù)),。每個從光信號轉(zhuǎn)來的電信號,,會根據(jù)其連接的SRAM存儲的比特值是0還是1,決定連到V+還是V-這兩條線之一,。兩條線各有一些電信號連過來,,先各自根據(jù)基爾霍夫定律合并出電流值,再在輸出Node互相比較電流大小,,得出一個電壓差脈沖輸出,。如果有N個物體需要分辨,從OAC轉(zhuǎn)換來的電信號會同時接到N組SRAM里,,組合出N個脈沖輸出,。最后脈沖在Comparator里比較,哪個大就代表識別結(jié)果是它,。神經(jīng)網(wǎng)絡(luò)訓(xùn)練,,就是根據(jù)正確輸出結(jié)果,告訴EAC,,對應(yīng)Node輸出的脈沖大了,、小了,反向去修改SRAM里的0和1值,。訓(xùn)練好了,,1024×N個SRAM里就存儲了一套權(quán)重系數(shù),可以用于模式識別了,。

整個過程很巧妙,,EAC的輸出直接就識別好了,不需要再在傳統(tǒng)計算機(jī)里計算處理,。所以,ACCEL芯片實現(xiàn)了完整的圖像識別計算過程,。它里面有光學(xué)信號,、電信號,在一級級傳輸,,有個計算過程,,但完全沒有傳統(tǒng)芯片的數(shù)字邏輯過程,。所以叫做All-analog,全程模擬信號,,不需要ADC轉(zhuǎn)換,,這就非常厲害了,,能效極高。

ACCEL的優(yōu)點有多種,。在OAC環(huán)節(jié),,光學(xué)圖像輸入包含海量的細(xì)節(jié),,用透鏡和掩碼組不斷變換,最后就形成32×32的小規(guī)模輸出,。這個特征提取過程非常重要,,它是光電融合芯片能快速計算的主要功臣,,是一個光學(xué)過程,,光速,、低時延、低能耗,。這個過程如果用傳統(tǒng)芯片來做,需要非常多的晶體管,而且并行不容易,需要GPU加速,。光學(xué)過程天然就是并行的,,而且實現(xiàn)簡單,。

但OAC的輸出是“抽象”的,誰也看不懂,。如果導(dǎo)入傳統(tǒng)計算機(jī)系統(tǒng)里解讀,,就又引入了傳統(tǒng)內(nèi)存與邏輯芯片的弱點,還不如只用傳統(tǒng)芯片處理簡單,。ACCEL用EAC去解讀OAC的輸出,,用SRAM陣列很簡單地就進(jìn)行了電流計算,最終的電流脈沖結(jié)果能和識別結(jié)果很好地對應(yīng)上,這是一個讓人叫絕的辦法,。

架構(gòu)設(shè)計不錯,,還要評估實際效果,。清華研究團(tuán)隊對MNIST、ImageNet數(shù)據(jù)集的幾個典型學(xué)術(shù)研究型案例,,評估了運行效果,。這些案例包括,,10個手寫數(shù)字的識別,、3類圖形樣例的識別,,還有一個視頻行為的分類識別,。

要注意,,ACCEL芯片架構(gòu)評估其實不需要實際造出芯片,可以先模擬評估。就如同芯片設(shè)計時,,可以選用工具軟件模擬運行看效果,,看設(shè)計是否成功。ACCEL的OAC和EAC的信號處理行為,,都可以用計算機(jī)模擬出來,。模擬運行、訓(xùn)練神經(jīng)網(wǎng)絡(luò),,驗證架構(gòu)可行性,、模式識別效果讓人滿意,再去實際造出ACCEL,。

這種模擬就能發(fā)現(xiàn)傳統(tǒng)光計算芯片的弱點了,。如ImageNet中256×256的圖像分類識別,對傳統(tǒng)光計算架構(gòu)很困難,,因為要放很多MZI,需要的ONN層數(shù)較多,,會導(dǎo)致光信號在光路上經(jīng)過的環(huán)節(jié)過多,,非線性特性發(fā)作,性能亂套,。ACCEL對這類較大的圖像還能應(yīng)付過來,,說明架構(gòu)上比傳統(tǒng)光計算要強(qiáng)很多。

但是需要指出,,ACCEL模擬評估的方法,,就說明它仍然是一個研究型的芯片。這些評估的任務(wù)是相對簡單的,,如對ImageNet中的三類物體進(jìn)行分辯,,栗色馬、救護(hù)車,、衣柜,。ACCEL的識別率是80.7%,這聽起來不高,,但仍然高于它的比較對象,、一個傳統(tǒng)數(shù)字神經(jīng)網(wǎng)絡(luò)的75.3%。為什么呢,?因為這個比較對象只是一個三層的簡單網(wǎng)絡(luò),。顯然這意味著雙方離真正應(yīng)用都很遠(yuǎn)。現(xiàn)在真正實用的深度學(xué)習(xí)模式識別的識別率很高,,能夠處理的圖片較大,,應(yīng)用的神經(jīng)網(wǎng)絡(luò)層數(shù)非常多,跟這種“玩具模型”不是同一層面的。

之后,,清華團(tuán)隊實際造出了ACCEL芯片,,進(jìn)行了評估。但由于其研究型目的,,用的工藝是相對簡單的,。傳統(tǒng)光計算芯片的問題是,在制造過程中,,會出現(xiàn)光路對齊,、信號噪聲之類的缺陷,大大影響實際表現(xiàn),。ACCEL由于芯片架構(gòu)簡單,,所以在這方面表現(xiàn)好一些,制造引入的缺陷少,,信號噪聲,、低光照條件下表現(xiàn)不錯,也是一個優(yōu)點,。ACCEL就算造的不完美,,因為權(quán)重是根據(jù)實際樣例訓(xùn)練的,能在訓(xùn)練中糾正一些,。

ACCEL制造出來后,,在一些測試樣例中,識別率表現(xiàn)和模擬評估一致,,有的數(shù)值稍差一點但可以理解,。到這一步,才說明芯片設(shè)計和制造算是成功的,,實現(xiàn)了意圖,,之后對于優(yōu)越性能的說明才有意義。

總體來說,,ACCEL識別率方面的性能指標(biāo)還不錯,。一個特別大的優(yōu)點是,在低照度的情況下,,傳統(tǒng)辦法全部會失敗,,但ACCEL還能很好地處理。這是因為其它架構(gòu)都需要ADC模數(shù)轉(zhuǎn)換,,信號強(qiáng)度不夠就不行了,。而ACCEL在低照度情況下,模擬信號仍然能正常地自然運算,,直到整個計算完成,。

現(xiàn)在我們回到文章開頭的問題,,新聞里說的“算力是商用GPU的3000多倍”,這話究竟對不對呢,?其實完全誤導(dǎo),,它只能理解為一種形容,并不是實際的算力表現(xiàn),。

首先來理解一下,,這個說法是怎么來的。ACCEL的優(yōu)點是,,它就是一個光信號,、電信號傳播的過程,不象傳統(tǒng)芯片那樣計算速度受限于“時鐘周期”,??梢韵胂螅瑐鹘y(tǒng)芯片的計算過程是一步步的,,象僵直的機(jī)器人一樣一個節(jié)拍動一下,。而ACCEL是一個流水一樣的自然過程,幾乎沒有卡頓,,雖然有時鐘周期,,但不太受限制,只有SRAM存儲更新之類的明顯需要節(jié)拍的地方會用到,。

實測下來,,ACCEL用2-9個納秒就能完成一幅圖像的處理,。1納秒是十億分之一秒,,是100萬之一毫秒。通常人們用CPU處理一幅圖像識別是幾十到幾百毫秒,,用GPU加速也要幾個毫秒,。也就是說,ACCEL的處理時間只有一般芯片的百萬分之一以下,。

因此,,可以認(rèn)為ACCEL的時鐘頻率是500M,也就是一個時鐘周期2納秒,。等于是說,,幾個時鐘周期,ACCEL就把計算任務(wù)辦完了,。而在傳統(tǒng)計算機(jī)里,,無論是CPU還是GPU,這類計算任務(wù)都要很多個時鐘周期的,,做個乘法就要好多步,。并行是說,海量數(shù)據(jù)可以組成向量加速,但對某個數(shù)據(jù)處理的時鐘周期是省不了的,。

所以清華論文報告說,,在進(jìn)行ImageNet三類物體分類時,ACCEL的計算速度約相當(dāng)于4550個TOPS,。TOPS是Tera Operations Per Second,,代表每秒1萬億次操作。這個計算速度確實能有商用GPU的3000多倍,,因為GPU每秒能有1萬億次操作已經(jīng)很好了,。所謂“算力是商用GPU的3000多倍”,就是這么來的,。但這個說法,,究竟是哪里不對呢?

真正的問題,,在于持續(xù)計算,。ACCEL確實能在幾納秒之內(nèi)處理一幅圖像的光信號,但它能不能持續(xù)運算,,真的用一秒時間,,完成4550TOPS的運算量?這就不行了,,因為準(zhǔn)備任務(wù)是需要時間的,。例如以它的計算速度,一秒能處理1億個圖片,,但把這么多圖片的光信號在一秒內(nèi)發(fā)送給它,,是不可能的。實際準(zhǔn)備一個圖片需要的時間就不短,,真正的瓶頸是在這兒,。

ACCEL芯片測試準(zhǔn)備

ACCEL芯片是一個光電芯片,它的輸入是光信號,,要把它運行起來,,需要準(zhǔn)備好光信號輸入,而這是個相當(dāng)復(fù)雜的任務(wù),。按論文描述,,清華團(tuán)隊要搭起光學(xué)鏡片組,才能將識別目標(biāo)的光信號輸入給ACCEL進(jìn)行處理,,換下一個識別目標(biāo)要不少操作,。而GPU、CPU在計算機(jī)系統(tǒng)中應(yīng)用多年了,,處理輸入已經(jīng)很成熟了,,所以能將海量數(shù)據(jù)組織起來,,象流水線一樣送到運算核心不停處理。高性能GPU的核心技術(shù)之一,,就是海量數(shù)據(jù)輸入管理,,要用到上百G的高速存儲器,多級緩存,。

所以,,論總的算力ACCEL并不大,它只是對整個流程中的一步處理得極快,,而這一步快的代價是另一些步驟慢,。一個比喻是,一個士兵面前正好有一個敵人,,他開槍只用1秒鐘就消滅了一個敵人,。但這不代表他可以一小時消滅3600個敵人,更不是說他可以一個人頂3000多個人,。如果有人說他的“戰(zhàn)力”有3000多個士兵這么多,,這就錯得離譜。再一個比喻是,,一張弓,,可以在1秒內(nèi)讓箭飛出100米,速度很快,。但是,,不能說它的“運送能力”是1小時360公里,因為沒法持續(xù)飛,。如果射一箭,,人走過去再射一箭,這樣接力,,一小時跑不了多遠(yuǎn),。

如果是了解可控核聚變的朋友,,可能會想到另一個更有技術(shù)含量的比喻,。可控核聚變有兩條途徑,,磁約束和慣性約束,。我們平時經(jīng)常看到新聞的EAST,、ITER等托卡馬克屬于磁約束,,而激光打靶屬于慣性約束。2022年12月,,美國國家點火裝置(NIF)實現(xiàn)了一個里程碑,,能量輸出超過了輸入,。然而,這意味著慣性約束聚變能用來發(fā)電了嗎,?其實還差得遠(yuǎn),。原因有很多,其中之一就是激光打靶是不連續(xù)的,,聚變反應(yīng)時間只有幾納秒,,而準(zhǔn)備一次打靶卻要一天(美國NIF激光聚變“點火”成功,聚變電站還遠(yuǎn)嗎,?|DrSHI觀科技),。這比“一曝十寒”還夸張,是“納秒曝一天寒”,,所以總的效率非常低,,離實用還很遠(yuǎn)。

而相比之下,,GPU的算力就是真實的,,它確實能連續(xù)一直跑,跑到芯片發(fā)燙,,人人都能聽見風(fēng)扇的聲音,。GPU應(yīng)用時,會有配套的計算機(jī)系統(tǒng),、應(yīng)用程序,、CUDA驅(qū)動支持,有時需要上百G的HBM3快速存儲,,這都是為了連續(xù)處理海量數(shù)據(jù),。

另一個指標(biāo)是與能耗相關(guān)的。ACCEL幾乎不用能量,,只有激光,、SRAM用一點,能耗指標(biāo)非常優(yōu)秀,。論文中給出的能耗指標(biāo)是74800TOPS每瓦,,這就是新聞中提到的“能效提升四百萬倍”。

同樣的道理,,這種說法也是很誤導(dǎo)的,。這是因為ACCEL處理整個流程中的一步幾乎不用能量,而不是ACCEL真用了與CPU或GPU相當(dāng)?shù)哪芰?,完成了四百多萬倍的運算,。一個比喻是,一只螞蟻幾乎不用能量就能爬1米,,能耗效率比人要高多了,。但是人可以把10斤重的箱子提起來,,螞蟻卻不可能做到。

最后,,我們來總結(jié)一下,。清華ACCEL芯片融合了光電的特性,是非常巧妙的芯片架構(gòu),,技術(shù)指標(biāo)優(yōu)秀,,將光計算的潛力進(jìn)一步展示。所以這個工作發(fā)表在《自然》上,,引發(fā)了相當(dāng)?shù)霓Z動,。它的快速計算、低功耗的特性,,正如論文中提到的,,在可穿戴設(shè)備、自動駕駛,、工業(yè)檢測等領(lǐng)域很有應(yīng)用前景,。應(yīng)該說清華團(tuán)隊的總結(jié)是清醒的,在這些領(lǐng)域視頻圖像信號能低功耗快速處理,,會是不錯的應(yīng)用,。

但是,一些媒體將指標(biāo)引申到與GPU對比,,認(rèn)為ACCEL的算力與功耗指標(biāo)比GPU好得多,,甚至暗示ACCEL可能解決先進(jìn)GPU問題,這就完全誤讀了,。一方面的問題是,,GPU有“通用計算”能力,能完成很多復(fù)雜任務(wù),,而ACCEL只用于視頻與圖像模式識別,,應(yīng)用領(lǐng)域較窄。但根本的問題是,,指標(biāo)對比方法錯誤,。這種比法對ACCEL來說是只看到優(yōu)勢,沒看到代價,,對GPU來說是忽視了GPU連續(xù)計算的能力,。

更深層次的問題是,,媒體為什么經(jīng)常犯這種錯誤呢,?恐怕是因為他們總想搞個大新聞,而忽略了提高知識水平,。

(責(zé)任編輯:喬嬌 TT0002)
關(guān)閉

黃光裕官宣進(jìn)軍汽車行業(yè) 探索汽車市場新可能

黃光裕官宣進(jìn)軍汽車行業(yè)2025-01-03 12:19:49

廣西車?yán)遄?0元2盒是真的

廣西車?yán)遄?0元2盒是真的2025-01-03 12:19:23

四川人大常委會原副主任甘道明逝世 享年78歲

四川人大常委會原副主任甘道明逝世2025-01-03 12:18:00

廣西車?yán)遄?0元2盒是真的

廣西車?yán)遄?0元2盒是真的2025-01-03 12:19:23

A股突變,!兩大板塊,,掀漲停潮 預(yù)制菜與新零售領(lǐng)漲

A股突變,兩大板塊,掀漲停潮2025-01-03 12:13:36

荷蘭天然氣價格升至逾1年高位 供應(yīng)短缺推高成本

荷蘭天然氣價格升至逾1年高位2025-01-03 11:14:00

特斯拉2024年全球交付超178.9萬輛 創(chuàng)歷史新高

特斯拉2024年全球交付超178,9萬輛2025-01-03 11:02:10

女子舉報國企丈夫包養(yǎng)情人 細(xì)節(jié)曝光 涉事單位正調(diào)查中

女子舉報國企丈夫包養(yǎng)情人細(xì)節(jié)曝光2025-01-03 12:16:24

42歲輔警去世生前協(xié)助偵破1000余起刑案 忠誠履職守護(hù)平安

42歲輔警去世生前協(xié)助偵破1000余起刑案2025-01-03 12:15:41

打開2025年的中國時刻 萬象更新奮勇前行

打開2025年的中國時刻2025-01-03 12:17:41

瑞士網(wǎng)紅“貓女”去世 整形名媛終年84歲

瑞士網(wǎng)紅貓女去世2025-01-03 12:13:56

韓總統(tǒng)官邸你推我擠一片混亂,!

韓總統(tǒng)官邸你推我擠一片混亂2025-01-03 11:31:10

潘展樂被美媒評為世界第一 巴黎奧運創(chuàng)紀(jì)錄奪魁

潘展樂被美媒評為世界第一2025-01-03 12:07:49

WPS日活破億 國產(chǎn)辦公軟件新篇章

WPS日活破億2025-01-03 12:11:15

向老人潑水涉事學(xué)校被曝拖欠170萬 食堂糾紛升級

向老人潑水涉事學(xué)校被曝拖欠170萬2025-01-03 12:10:05

逮捕尹錫悅這一早上發(fā)生了什么 警衛(wèi)沖突引關(guān)注

逮捕尹錫悅這一早上發(fā)生了什么2025-01-03 11:21:51

批評特朗普的前議員切尼被授總統(tǒng)勛章 表彰其將國家置于黨派之上

批評特朗普的前議員切尼被授總統(tǒng)勛章2025-01-03 11:23:21

工藝品店賣春聯(lián)后被判“違規(guī)”遭斷電,?管理方:他聽不懂好賴話

賣春聯(lián)遭斷電還被指聽不懂好賴話2025-01-03 12:07:21

村民買柴油被罰3萬元罰款已退還 法律與民生碰撞引熱議

村民買柴油被罰3萬元罰款已退還2025-01-03 12:05:23

黃光裕官宣進(jìn)軍汽車行業(yè) 探索汽車市場新可能

黃光裕官宣進(jìn)軍汽車行業(yè)2025-01-03 12:19:49

安倍晉三明明是日本人,,可為啥在他死后,,墓碑上卻刻著中國漢字 文化淵源深厚

安倍晉三明明是日本人墓碑上卻刻著中國漢字2025-01-03 11:11:08

美國國內(nèi)恐怖主義亮起紅警 新奧爾良血色開局

美國國內(nèi)恐怖主義亮起紅警2025-01-03 11:23:40

整容成貓女瑞士社交名媛去世 傳奇一生終落幕

整容成貓女瑞士社交名媛去世2025-01-03 12:09:37

科普:瀏覽黃色網(wǎng)站違法嗎,?為何成人網(wǎng)站屢禁不止

科普:瀏覽黃色網(wǎng)站違法嗎,?為何成人網(wǎng)站屢禁不止2025-01-03 11:28:56

臺北跨年轉(zhuǎn)播央視晚會承包商回應(yīng)!

臺北跨年轉(zhuǎn)播央視晚會承包商回應(yīng)2025-01-03 11:13:32

澤連斯基稱支持在烏克蘭部署歐洲部隊,,強(qiáng)調(diào)與北約接軌的重要性

澤連斯基稱支持在烏克蘭部署歐洲部隊2025-01-03 11:34:57

元旦實現(xiàn)了上四休三,!網(wǎng)友直呼:好爽

元旦實現(xiàn)了上四休三2025-01-03 11:26:32

四川人大常委會原副主任甘道明逝世 享年78歲

四川人大常委會原副主任甘道明逝世2025-01-03 12:18:00

相關(guān)新聞