清華光電融合芯片算力是GPU的3000多倍,？媒體搞出的大新聞

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-02 14:18:14 風(fēng)云之聲

近年來,，人工智能突破引發(fā)了高性能GPU需求暴增,。GPU生產(chǎn)商英偉達(dá)2023年市值增長(zhǎng)239.2%,，2024年又漲了45.9%,，截至2月12日市值達(dá)到1.78萬億美元。GPU已經(jīng)成為全球高科技業(yè)界最炙手可熱的商品之一，美國(guó)商務(wù)部還特別針對(duì)中國(guó)限制GPU性能,，連游戲玩家用的RTX 4090都不讓賣了,。

在這種情況下,，一些媒體注意到了中國(guó)的一項(xiàng)成果。2023年10月25日,，清華大學(xué)戴瓊海院士與喬飛副研究員團(tuán)隊(duì)在《自然》雜志發(fā)表論文《All-analog photoelectronic chip for high-speed vision tasks》,，介紹了光電融合芯片ACCEL。一些新聞標(biāo)題說這款芯片“算力是商用GPU的3000多倍”,，內(nèi)容中具體是“在包括 ImageNet 等智能視覺任務(wù)實(shí)測(cè)中,，相同準(zhǔn)確率下，比現(xiàn)有高性能 GPU 算力提升三千倍,，能效提升四百萬倍,，具備超高算力、超低功耗的特點(diǎn)”,。

這是真的嗎,？這種光電融合芯片，能否在行業(yè)中應(yīng)用推廣,，幫助中國(guó)突破GPU封鎖？

其實(shí)這很大程度是誤讀,，因?yàn)檫@些媒體把ACCEL和商用GPU的“算力”拿來對(duì)比的方法有問題,。簡(jiǎn)而言之，是把前者的瞬間表現(xiàn)和后者的持續(xù)表現(xiàn)混為一談了,。但要深入理解問題在哪里,，我們就要先來了解下光電融合芯片以及商用GPU芯片的基本知識(shí)，包括它們的架構(gòu)與性能特點(diǎn),。

光電融合芯片ACCEL,，顧名思義，它是一個(gè)芯片,，但融合了“光”和“電”的特性,。芯片有邏輯芯片和存儲(chǔ)芯片兩大類（還有一類半導(dǎo)體器件是功率放大器，有時(shí)也稱為功率芯片）,，高性能GPU就是將計(jì)算能力強(qiáng)大的邏輯芯片與多達(dá)幾十G容量的先進(jìn)存儲(chǔ)芯片封裝在一起,。

從性質(zhì)上看，ACCEL是邏輯芯片,，功能是計(jì)算,，而且計(jì)算功能限定為圖像的模式識(shí)別。目前它還是非常專門的邏輯計(jì)算芯片,，沒有通用計(jì)算功能,。

世界第一款GPU：英偉達(dá)GeForce 256

GPU能不能做通用計(jì)算呢？以前不行,，現(xiàn)在可以,。GPU芯片最初功能專一,，其前身叫“顯卡”，處理的是2D屏幕上像素點(diǎn)的顯示問題,。1999年英偉達(dá)推出第一款GPU芯片GeForce 256時(shí),，正式提出了GPU的命名Graphics Processing Unit，能夠處理許多本來由CPU負(fù)責(zé)的T&L（Transforming & Lighting,，幾何光影轉(zhuǎn)換）算法,，已經(jīng)有了通用處理器的一些特性。此時(shí)市場(chǎng)上CPU的價(jià)值還是更被看重,，用CPU來處理圖像顯示問題（如用CPU實(shí)現(xiàn)的“軟光柵”算法）浪費(fèi)了,，就用GPU來打輔助，用其多核來并行處理天生適合并行的圖像顯示問題,。

英特爾當(dāng)時(shí)認(rèn)為,，GPU是輔助的，沒太大價(jià)值,，于是干脆和自家的CPU集成在一起賣,，叫集成顯卡。一般人都不知道自己的機(jī)器里有集成顯卡,，專門買獨(dú)立顯卡的人才比較懂GPU,。這可能是英特爾犯的最大錯(cuò)誤，到2022年才開始推出獨(dú)立顯卡,，和英偉達(dá),、AMD搶生意。

到2003年,，GPGPU（General Purpose computing on GPU,，GPU通用計(jì)算）的概念被提出來。之后隨著GPU能力越來越強(qiáng),，到2010年之后,，高性能GPU已經(jīng)能完成非常多不同種類的計(jì)算任務(wù)，如圖形3D,、神經(jīng)網(wǎng)絡(luò),、科學(xué)計(jì)算、云計(jì)算,、數(shù)據(jù)中心,、AIGC、大語言模型等等,，非常通用了,。到這個(gè)階段，高性能GPU就顯得比CPU有價(jià)值多了，價(jià)格也拉開了幾十倍的差距,?？梢赃@樣說，CPU能計(jì)算的GPU都能算,，而GPU能快速完成的許多計(jì)算任務(wù),，CPU理論上能完成但實(shí)在太慢，等于不行,。所以現(xiàn)在的情況是,，簡(jiǎn)單的任務(wù)才會(huì)讓便宜的CPU干，CPU成打輔助的了,。GPU霸主英偉達(dá)的市值,，2024年2月12日達(dá)到了老牌CPU霸主英特爾的9.7倍，這就是GPU強(qiáng)大計(jì)算能力的直接體現(xiàn),。

下面我們來看,，光電融合芯片ACCEL是如何做計(jì)算的。它融合了“光”與“電”,，其中“光”是指“光計(jì)算”（photonic computing）,，“電”就是電子。跟電子相比,，光子有很突出的性能,，例如沒有靜止質(zhì)量，光子之間沒有相互作用力,，互相幾乎不干擾,，不受電磁場(chǎng)干擾等等,。在通信業(yè)中,，光纖就比銅纜的帶寬大得多，能耗還小,，光通信是成熟應(yīng)用了,。電子的優(yōu)點(diǎn)是，天生適合二進(jìn)制邏輯計(jì)算,，因?yàn)橛邪雽?dǎo)體的神奇功能,，通過電壓變化，器件就能在導(dǎo)通和阻斷之間靈敏變化,，正好代表了0和1,。

《三體》電視劇中的人列計(jì)算機(jī)

稍有計(jì)算機(jī)知識(shí)的人，會(huì)明白基于電流,、電壓的半導(dǎo)體做計(jì)算是比較自然的,，二進(jìn)制邏輯不難懂。就如劉慈欣《三體》中描述的，用幾個(gè)士兵就能演示與,、或,、非基本邏輯計(jì)算，進(jìn)而實(shí)現(xiàn)加減乘除等數(shù)學(xué)運(yùn)算,，直到整個(gè)計(jì)算機(jī)系統(tǒng),。

集成光路示意圖

光子其實(shí)也是可以搞計(jì)算的，而且是零能耗,。上圖是一個(gè)與“集成電路”類似的“集成光路”,，激光器產(chǎn)生的光在“光路”的各種元器件里傳輸處理，效果相當(dāng)于計(jì)算,。你可能會(huì)想到我的朋友袁嵐峰經(jīng)常介紹的,、中國(guó)科學(xué)技術(shù)大學(xué)研發(fā)的“九章”系列量子計(jì)算機(jī)，但它和這里說的光計(jì)算并不是一回事,。九章也是用光來做計(jì)算,，但它是利用單個(gè)光子的量子特性，如疊加和糾纏,。而一般說的光計(jì)算,，用的還是大量光子的干涉、衍射等經(jīng)典特性,。

例如一束光通過透鏡衍射,，就可以理解為執(zhí)行傅里葉變換積分。整個(gè)過程是“無源”的,，能耗為零,，無須如集成電路那樣外加電源。再一個(gè)例子是馬赫-曾德爾干涉儀（MZI,，Mach–Zehnder Interferometer）,，可以直接構(gòu)造出一個(gè)2 × 2的矩陣，也是無源的,。級(jí)聯(lián)的MZI可以進(jìn)行矩陣乘法,，非常有特性，讓MZI成為光計(jì)算的基礎(chǔ)單元,，ACCEL論文里也提到了MZI,。這就有些專業(yè)了，不象電子世界的二進(jìn)制邏輯那樣容易理解,。

下面我們來稍微詳細(xì)地介紹一下馬赫-曾德爾干涉儀,。你可能聽說過恩斯特·馬赫，他是非常著名的物理學(xué)家和哲學(xué)家,，愛因斯坦多次表示受到過他的很大啟發(fā),。但馬赫-曾德爾干涉儀中的馬赫并不是恩斯特·馬赫,，而是他的兒子路德維希·馬赫,。路德維·曾德爾1891年提出這種干涉儀的構(gòu)想,，路德維希·馬赫1892年改進(jìn),，兩人提出的這種干涉儀構(gòu)型很靈活,，被廣泛應(yīng)用于量子力學(xué)的基礎(chǔ)研究。MZI后來應(yīng)用到了光通信,，近來又用到了光計(jì)算,，在光學(xué)測(cè)量中也很常用。

馬赫-曾德爾干涉儀示意圖

如圖,，馬赫-曾德爾干涉儀的圖像效果是,，檢測(cè)盒（test cell）中的火焰物體，在右方顯示為白色火焰（相長(zhǎng)干涉,，Constructive Interference）,，上方顯示為黑色火焰（相消干涉，Destructive Interference）,。核心裝置是左下和右上兩個(gè)“半鍍鏡”,，鍍膜的厚度很小，正好讓45度角入射的一半光線透射過去,，一半反射走,。光源經(jīng)過透鏡形成準(zhǔn)直光束，被左下的半鍍鏡分成兩道,，往上走的叫“樣品光束”,，平走的叫“參考光束”，半鍍鏡等于起到了“分光器”（beamsplitter,，BS）的作用,。參考光束的光路上有一個(gè)補(bǔ)償盒（compensating cell）,，是和檢驗(yàn)盒（test cell）一樣的玻璃盒,，消除兩條光路除樣品外的額外影響。精心調(diào)整，讓兩條光路距離一樣,。兩個(gè)光束分別被左上和右下的鍍銀鏡全反射，又在上方的半鍍鏡遇上,，一半樣品光束透射過它,，和被它反射的一半?yún)⒖脊馐黄鸬竭_(dá)右邊探測(cè)器（屏幕），發(fā)生相長(zhǎng)干涉,；一半樣品光束被它反射,，和透射過它的一半?yún)⒖脊馐黄鸬竭_(dá)上面的探測(cè)器,，發(fā)生相消干涉。

你可能想問,，既然兩條光路距離相同,，為什么不是兩邊都是相長(zhǎng)干涉，而是一邊相長(zhǎng),，一邊相消,？關(guān)鍵原理是，反射有可能改變相位,，也可能不變,。最終兩束光相位相反就是相消干涉，相位相同就是相長(zhǎng)干涉,。仔細(xì)觀察,，左下的半鍍鏡是鍍膜（細(xì)黑條）在上、玻璃（粗灰條）在下,；右上的半鍍鏡是玻璃在上,、鍍膜在下。

反射相位改變與否的規(guī)律是由菲涅爾方程決定的：在低折射率介質(zhì)里傳的波動(dòng),，進(jìn)入高折射率的介質(zhì),，波動(dòng)相位會(huì)變。也就是從低到高反射,，相位會(huì)變,，但從高到低反射，相位不變,。樣品光束在左下半鍍鏡反射走,，是從空氣到鍍膜，空氣折射率低于鍍膜,，會(huì)改變一次相位（參考光束被右上半鍍鏡反射類似）,。而樣品光束在右上半鍍鏡反射走，是從玻璃到鍍膜,，玻璃折射率高于鍍膜,，不改變相位。

透射是不改變相位的,。我們看樣品光束和參考光束經(jīng)過的反射,，就會(huì)發(fā)現(xiàn)，在右邊屏幕發(fā)生干涉時(shí),，兩束光的相位改變次數(shù)是一樣的（全反射鏡也算一次,，各改變了兩次），相位相同,，相長(zhǎng)干涉,。而在上邊屏幕發(fā)生干涉時(shí),，樣品光束的相位改變多一次（樣品光束兩次，參考光束一次）,，兩者反相了,，相消干涉。

那MZI是怎么用到光計(jì)算里面的,？馬赫與曾德爾是提出實(shí)驗(yàn)構(gòu)想,，具體的干涉實(shí)現(xiàn)多種多樣，只要是光束經(jīng)過分光器,，經(jīng)不同路徑又發(fā)生干涉,，就符合大意，通稱為MZI,。光的加法很簡(jiǎn)單,，就是兩束光通過波導(dǎo)管傳輸，在波導(dǎo)管相遇的地方,，信號(hào)被方向耦合器加在一起,。而光的乘法就是MZI的干涉效應(yīng)實(shí)現(xiàn)的，當(dāng)然器件比原始的馬赫-曾德爾干涉儀要小得多了,，有很多改進(jìn),。

單個(gè)經(jīng)典的MZI：兩個(gè)分光器BS，兩個(gè)反射鏡M,，三個(gè)移相器

如圖,，一個(gè)經(jīng)典的MZI和原始的馬赫-曾德爾干涉儀大致類似，兩個(gè)分光器就等于半鍍鏡,，兩個(gè)反射鏡也一樣,。但是，多了三個(gè)移相器,，入射的光也變成兩個(gè)了,，E1和E2兩束光都是一半透射一半90度角反射，透射的和另一束光反射的正好同方向,。E1和E2就代表一個(gè)2 × 1的矩陣E = [E1, E2],，這個(gè)矩陣經(jīng)過MZI乘以2 × 2的矩陣U，就變成另一個(gè)2 × 1的矩陣E’ = [E’1,E’2],，公式是E’ = E * U,。移相器的三個(gè)角度值α/β/θ，代表相乘的2 × 2的矩陣U,，U的數(shù)值是可變的（也就是可編程的）,，但必須是酉矩陣（unitary matrix,，也叫幺正矩陣）,，所以矩陣的4個(gè)值用3個(gè)參數(shù)可代表,。酉矩陣的定義是，它和另外一個(gè)矩陣乘,，能得出對(duì)角線全是1的單位矩陣,，具有一定的對(duì)稱性。具體的數(shù)學(xué)公式很復(fù)雜,，但大致原理并不難明白,。光線在MZI里根據(jù)相位干涉，兩條光路相當(dāng)于兩個(gè)并行的數(shù)值計(jì)算,。這個(gè)MZI就代表了2 × 2的矩陣U,。

這個(gè)架構(gòu)是可擴(kuò)展的，例如將4×1的輸入矩陣E分解,，用6個(gè)MZI,，就能得到E與4×4的矩陣U相乘的結(jié)果E’。規(guī)律是,，n×n的酉矩陣U,，可以用n(n-1)/2個(gè)MZI來表示。上圖U的上角標(biāo)4代表它的維度是4,。

利用矩陣的奇異值分解法（Singular Value Decomposition, SVD）,，級(jí)聯(lián)MZI可以實(shí)現(xiàn)任意矩陣的乘法。SVD是說,，任意m × n的矩陣M,，可以表示為三個(gè)矩陣的乘積，M = UEV,，其中U是n × n的酉矩陣,，V是m × m的酉矩陣，E是m × n的對(duì)角矩陣（對(duì)角線以外全是0）,。這三個(gè)矩陣都可以用級(jí)聯(lián)MZI來表示,，對(duì)角矩陣更簡(jiǎn)單，用n個(gè)MZI光衰減器就可以,。注意一般的n × n方陣也需要用SVD分解,，因?yàn)榭赡懿皇怯暇仃嚒?/p>

圖為級(jí)聯(lián)MZI構(gòu)成的光學(xué)干涉單元（Optical Interference Unit，OIU）,。這些設(shè)計(jì)已經(jīng)有實(shí)際的光子芯片應(yīng)用了,。MZI概念上是光子芯片的元器件，有時(shí)需要非常多的數(shù)量,，如64 × 64的矩陣乘法就需要8128個(gè)MZI,。

近來非常流行的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)，最常用的基礎(chǔ)運(yùn)算是卷積,。而透鏡衍射的傅立葉變換就可以模擬卷積運(yùn)算,，因此用光學(xué)元器件模擬深度神經(jīng)網(wǎng)絡(luò)是可行的,，這就是光學(xué)神經(jīng)網(wǎng)絡(luò)（Optical Neural Network, ONN）。圖為一個(gè)手寫數(shù)字識(shí)別ONN,，一個(gè)空間光調(diào)制器（SLM,，Spatial Light Modulator）就相當(dāng)于深度神經(jīng)網(wǎng)絡(luò)中的一層。有一個(gè)實(shí)體的掩碼板（weight mask）,，等于是權(quán)重系數(shù),，放在光路中作為系數(shù)調(diào)制卷積過程。L7作逆的傅立葉變換,，把光線聚焦到CCD中的某個(gè)區(qū)域,。運(yùn)行起來效果是，輸入端光線代表的數(shù)字,，經(jīng)過透鏡與掩碼組,，最后總能神奇地聚焦到CCD的對(duì)應(yīng)區(qū)域。這個(gè)過程的數(shù)學(xué)解釋,，就是深度神經(jīng)網(wǎng)絡(luò),。

光計(jì)算有低能耗的特性，但是因?yàn)橛?jì)算機(jī)系統(tǒng)沒法解讀光信號(hào),，實(shí)際應(yīng)用時(shí)還需要光電轉(zhuǎn)換以及最終輸出處理環(huán)節(jié),。

傳統(tǒng)的光計(jì)算應(yīng)用過程，摘自ACCEL論文

圖為傳統(tǒng)的圖像識(shí)別光計(jì)算應(yīng)用過程,，小車的圖像是光信號(hào)輸入,，經(jīng)過MZI光計(jì)算、D2NN（就是一種ONN,，衍射深度神經(jīng)網(wǎng)絡(luò)）處理,，形成了特征明顯的光信號(hào)。但這些光信號(hào)要經(jīng)過很多photodiode（光電二極管）轉(zhuǎn)成電信號(hào)（基于光電效應(yīng)）,，再從電信號(hào)經(jīng)ADC（模數(shù)轉(zhuǎn)換）變成數(shù)字信號(hào)進(jìn)入計(jì)算機(jī)內(nèi)存,，還要跑一個(gè)小型數(shù)字神經(jīng)網(wǎng)絡(luò)全連接層（在光信號(hào)那里做不方便），最終形成識(shí)別結(jié)果,，認(rèn)出是小汽車,。

這個(gè)傳統(tǒng)光計(jì)算應(yīng)用架構(gòu)缺點(diǎn)很大。說是光子零能耗,，但是大規(guī)模的光電轉(zhuǎn)換,、ADC轉(zhuǎn)換非常耗能。光線在眾多級(jí)聯(lián)MZI,、透鏡掩碼組里傳播,、干涉、衍射，這個(gè)過程并不是很靠譜,，也就是“非線性”,，元器件一多就不靈了。而且也不抗干擾,，光線稍有點(diǎn)環(huán)境擾動(dòng)結(jié)果就不對(duì),。相比之下,，基于電子的芯片就很靠譜,，信號(hào)在上百億個(gè)晶體管之間傳送都不會(huì)錯(cuò)。所以傳統(tǒng)的光計(jì)算多年來都只能“展示潛力”,，如果是關(guān)心前沿技術(shù)進(jìn)展的朋友,，會(huì)經(jīng)常在文章中看到它，但從來不見它大規(guī)模應(yīng)用,。這就是因?yàn)樗鼞?yīng)用不方便,，從光信號(hào)到數(shù)字信號(hào)過程生硬，光電融合得不好,。

了解了這些背景,，才能明白清華團(tuán)隊(duì)ACCEL的進(jìn)步。它巧妙地融合了光子與電子各自的特性優(yōu)勢(shì),，所以叫光電融合芯片,。ACCEL的全稱是All-analog Chip Combining Electronic and Light computing，全模擬電光計(jì)算融合芯片,，這里的重點(diǎn)除了光電融合,，就是All-analog，全程模擬信號(hào),，省去了耗能的ADC環(huán)節(jié),。

ACCEL的架構(gòu)

ACCEL的圖像識(shí)別過程，分為OAC（Optical Analog Computing,，光模擬計(jì)算）和EAC（Electronic Analog Computing,，電模擬計(jì)算）兩個(gè)環(huán)節(jié)。小車的光學(xué)圖像包含極多光學(xué)信號(hào),，經(jīng)過光學(xué)元器件陣列,，不斷進(jìn)行“特征提取”，相當(dāng)于用ONN實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)運(yùn)算,，在OAC里生成了小量光學(xué)信號(hào)（但包含了關(guān)鍵信息）,。OAC輸出的光信號(hào)，經(jīng)過少量光電二極管陣列轉(zhuǎn)換（只有32 × 32個(gè)）,，變成電信號(hào)（仍然是模擬信號(hào)）,。這些電信號(hào)在EAC里的SRAM陣列里傳輸，用巧妙的辦法模擬了一個(gè)神經(jīng)網(wǎng)絡(luò)全連接層。最后電信號(hào)形成了簡(jiǎn)單的脈沖序列輸出,，完成識(shí)別過程,。

可以看出，OAC借鑒了ONN的技術(shù),，主要的創(chuàng)新是在EAC環(huán)節(jié),。SRAM是static random-access memory，存儲(chǔ)一個(gè)比特,。EAC模擬實(shí)現(xiàn)了一個(gè)二值化的神經(jīng)網(wǎng)絡(luò)全連接層,。全連接是模式識(shí)別的深度神經(jīng)網(wǎng)絡(luò)最后一層常用辦法，EAC里是1024 × N的全連接（1024就是32 × 32個(gè)從OAC轉(zhuǎn)換來的電信號(hào),，N是需要識(shí)別的物體種類數(shù),，ACCEL里N小于等于16）。

二值化神經(jīng)網(wǎng)絡(luò)連接是說,，權(quán)重系數(shù)只有兩種狀態(tài)（正和負(fù)）,。每個(gè)從光信號(hào)轉(zhuǎn)來的電信號(hào)，會(huì)根據(jù)其連接的SRAM存儲(chǔ)的比特值是0還是1,，決定連到V+還是V-這兩條線之一,。兩條線各有一些電信號(hào)連過來，先各自根據(jù)基爾霍夫定律合并出電流值,，再在輸出Node互相比較電流大小,，得出一個(gè)電壓差脈沖輸出。如果有N個(gè)物體需要分辨,，從OAC轉(zhuǎn)換來的電信號(hào)會(huì)同時(shí)接到N組SRAM里,，組合出N個(gè)脈沖輸出。最后脈沖在Comparator里比較,，哪個(gè)大就代表識(shí)別結(jié)果是它,。神經(jīng)網(wǎng)絡(luò)訓(xùn)練，就是根據(jù)正確輸出結(jié)果,，告訴EAC,，對(duì)應(yīng)Node輸出的脈沖大了、小了,，反向去修改SRAM里的0和1值,。訓(xùn)練好了，1024×N個(gè)SRAM里就存儲(chǔ)了一套權(quán)重系數(shù),，可以用于模式識(shí)別了,。

整個(gè)過程很巧妙，EAC的輸出直接就識(shí)別好了,，不需要再在傳統(tǒng)計(jì)算機(jī)里計(jì)算處理,。所以，ACCEL芯片實(shí)現(xiàn)了完整的圖像識(shí)別計(jì)算過程。它里面有光學(xué)信號(hào),、電信號(hào),，在一級(jí)級(jí)傳輸，有個(gè)計(jì)算過程,，但完全沒有傳統(tǒng)芯片的數(shù)字邏輯過程,。所以叫做All-analog，全程模擬信號(hào),，不需要ADC轉(zhuǎn)換,，這就非常厲害了，能效極高,。

ACCEL的優(yōu)點(diǎn)有多種,。在OAC環(huán)節(jié),，光學(xué)圖像輸入包含海量的細(xì)節(jié),，用透鏡和掩碼組不斷變換，最后就形成32×32的小規(guī)模輸出,。這個(gè)特征提取過程非常重要,，它是光電融合芯片能快速計(jì)算的主要功臣，是一個(gè)光學(xué)過程,，光速,、低時(shí)延、低能耗,。這個(gè)過程如果用傳統(tǒng)芯片來做,，需要非常多的晶體管，而且并行不容易,，需要GPU加速,。光學(xué)過程天然就是并行的，而且實(shí)現(xiàn)簡(jiǎn)單,。

但OAC的輸出是“抽象”的,，誰也看不懂。如果導(dǎo)入傳統(tǒng)計(jì)算機(jī)系統(tǒng)里解讀,，就又引入了傳統(tǒng)內(nèi)存與邏輯芯片的弱點(diǎn),，還不如只用傳統(tǒng)芯片處理簡(jiǎn)單。ACCEL用EAC去解讀OAC的輸出,，用SRAM陣列很簡(jiǎn)單地就進(jìn)行了電流計(jì)算,，最終的電流脈沖結(jié)果能和識(shí)別結(jié)果很好地對(duì)應(yīng)上，這是一個(gè)讓人叫絕的辦法,。

架構(gòu)設(shè)計(jì)不錯(cuò),，還要評(píng)估實(shí)際效果。清華研究團(tuán)隊(duì)對(duì)MNIST、ImageNet數(shù)據(jù)集的幾個(gè)典型學(xué)術(shù)研究型案例,，評(píng)估了運(yùn)行效果,。這些案例包括，10個(gè)手寫數(shù)字的識(shí)別,、3類圖形樣例的識(shí)別,，還有一個(gè)視頻行為的分類識(shí)別。

要注意,，ACCEL芯片架構(gòu)評(píng)估其實(shí)不需要實(shí)際造出芯片,，可以先模擬評(píng)估。就如同芯片設(shè)計(jì)時(shí),，可以選用工具軟件模擬運(yùn)行看效果,，看設(shè)計(jì)是否成功。ACCEL的OAC和EAC的信號(hào)處理行為,，都可以用計(jì)算機(jī)模擬出來,。模擬運(yùn)行、訓(xùn)練神經(jīng)網(wǎng)絡(luò),，驗(yàn)證架構(gòu)可行性,、模式識(shí)別效果讓人滿意，再去實(shí)際造出ACCEL,。

這種模擬就能發(fā)現(xiàn)傳統(tǒng)光計(jì)算芯片的弱點(diǎn)了,。如ImageNet中256×256的圖像分類識(shí)別，對(duì)傳統(tǒng)光計(jì)算架構(gòu)很困難,，因?yàn)橐藕芏郙ZI,，需要的ONN層數(shù)較多，會(huì)導(dǎo)致光信號(hào)在光路上經(jīng)過的環(huán)節(jié)過多,，非線性特性發(fā)作,，性能亂套。ACCEL對(duì)這類較大的圖像還能應(yīng)付過來,，說明架構(gòu)上比傳統(tǒng)光計(jì)算要強(qiáng)很多,。

但是需要指出，ACCEL模擬評(píng)估的方法,，就說明它仍然是一個(gè)研究型的芯片,。這些評(píng)估的任務(wù)是相對(duì)簡(jiǎn)單的，如對(duì)ImageNet中的三類物體進(jìn)行分辯,，栗色馬,、救護(hù)車、衣柜,。ACCEL的識(shí)別率是80.7%,，這聽起來不高,，但仍然高于它的比較對(duì)象、一個(gè)傳統(tǒng)數(shù)字神經(jīng)網(wǎng)絡(luò)的75.3%,。為什么呢,？因?yàn)檫@個(gè)比較對(duì)象只是一個(gè)三層的簡(jiǎn)單網(wǎng)絡(luò)。顯然這意味著雙方離真正應(yīng)用都很遠(yuǎn)?，F(xiàn)在真正實(shí)用的深度學(xué)習(xí)模式識(shí)別的識(shí)別率很高,，能夠處理的圖片較大，應(yīng)用的神經(jīng)網(wǎng)絡(luò)層數(shù)非常多,，跟這種“玩具模型”不是同一層面的,。

之后，清華團(tuán)隊(duì)實(shí)際造出了ACCEL芯片,，進(jìn)行了評(píng)估,。但由于其研究型目的，用的工藝是相對(duì)簡(jiǎn)單的,。傳統(tǒng)光計(jì)算芯片的問題是,，在制造過程中，會(huì)出現(xiàn)光路對(duì)齊,、信號(hào)噪聲之類的缺陷,，大大影響實(shí)際表現(xiàn),。ACCEL由于芯片架構(gòu)簡(jiǎn)單,，所以在這方面表現(xiàn)好一些，制造引入的缺陷少,，信號(hào)噪聲,、低光照條件下表現(xiàn)不錯(cuò)，也是一個(gè)優(yōu)點(diǎn),。ACCEL就算造的不完美,，因?yàn)闄?quán)重是根據(jù)實(shí)際樣例訓(xùn)練的，能在訓(xùn)練中糾正一些,。

ACCEL制造出來后,，在一些測(cè)試樣例中，識(shí)別率表現(xiàn)和模擬評(píng)估一致,，有的數(shù)值稍差一點(diǎn)但可以理解,。到這一步，才說明芯片設(shè)計(jì)和制造算是成功的,，實(shí)現(xiàn)了意圖,，之后對(duì)于優(yōu)越性能的說明才有意義。

總體來說,，ACCEL識(shí)別率方面的性能指標(biāo)還不錯(cuò),。一個(gè)特別大的優(yōu)點(diǎn)是,，在低照度的情況下，傳統(tǒng)辦法全部會(huì)失敗,，但ACCEL還能很好地處理,。這是因?yàn)槠渌軜?gòu)都需要ADC模數(shù)轉(zhuǎn)換，信號(hào)強(qiáng)度不夠就不行了,。而ACCEL在低照度情況下,，模擬信號(hào)仍然能正常地自然運(yùn)算，直到整個(gè)計(jì)算完成,。

現(xiàn)在我們回到文章開頭的問題,，新聞里說的“算力是商用GPU的3000多倍”，這話究竟對(duì)不對(duì)呢,？其實(shí)完全誤導(dǎo),，它只能理解為一種形容，并不是實(shí)際的算力表現(xiàn),。

首先來理解一下,，這個(gè)說法是怎么來的。ACCEL的優(yōu)點(diǎn)是,，它就是一個(gè)光信號(hào),、電信號(hào)傳播的過程，不象傳統(tǒng)芯片那樣計(jì)算速度受限于“時(shí)鐘周期”,?？梢韵胂螅瑐鹘y(tǒng)芯片的計(jì)算過程是一步步的,，象僵直的機(jī)器人一樣一個(gè)節(jié)拍動(dòng)一下,。而ACCEL是一個(gè)流水一樣的自然過程，幾乎沒有卡頓,，雖然有時(shí)鐘周期,，但不太受限制，只有SRAM存儲(chǔ)更新之類的明顯需要節(jié)拍的地方會(huì)用到,。

實(shí)測(cè)下來,，ACCEL用2-9個(gè)納秒就能完成一幅圖像的處理。1納秒是十億分之一秒,，是100萬之一毫秒,。通常人們用CPU處理一幅圖像識(shí)別是幾十到幾百毫秒，用GPU加速也要幾個(gè)毫秒,。也就是說,，ACCEL的處理時(shí)間只有一般芯片的百萬分之一以下。

因此,，可以認(rèn)為ACCEL的時(shí)鐘頻率是500M,，也就是一個(gè)時(shí)鐘周期2納秒,。等于是說，幾個(gè)時(shí)鐘周期,，ACCEL就把計(jì)算任務(wù)辦完了,。而在傳統(tǒng)計(jì)算機(jī)里，無論是CPU還是GPU,，這類計(jì)算任務(wù)都要很多個(gè)時(shí)鐘周期的,，做個(gè)乘法就要好多步。并行是說,，海量數(shù)據(jù)可以組成向量加速,，但對(duì)某個(gè)數(shù)據(jù)處理的時(shí)鐘周期是省不了的。

所以清華論文報(bào)告說,，在進(jìn)行ImageNet三類物體分類時(shí),，ACCEL的計(jì)算速度約相當(dāng)于4550個(gè)TOPS。TOPS是Tera Operations Per Second,，代表每秒1萬億次操作,。這個(gè)計(jì)算速度確實(shí)能有商用GPU的3000多倍，因?yàn)镚PU每秒能有1萬億次操作已經(jīng)很好了,。所謂“算力是商用GPU的3000多倍”,，就是這么來的。但這個(gè)說法,，究竟是哪里不對(duì)呢,？

真正的問題，在于持續(xù)計(jì)算,。ACCEL確實(shí)能在幾納秒之內(nèi)處理一幅圖像的光信號(hào),，但它能不能持續(xù)運(yùn)算，真的用一秒時(shí)間,，完成4550TOPS的運(yùn)算量？這就不行了,，因?yàn)闇?zhǔn)備任務(wù)是需要時(shí)間的,。例如以它的計(jì)算速度，一秒能處理1億個(gè)圖片,，但把這么多圖片的光信號(hào)在一秒內(nèi)發(fā)送給它,，是不可能的。實(shí)際準(zhǔn)備一個(gè)圖片需要的時(shí)間就不短,，真正的瓶頸是在這兒,。

ACCEL芯片測(cè)試準(zhǔn)備

ACCEL芯片是一個(gè)光電芯片，它的輸入是光信號(hào),，要把它運(yùn)行起來,，需要準(zhǔn)備好光信號(hào)輸入,，而這是個(gè)相當(dāng)復(fù)雜的任務(wù)。按論文描述,，清華團(tuán)隊(duì)要搭起光學(xué)鏡片組,，才能將識(shí)別目標(biāo)的光信號(hào)輸入給ACCEL進(jìn)行處理，換下一個(gè)識(shí)別目標(biāo)要不少操作,。而GPU,、CPU在計(jì)算機(jī)系統(tǒng)中應(yīng)用多年了，處理輸入已經(jīng)很成熟了,，所以能將海量數(shù)據(jù)組織起來,，象流水線一樣送到運(yùn)算核心不停處理。高性能GPU的核心技術(shù)之一,，就是海量數(shù)據(jù)輸入管理,，要用到上百G的高速存儲(chǔ)器，多級(jí)緩存,。

所以,，論總的算力ACCEL并不大，它只是對(duì)整個(gè)流程中的一步處理得極快,，而這一步快的代價(jià)是另一些步驟慢,。一個(gè)比喻是，一個(gè)士兵面前正好有一個(gè)敵人,，他開槍只用1秒鐘就消滅了一個(gè)敵人,。但這不代表他可以一小時(shí)消滅3600個(gè)敵人，更不是說他可以一個(gè)人頂3000多個(gè)人,。如果有人說他的“戰(zhàn)力”有3000多個(gè)士兵這么多,，這就錯(cuò)得離譜。再一個(gè)比喻是,，一張弓,，可以在1秒內(nèi)讓箭飛出100米，速度很快,。但是,，不能說它的“運(yùn)送能力”是1小時(shí)360公里，因?yàn)闆]法持續(xù)飛,。如果射一箭,，人走過去再射一箭，這樣接力,，一小時(shí)跑不了多遠(yuǎn),。

如果是了解可控核聚變的朋友，可能會(huì)想到另一個(gè)更有技術(shù)含量的比喻,?？煽睾司圩冇袃蓷l途徑,，磁約束和慣性約束。我們平時(shí)經(jīng)?？吹叫侣劦腅AST,、ITER等托卡馬克屬于磁約束，而激光打靶屬于慣性約束,。2022年12月,，美國(guó)國(guó)家點(diǎn)火裝置（NIF）實(shí)現(xiàn)了一個(gè)里程碑，能量輸出超過了輸入,。然而,，這意味著慣性約束聚變能用來發(fā)電了嗎？其實(shí)還差得遠(yuǎn),。原因有很多,，其中之一就是激光打靶是不連續(xù)的，聚變反應(yīng)時(shí)間只有幾納秒,，而準(zhǔn)備一次打靶卻要一天（美國(guó)NIF激光聚變“點(diǎn)火”成功,，聚變電站還遠(yuǎn)嗎？｜DrSHI觀科技）,。這比“一曝十寒”還夸張,，是“納秒曝一天寒”，所以總的效率非常低,，離實(shí)用還很遠(yuǎn),。

而相比之下，GPU的算力就是真實(shí)的,，它確實(shí)能連續(xù)一直跑,，跑到芯片發(fā)燙，人人都能聽見風(fēng)扇的聲音,。GPU應(yīng)用時(shí),，會(huì)有配套的計(jì)算機(jī)系統(tǒng)、應(yīng)用程序,、CUDA驅(qū)動(dòng)支持,，有時(shí)需要上百G的HBM3快速存儲(chǔ)，這都是為了連續(xù)處理海量數(shù)據(jù),。

另一個(gè)指標(biāo)是與能耗相關(guān)的。ACCEL幾乎不用能量,，只有激光,、SRAM用一點(diǎn)，能耗指標(biāo)非常優(yōu)秀,。論文中給出的能耗指標(biāo)是74800TOPS每瓦,，這就是新聞中提到的“能效提升四百萬倍”,。

同樣的道理，這種說法也是很誤導(dǎo)的,。這是因?yàn)锳CCEL處理整個(gè)流程中的一步幾乎不用能量,，而不是ACCEL真用了與CPU或GPU相當(dāng)?shù)哪芰浚瓿闪怂陌俣嗳f倍的運(yùn)算,。一個(gè)比喻是,，一只螞蟻幾乎不用能量就能爬1米，能耗效率比人要高多了,。但是人可以把10斤重的箱子提起來,，螞蟻卻不可能做到。

最后,，我們來總結(jié)一下,。清華ACCEL芯片融合了光電的特性，是非常巧妙的芯片架構(gòu),，技術(shù)指標(biāo)優(yōu)秀,，將光計(jì)算的潛力進(jìn)一步展示。所以這個(gè)工作發(fā)表在《自然》上,，引發(fā)了相當(dāng)?shù)霓Z動(dòng),。它的快速計(jì)算、低功耗的特性,，正如論文中提到的,，在可穿戴設(shè)備、自動(dòng)駕駛,、工業(yè)檢測(cè)等領(lǐng)域很有應(yīng)用前景,。應(yīng)該說清華團(tuán)隊(duì)的總結(jié)是清醒的，在這些領(lǐng)域視頻圖像信號(hào)能低功耗快速處理,，會(huì)是不錯(cuò)的應(yīng)用,。

但是，一些媒體將指標(biāo)引申到與GPU對(duì)比,，認(rèn)為ACCEL的算力與功耗指標(biāo)比GPU好得多,，甚至暗示ACCEL可能解決先進(jìn)GPU問題，這就完全誤讀了,。一方面的問題是,，GPU有“通用計(jì)算”能力，能完成很多復(fù)雜任務(wù),，而ACCEL只用于視頻與圖像模式識(shí)別,，應(yīng)用領(lǐng)域較窄。但根本的問題是，指標(biāo)對(duì)比方法錯(cuò)誤,。這種比法對(duì)ACCEL來說是只看到優(yōu)勢(shì),，沒看到代價(jià)，對(duì)GPU來說是忽視了GPU連續(xù)計(jì)算的能力,。

更深層次的問題是,，媒體為什么經(jīng)常犯這種錯(cuò)誤呢？恐怕是因?yàn)樗麄兛傁敫銈€(gè)大新聞,，而忽略了提高知識(shí)水平,。

(責(zé)任編輯：?jiǎn)虌?TT0002)

關(guān)閉

清華光電融合芯片算力是GPU的3000多倍,？媒體搞出的大新聞

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)