EIE結(jié)構(gòu)與算法映射

首發(fā)于個人博客

算法基礎(chǔ)

EIE（Efficient Inference Engine）的算法基礎(chǔ)是一種被稱為Deep Compression的神經(jīng)網(wǎng)絡(luò)壓縮算法。EIE可以說是為Deep Compression量身定制的硬件，Deep Compression的算法流程如下所示：

剪枝：將小于某個閾值的權(quán)值直接置為0南窗，這一操作引入權(quán)值的稀疏性
量化：這里的量化是一種非線性量化珊蟀，通過k近鄰類聚算法確定量化中心和量化間隔
編碼：原文中使用霍夫曼編碼壓縮權(quán)值的存儲辙纬，EIE中使用CSC壓縮存儲方式

Deep Compression壓縮

Deep Compression壓縮分為剪枝批什、量化和編碼操作卧斟。其中剪枝為對所有權(quán)值做以下操作：
$pruning(x) = \begin{cases}x & x > T \\ 0 & x \leq T\end{cases}$
其中T為剪枝閾值糠涛，該步驟將所有小于剪枝閾值T的權(quán)值置為0援奢，引入了權(quán)值的稀疏性。原文中對于VGG結(jié)構(gòu)的剪枝后忍捡，卷積層的非零參數(shù)量一般還剩原參數(shù)量的30%~60%中集漾，全連接層的非零參數(shù)量一般僅剩5%以下，由于全連接層參數(shù)占參數(shù)的主要部分砸脊，因此全網(wǎng)絡(luò)的非零參數(shù)量僅剩下原有的7.5%具篇。考慮VGG是比較容易產(chǎn)生冗余的網(wǎng)絡(luò)凌埂，因此對其他網(wǎng)絡(luò)的剪枝效果可能差于VGG網(wǎng)絡(luò)驱显。剪枝閾值T在剪枝過程中為超參數(shù)，需要綜合考慮剪枝效果和剪枝后網(wǎng)絡(luò)的性能表現(xiàn)多次試驗確定瞳抓。

量化操作為對于每個層埃疫，使用k-近鄰類聚算法類聚。類聚算法產(chǎn)生指定數(shù)量的類聚中心挨下，所有屬于某一類的權(quán)值都被直接賦予類聚中心的值熔恢。隨后使用修改過的優(yōu)化算法運行一定輪數(shù)的訓(xùn)練，調(diào)整類聚中心的值（權(quán)值從屬關(guān)系不改變）臭笆，具體過程參見Deep Compression論文叙淌，這里僅考慮結(jié)果秤掌，進行完量化后，每一層的權(quán)值張量變?yōu)橐粋€同形狀的標號張量和一個解碼表鹰霍。標號張量標記每個位置的元素屬于的類別闻鉴，一般僅有2_{5bit（即分為4}32類）；解碼表標記每個類別的數(shù)據(jù)茂洒，如下圖所示：

quantize.png

現(xiàn)在考慮量化對實現(xiàn)的影響孟岛。原有的高精度權(quán)值張量（取 $D_H$ bit）的非零參數(shù)量為M，則需要的存儲空間為 $M \times D_H$ bit督勺。量化后權(quán)值張量改為標號張量渠羞，標號的位數(shù)一般遠遠低于權(quán)值數(shù)據(jù)，取為 $D_L$ 智哀，需要存儲空間為 $M \times D_L$ 次询；另考慮編碼表，編碼表需要的bit數(shù)為 $2^{D_L} \times D_H$ 瓷叫。則量化后權(quán)值需要的存儲空間占原有比例為：
$R_w = \frac{M \times D_L + 2^{D_L} \times D_H}{M \times D_H} = \frac{D_L}{D_H} + \frac{2^{D_L}}{M}$
$D_L$ 一般來說僅有5bit（VGG網(wǎng)絡(luò)）屯吊，因此有 $M >> 2^{D_L}$ ，則可以發(fā)現(xiàn)將權(quán)值的存儲空間降低到 $\frac{5}{32} = 15.625\%$ 摹菠，有效的緩解了存儲瓶頸盒卸。但是權(quán)值使用時，需要根據(jù)標號張量中的標號從編碼表中查詢權(quán)值次氨，再將其與輸入進行運算蔽介，比原有矩陣直接運算多一步查詢，需要通過硬件查詢糟需。

Deep Compression論文中為了進一步壓縮權(quán)值的存儲屉佳，在量化后使用霍夫曼編碼壓縮矩陣的存儲。EIE為了方便的硬件實現(xiàn)洲押，使用CSC方法壓縮稀疏權(quán)值矩陣武花。

CSC稀疏矩陣表示

CSC（compressed sparse column）為一種稀疏矩陣的表示方法，其將一個稀疏矩陣壓縮表示為三個向量杈帐。首先考慮向量的壓縮方法体箕，每個稀疏向量被壓縮為兩個非稀疏向量，如下所示的向量：
$[0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3]$
將其壓縮為兩個長度相等的向量挑童，第一個向量為按順序排列的所有的非稀疏元素累铅，第二個向量為對應(yīng)位置的非稀疏元素與前面一個非稀疏元素中間的0數(shù)量，上述向量壓縮完成如下所示：
$v = [1, 2, 0, 3] \\ z = [2, 0, 15, 2]$
u為非零元素站叼，z為兩個非零元素之間0的數(shù)量娃兽。例如 $v[0]=1,z[0]=2$ 表示第一個非0元素為1，該元素之前有2個零尽楔； $v[1]=2,z[1]=0$ 表示第二個非0元素為2投储，該元素之前沒有0（原向量中為 $[0,0,1,2,...$ ）第练。由于這里的z向量使用的為int4類型數(shù)據(jù)，因此第三個非零數(shù)據(jù)3之前的18個零超出了表示范圍玛荞，因此在v中添加一個0元素娇掏，即其中 $v[2]=0,z[2]=15$ 表示第三個數(shù)據(jù)為0，之前有15個0勋眯。這個數(shù)據(jù)并不是非零數(shù)據(jù)婴梧，是為了能使用int4表示18而額外補充的數(shù)據(jù)。之后的 $v[3]=3,z[3]=2$ 為要表示的數(shù)據(jù)3客蹋，之前有2個零塞蹭，和前一條一起表示間隔18個零的情況，如下圖所示：

csc_vector.png

隨后考慮矩陣的表示方法讶坯，CSC稀疏表示將矩陣的每一列視為一個向量進行壓縮浮还，每一列都產(chǎn)生一個v向量和一個z向量，第i列產(chǎn)生的向量 $v_i$ 和 $z_i$ 向量的長度和其他列均可能不同闽巩。將每一列的v向量按列號依次連接，z向量按列號依次連接担汤，獲得矩陣的v和z向量涎跨，為了區(qū)分不同列，額外引入u向量崭歧，u向量長度為列數(shù)加1隅很，表示每一列的v或z向量在矩陣v和z向量中的位置，即第i列的v和z向量在矩陣的v和z向量的第 $u[i]$ 個到第 $u[i+1] - 1$ 元素之間率碾，u[0]固定為0叔营。如下圖所示：

csc_matrix.png

最終，一個稀疏矩陣將被壓縮到三個向量U所宰、V和Z中绒尊，該方式僅保存非零數(shù)據(jù)（為了表示超過Z限制額外引入的0除外），同時Z和U向量使用的數(shù)據(jù)類型一般比U小仔粥，因此可以有效的壓縮稀疏矩陣婴谱。

EIE結(jié)構(gòu)

PE結(jié)構(gòu)

EIE（Efficient Inference Engine）作為一種Engine，主要作為加速器系統(tǒng)組件使用躯泰，因此論文中并未提出明確的系統(tǒng)架構(gòu)谭羔，而是重點描述了其PE的結(jié)構(gòu)，PE結(jié)構(gòu)圖如下：

eie_structure.png

PE按功能為以下幾個部分：

藍色底色部分為緩存部分麦向，分布緩存了CSC格式表示矩陣方法下的U瘟裸、V和Z向量以及Deep Compression產(chǎn)生的解碼表和產(chǎn)生的部分和輸出數(shù)據(jù)。
紫色底色部分為標號處理部分诵竭，標號累加為一個累加器话告，通過累加一個向量CSC表示中之前的元素的z部分產(chǎn)生該元素在向量中的實際絕對位置兼搏；列地址生成從矩陣從U向量中獲取某一列的數(shù)據(jù)在V和Z向量中的起始和結(jié)束位置。
橙色底色部分為算數(shù)運算部分超棺，輸入數(shù)據(jù)和解碼后的權(quán)值相乘并和之前的結(jié)構(gòu)相加向族，結(jié)果保存在輸出緩存中，當運算完成時棠绘，通過ReLu單元激活后輸出件相。

該PE如何映射運算將在后續(xù)章節(jié)[算法映射]中表述。

CSC編碼器

PE運算產(chǎn)生的結(jié)果并不是CSC方法表示氧苍。一般來說夜矗，在ReLU函數(shù)之前的輸出數(shù)據(jù)并不具有稀疏性，但是ReLU函數(shù)將所有負數(shù)輸出置為0让虐，引入了輸入\輸出數(shù)據(jù)的稀疏性紊撕，因此需要將輸出數(shù)據(jù)進行CSC編碼，CSC編碼器結(jié)構(gòu)如下所示：

nzd_structure.png

論文中PE以4個一組赡突，每個PE輸出一個輸出數(shù)據(jù)及其絕對標號对扶，非零數(shù)據(jù)檢測器從PE0的輸出數(shù)據(jù)開始依次檢測，若發(fā)現(xiàn)非0數(shù)據(jù)惭缰，則通過絕對標號計算CSC格式的相對標號浪南，同時輸出器數(shù)據(jù)和相對標號，實現(xiàn)CSC編碼漱受。

算法映射

矩陣-向量乘法

原論文中以4個PE為一組络凿，計算矩陣乘法。輸入權(quán)值和輸入數(shù)據(jù)以下圖為例：

eie_weight_data.png

矩陣乘法計算的目標為：
$Y = W \times X,W \in R^{a \times b}昂羡，X \in R^b$
上圖中絮记，有a=8、b=8虐先。權(quán)值矩陣的第i行數(shù)據(jù)保存在標號為 $i \% 4$ 的PE中并由該PE負責計算怨愤。第i個PE的所有權(quán)值行向量順序堆疊組成一個新權(quán)值矩陣 $W_i,W \in R^{(a//4) \times b}$ ，這里新權(quán)值矩陣為2行赴穗。標號為i的PE中存儲的是新權(quán)值矩陣 $W_i$ 的CSC表示憔四。

EIE映射算法的原理如下圖所示，綜合考慮輸入數(shù)據(jù)和權(quán)值的稀疏性般眉，將矩陣-向量乘法分解為多個向量相乘了赵，當且僅當對應(yīng)位置上的元素均不為0時才進行計算，因此可以減少很多0之間的運算甸赃。

eie_source.png

EIE的PE輸入為一個CSC格式壓縮的稀疏向量柿汛，將每個元素的數(shù)據(jù)和標號（v和z）依次輸入數(shù)據(jù)隊列和標號隊列。處理一個數(shù)據(jù)時，從數(shù)據(jù)隊列中取出數(shù)據(jù)D并從標號隊列中取出標號 $I_z$ 络断，標號 $I_z$ 通過標號累加器變?yōu)橄蛄康慕^對坐標I裁替。以上圖中所述第一個數(shù)據(jù)X0為例，其相z元素為0貌笨，即之前沒有0弱判，因此X0的絕對位置為0。輸入向量CSC格式累加過程如下所示：

eie_index_acc.png

隨后通過 $I//2$ 查詢奇數(shù)U緩存锥惋， $I // 2 + I \%2$ 查詢偶數(shù)緩存昌腰。分別從偶數(shù)U緩存和奇數(shù)U緩存中獲取地址各一個：

若I為奇數(shù)，則從奇數(shù)緩存中讀取的數(shù)據(jù)為起始地址 $U_s$ 膀跌，從偶數(shù)緩存中讀取的數(shù)據(jù)為結(jié)束地址 $U_e$
若I為偶數(shù)遭商，則從偶數(shù)緩存中讀取的數(shù)據(jù)為起始地址 $U_s$ ，從奇數(shù)緩存中讀取的數(shù)據(jù)為結(jié)束地址 $U_e$

對于X0而言捅伤，對應(yīng)絕對位置為0劫流，讀出起始地址為0，結(jié)束地址為1丛忆；對于X2祠汇，讀出起始地址為1，結(jié)束地址為2熄诡；對于X5座哩，讀取起始地址為3，讀取終止地址為4粮彤。對于 $U_s = U_e$ 的情況，說明該輸入數(shù)據(jù)對應(yīng)的列無非0數(shù)據(jù)姜骡，可直接跳過該輸入數(shù)據(jù)的處理過程导坟。隨后使用 $U_s$ 和 $U_e$ 之間的值（不包括 $U_e$ ，即 $[U_s,U_e)$ ）從V緩存和Z緩存中讀取權(quán)值圈澈。對于X0惫周，讀出權(quán)值 $W_{0,0}$ 和相對位置0，對于X2康栈，讀取權(quán)值 $W_{0,2}$ 和相對位置0递递；對于X5，讀取權(quán)值 $W_{4,5}$ 和相對位置1啥么。根據(jù)這些權(quán)值從編碼表中查詢真實權(quán)值登舞。相對位置進行與輸入相同的權(quán)值累加計算真實權(quán)值WI，計算結(jié)果分別為0悬荣、0和1菠秒。

隨后輸入數(shù)據(jù)與讀出的真實權(quán)值依次相乘，相乘的結(jié)果與輸出緩存中位置為WI的數(shù)據(jù)累加氯迂，過程如下所示：

eie_acc.png

累加完成后践叠，輸出緩存每個地址存儲的就是對應(yīng)絕對位置的輸出結(jié)果言缤，完成矩陣-向量乘法映射。

卷積映射

卷積映射在原論文中沒有提到禁灼，一下為基于結(jié)構(gòu)對映射卷積方式的猜測管挟，其映射卷積的方式可能為將卷積拆分為多個矩陣乘法實現(xiàn)，如下圖所示：

eie_conv.png

PE的輸入為廣播輸入弄捕，因此所有PE的輸入數(shù)據(jù)必須相同僻孝，而所有權(quán)值均為本地存儲，因此權(quán)值應(yīng)當不在PE之間交換察藐，由上推測出卷積的映射方法應(yīng)當將一個 $K \times K$ 的卷積變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=K%20%5Ctimes%20K" alt="K \times K" mathimg="1">個 $1 \times 1$ 卷積實現(xiàn)皮璧。上圖舉出了一種 $2 \times 2$ 卷積在EIE上實現(xiàn)的可能方案。每個PE計算一個輸出通道為CO+1分飞，輸入通道為CI+1的 $1 \times 1$ 卷積悴务，所有PE計算完成后，將結(jié)果錯位相加即可獲得 $2 \times 2$ 卷積的計算結(jié)果譬猫，錯位相加過程如下所示：

eie_conv_add.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末讯檐，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子染服，更是在濱河造成了極大的恐慌别洪，老刑警劉巖，帶你破解...
沈念sama閱讀 219,366評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件柳刮，死亡現(xiàn)場離奇詭異挖垛，居然都是意外死亡，警方通過查閱死者的電腦和手機秉颗，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門痢毒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人蚕甥，你說我怎么就攤上這事哪替。” “怎么了菇怀？”我有些...
開封第一講書人閱讀 165,689評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵凭舶，是天一觀的道長。經(jīng)常有香客問我爱沟，道長帅霜，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,925評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任呼伸，我火速辦了婚禮义屏，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己闽铐，他們只是感情好蝶怔，可當我...
茶點故事閱讀 67,942評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著兄墅，像睡著了一般踢星。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上隙咸，一...
開封第一講書人閱讀 51,727評論 1贊 305
城市分裂傳說
那天沐悦，我揣著相機與錄音，去河邊找鬼五督。笑死藏否，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的充包。我是一名探鬼主播副签，決...
沈念sama閱讀 40,447評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼基矮！你這毒婦竟也來了淆储？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,349評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤家浇，失蹤者是張志新（化名）和其女友劉穎本砰，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體钢悲，經(jīng)...
沈念sama閱讀 45,820評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡点额，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,990評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了莺琳。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咖楣。...
茶點故事閱讀 40,127評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖芦昔，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情娃肿，我是刑警寧澤咕缎，帶...
沈念sama閱讀 35,812評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站料扰，受9級特大地震影響凭豪，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜晒杈，卻給世界環(huán)境...
茶點故事閱讀 41,471評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一嫂伞、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦帖努、人聲如沸撰豺。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評論 0贊 22
一樁弒父案拼余，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽污桦。三九已至，卻和暖如春匙监，著一層夾襖步出監(jiān)牢的瞬間凡橱，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,142評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工亭姥，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留稼钩，地道東北人。一個月前我還...
沈念sama閱讀 48,388評論 3贊 373
代替公主和親
正文我出身青樓达罗，卻偏偏與公主長得像坝撑，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子氮块，可洞房花燭夜當晚...
茶點故事閱讀 45,066評論 2贊 355