為什么需要AI芯片
2010年以來大數(shù)據(jù)發(fā)展狡孔,傳統(tǒng)計(jì)算機(jī)架構(gòu)無法支撐深度學(xué)習(xí)的大規(guī)模計(jì)算需求。
- 傳統(tǒng)的馮·諾依曼結(jié)構(gòu)中,CPU 每執(zhí)行一條指令都需要從存儲(chǔ)器中讀取數(shù)據(jù)舶替,根據(jù)指令對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的操作嫂拴;CPU 的主要職責(zé)并不只是數(shù)據(jù)運(yùn)算播揪,還需要執(zhí)行存儲(chǔ)讀取、指令分析筒狠、分支跳轉(zhuǎn)等命令
- CPU的頻率猪狈、內(nèi)存帶寬條件,限制了處理器的性能辩恼,而深度學(xué)習(xí)算法需要海量數(shù)據(jù)處理
- 人工智能芯片目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu)雇庙,加速硬件計(jì)算能力,主要以 3 種類型的芯片為代表灶伊,即 GPU疆前、FPGA、ASIC聘萨,
但CPU依舊發(fā)揮著不可替代的作用竹椒;另一種是顛覆經(jīng)典的馮·諾依曼計(jì)算架構(gòu),采用類腦神經(jīng)結(jié)構(gòu)來提升計(jì)算能力米辐,以 IBM TrueNorth 芯片為代表
AI芯片定義
AI(Artificial Intelligence)Chip
廣義上:能運(yùn)行人工智能算法的芯片
通常指:針對(duì)人工智能算法做特殊加速設(shè)計(jì)的芯片胸完,以深度學(xué)習(xí)算法為主
AI芯片分類
AI芯片發(fā)展經(jīng)歷
近幾年國內(nèi)也是百花齊放书释,后續(xù)可以在補(bǔ)充
傳統(tǒng)CPU技術(shù)及其局限性
- CPU主要由由控制器和運(yùn)算器組成
ALU(arithmetic logic unit)用來數(shù)據(jù)計(jì)算,其他模塊用來保證指令有序執(zhí)行
CPU主頻(單位時(shí)間內(nèi)執(zhí)行指令的條數(shù))提高可提升速度 -
深度學(xué)習(xí)不需要太多程序指令需要海量數(shù)據(jù)舶吗,受限于功耗征冷,主頻無法無限制提升以滿足需要
image.png
并行加速計(jì)算的GPU
- GPU 圖像處理器,設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中的大規(guī)模并行計(jì)算
- 對(duì)比CPU結(jié)構(gòu):CPU大部分面積是控制器和寄存器誓琼,GPU有更多ALU
- GPUGPU(general purpose gpu检激,通用計(jì)算圖形處理器)
image.png
GPU發(fā)展 - 第一代(1999年以前):部分功能從CPU分離,實(shí)現(xiàn)硬件加速腹侣,對(duì)3D圖像加速叔收,不具備軟件編程特性
- 第二代(-2005年):硬件加速和有限編程,將T&L(transform and lighting)等工程從CPU分離傲隶,實(shí)現(xiàn)快速變化饺律,運(yùn)算速度超過CPU
- 第三代(2006年以后):可直接編寫程序,CUDA和CTM(close to the metal)跺株,打破圖像語言局限复濒,成為真正并行數(shù)據(jù)處理超級(jí)加速器
- 目前GPU廣泛用于分析圖片、視頻和音頻文件
-
局限性:
在推斷中乒省,對(duì)于單一輸入進(jìn)行處理時(shí)巧颈,并行計(jì)算的優(yōu)勢(shì)無法發(fā)揮
不能靈活配置硬件結(jié)構(gòu)、能效低(相對(duì)于FPGA)
image.png
半定制化的FPGA
- FPGA基于PAL袖扛、GAL砸泛、CPLD等可編程期間基礎(chǔ)上發(fā)展而來
用戶可多次燒入配置文件定義門電路及存儲(chǔ)器之間的連線(如可配置成一個(gè)微控制器MCU或一個(gè)音頻解碼器) - FPGA可進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算
- FPGA 一次性成本(光刻掩模制作成本)遠(yuǎn)低于ASIC,一般在芯片前期未量產(chǎn)需迭代時(shí)蛆封,是最佳選擇之一
- FPGA每個(gè)邏輯單元功能在重編程(燒入)時(shí)已確定唇礁,不需要指令,不用共享內(nèi)存惨篱,降低單位執(zhí)行的功耗
-
局限性
基本單一計(jì)算能力有限:大量細(xì)顆粒度基本單一盏筐,每個(gè)基本單元計(jì)算能力(依靠LUT查找表)遠(yuǎn)低于ALU
計(jì)算資源占比相對(duì)較低,大量資源被用于可配置的片上路由與連線
速度和功耗低于ASIC砸讳,價(jià)格貴(規(guī)模量產(chǎn)下成本遠(yuǎn)高于ASIC)
image.png
全定制化的ASIC
- 性能提升明顯
- 促進(jìn)下游AI芯片專用化机断,如無人駕駛、無人機(jī)绣夺、智能家居等
AI芯片技術(shù)比較(總結(jié)篇)
- CPU 通用性最強(qiáng)吏奸,但延遲嚴(yán)重,散熱高陶耍,效率最低
- GPU 通用性強(qiáng)奋蔚、速度快、效率高,特別適合用在深度學(xué)習(xí)訓(xùn)練方面泊碑,但是性能功耗比較低
- FPGA 具有低能耗坤按、高性能以及可編程等特性,相對(duì)于 CPU 與 GPU 有明顯的性能或者能耗優(yōu)勢(shì)馒过,但對(duì)使用者要求高
- ASIC 可以更有針對(duì)性地進(jìn)行硬件層次的優(yōu)化臭脓,從而獲得更好的性能、功耗比腹忽。但是ASIC 芯片的設(shè)計(jì)和制造需要大量的資金来累、較長的研發(fā)周期和工程周期,而且深度學(xué)習(xí)算法仍在快速發(fā)展窘奏,若深度學(xué)習(xí)算法發(fā)生大的變化嘹锁,F(xiàn)PGA 能很快改變架構(gòu),適應(yīng)最新的變化着裹,ASIC 類芯片一旦定制則難于進(jìn)行修改
-GPU配合CPU仍然是AI芯片的主流领猾,F(xiàn)PGA和AISC不斷優(yōu)化逐步占用更多市場份額,類腦芯片是長期發(fā)展方向
AI芯片代表企業(yè)
中科寒武紀(jì)
寒武紀(jì)是全球第一個(gè)成功流片并擁有成熟產(chǎn)品的 AI 芯片公司骇扇,擁有終端 AI 處理器 IP和云端高性能 AI 芯片兩條產(chǎn)品線
中星微
2016 年初摔竿,中星微推出了全球首款集成了神經(jīng)網(wǎng)絡(luò)處理器(NPU)的SVAC 視頻編解碼 SoC,使得智能分析結(jié)果可以與視頻數(shù)據(jù)同時(shí)編碼少孝,形成結(jié)構(gòu)化的視頻碼流继低。該技術(shù)被廣泛應(yīng)用于視頻監(jiān)控?cái)z像頭,開啟了安防監(jiān)控智能化的新時(shí)代韭山。自主設(shè)計(jì)的嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)采用了“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算”架構(gòu),專門針對(duì)深度學(xué)習(xí)算法進(jìn)行了優(yōu)化冷溃,具備高性能钱磅、低功耗、高集成度似枕、小尺寸等特點(diǎn)盖淡,特別適合物聯(lián)網(wǎng)前端智能的需求
地平線機(jī)器人
BPU(BrainProcessing Unit)是地平線機(jī)器人自主設(shè)計(jì)研發(fā)的高效人工智能處理器架構(gòu)IP,支持 ARM/GPU/FPGA/ASIC 實(shí)現(xiàn)凿歼,專注于自動(dòng)駕駛褪迟、人臉圖像辨識(shí)等專用領(lǐng)域
深鑒科技
深鑒科技將其開發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡(luò)處理器稱為 DPU。
深鑒公開發(fā)布了兩款 DPU:亞里士多德架構(gòu)和笛卡爾架構(gòu)答憔,其中味赃,亞里士多德架構(gòu)是針對(duì)卷積神經(jīng)網(wǎng)絡(luò) CNN 而設(shè)計(jì);笛卡爾架構(gòu)專為處DNN/RNN 網(wǎng)絡(luò)而設(shè)計(jì)虐拓,可對(duì)經(jīng)過結(jié)構(gòu)壓縮后的稀疏神經(jīng)網(wǎng)絡(luò)進(jìn)行極致高效的硬件加速
靈汐科技
致力于新一代神經(jīng)網(wǎng)絡(luò)處理器(Tianjic)開發(fā)心俗,特點(diǎn)在于既能夠高效支撐現(xiàn)有流行的機(jī)器學(xué)習(xí)算法(包括 CNN,MLP,LSTM 等網(wǎng)絡(luò)架構(gòu))城榛,也能夠支撐更仿腦的揪利、更具成長潛力的脈沖神經(jīng)網(wǎng)絡(luò)算法;使芯片具有高計(jì)算力狠持、高多任務(wù)并行度和較低功耗等優(yōu)點(diǎn)
啟英泰倫
語音識(shí)別芯片研發(fā)商疟位。啟英泰倫的CI1006是基于 ASIC 架構(gòu)的人工智能語音識(shí)別芯片,包含了腦神經(jīng)網(wǎng)絡(luò)處理硬件單元喘垂,能夠完美支持 DNN 運(yùn)算架構(gòu)甜刻,進(jìn)行高性能的數(shù)據(jù)并行計(jì)算,可極大的提高人工智能深度學(xué)習(xí)語音技術(shù)對(duì)大量數(shù)據(jù)的處理效率
百度
2017 年 8 月 Hot Chips 大會(huì)上發(fā)布了 XPU王污,這是一款 256 核罢吃、基于 FPGA 的云計(jì)算加速芯片。合作伙伴是賽思靈(Xilinx)昭齐。XPU 采用新一代 AI 處理架構(gòu)尿招,擁有 GPU 的通用性和 FPGA 的高效率和低能耗,對(duì)百度的深度學(xué)習(xí)平臺(tái) PaddlePaddle 做了高度的優(yōu)化和加速阱驾。據(jù)介紹就谜,XPU 關(guān)注計(jì)算密集型、基于規(guī)則的多樣化計(jì)算任務(wù)里覆,希望提高效率和性能丧荐,并帶來類似 CPU 的靈活性
華為
麒麟 970 搭載的神經(jīng)網(wǎng)絡(luò)處理器 NPU 采用了寒武紀(jì) IP
NPU 采用 HiAI移動(dòng)計(jì)算架構(gòu),在 FP16 下提供的運(yùn)算性能可以達(dá)到 1.92 TFLOPs喧枷,相比四個(gè) Cortex-A73 核心虹统,處理同樣的 AI 任務(wù),有大約具備 50 倍能效和 25 倍性能優(yōu)勢(shì)
英偉達(dá)(NVIDIA)
英偉達(dá)發(fā)明了 GPU隧甚,重新定義了現(xiàn)代計(jì)算機(jī)圖形技術(shù)车荔,徹底改變了并行計(jì)算
英偉達(dá)的 GPU 芯片可以讓大量處理器并行運(yùn)算,速度比 CPU 快十倍甚至幾十倍戚扳,因而成為絕大部分人工智能研究者和開發(fā)者的首選忧便。
自從 Google Brain 采用 1.6 萬個(gè) GPU 核訓(xùn)練 DNN 模型开缎,并在語音和圖像識(shí)別等領(lǐng)域獲得巨大成功以來寞蚌,英偉達(dá)已成為 AI 芯片市場中無可爭議的領(lǐng)導(dǎo)者
AMD
美國 AMD 半導(dǎo)體公司專門為計(jì)算機(jī)、通信和消費(fèi)電子行業(yè)設(shè)計(jì)和制造各種創(chuàng)新的微處理器(CPU葬馋、GPU砍艾、APU蒂教、主板芯片組、電視卡芯片等)脆荷,以及提供閃存和低功率處理器解決方案
AMD 擁有針對(duì) AI 和機(jī)器學(xué)習(xí)的高性能 Radeon Instinc 加速卡悴品,開放
式軟件平臺(tái) ROCm 等
2016 年宣布獨(dú)立開發(fā)一種名為 TPU 的全新的處理系統(tǒng)。TPU 是專門為機(jī)器學(xué)習(xí)應(yīng)用而設(shè)計(jì)的專用芯片。通過降低芯片的計(jì)算精度苔严,減少實(shí)現(xiàn)每個(gè)計(jì)算操作所需晶體管數(shù)量的方式定枷,讓芯片的每秒運(yùn)行的操作個(gè)數(shù)更高,這樣經(jīng)過精細(xì)調(diào)優(yōu)的機(jī)器學(xué)習(xí)模型就能在芯片上運(yùn)行得更快届氢,進(jìn)而更快地讓用戶得到更智能的結(jié)果欠窒。在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯杰的阿爾法狗,就是采用了谷歌的 TPU 系列芯片
高通
在智能手機(jī)芯片市場占據(jù)絕對(duì)優(yōu)勢(shì)的高通公司退子,其在人工智能方面已投資了 Clarifai 公司和中國“專注于物聯(lián)網(wǎng)人工智能服務(wù)”的云知聲
Nervana Systems
推出的 The Nervana Engine 是一個(gè)為深度學(xué)習(xí)專門定制和優(yōu)化的 ASIC 芯片岖妄。這個(gè)方案的實(shí)現(xiàn)得益于一項(xiàng)叫做 High Bandwidth Memory 的新型內(nèi)存技術(shù),這項(xiàng)技術(shù)同時(shí)擁有高容量和高速度寂祥,提供 32GB 的片上儲(chǔ)存和 8TB 每秒的內(nèi)存訪問速度荐虐。該公司目前提供一個(gè)人工智能服務(wù)“in the cloud”,他們聲稱這是世界上最快的且目前已被金融服務(wù)機(jī)構(gòu)丸凭、醫(yī)療保健提供者和政府機(jī)構(gòu)所使用的服務(wù)
Movidius(被 Intel 收購)
2016 年 9 月福扬,Intel 發(fā)表聲明收購了 Movidius。Movidius 專注于研發(fā)高性能視覺處理芯片惜犀。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器铛碑,加上專門的DSP 處理器和硬件加速電路來處理專門的視覺和圖像信號(hào)。這是一款以 DSP 架構(gòu)為基礎(chǔ)的視覺處理器虽界,在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比汽烦,可以將視覺計(jì)算普及到幾乎所有的嵌入式系統(tǒng)中。該芯片已被大量應(yīng)用在 Google 3D 項(xiàng)目的 Tango 手機(jī)莉御、大疆無人機(jī)撇吞、FLIR 智能紅外攝像機(jī)、航甘澹康深眸系列攝像機(jī)牍颈、華睿智能工業(yè)相機(jī)等產(chǎn)品中
IBM
IBM 很早以前就發(fā)布過 watson,投入了很多的實(shí)際應(yīng)用晴圾。除此之外颂砸,還啟動(dòng)了類腦芯片的研發(fā)噪奄,即 TrueNorth死姚。
TrueNorth 是 IBM 參與 DARPA 的研究項(xiàng)目 SyNapse 的最新成果。SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng)勤篮,而 SyNapse 正好是突觸的意思)都毒,其終極目標(biāo)是開發(fā)出打破馮·諾依曼體系結(jié)構(gòu)的計(jì)算機(jī)體系結(jié)構(gòu)
ARM
ARM 推出全新芯片架構(gòu) DynamIQ,通過這項(xiàng)技術(shù)碰缔,AI 芯片的性能有望在未來三到五年內(nèi)提升 50 倍
ARM的新CPU架構(gòu)將會(huì)通過為不同部分配置軟件的方式將多個(gè)處理核心集聚在一起账劲,這其中包括一個(gè)專門為 AI 算法設(shè)計(jì)的處理器。芯片廠商將可以為新處理器配置最多 8 個(gè)核心。同時(shí)為了能讓主流 AI 在自己的處理器上更好地運(yùn)行瀑焦,ARM 還將推出一系列軟件庫
CEVA
專注于 DSP 的 IP 供應(yīng)商腌且,擁有眾多的產(chǎn)品線。其中榛瓮,圖像和計(jì)算機(jī)視覺 DSP產(chǎn)品CEVA-XM4是第一個(gè)支持深度學(xué)習(xí)的可編程DSP铺董,而其發(fā)布的新一代型號(hào) CEVA-XM6,具有更優(yōu)的性能禀晓、更強(qiáng)大的計(jì)算能力以及更低的能耗
MIT/Eyeriss
MIT 的一個(gè)項(xiàng)目精续,還不是一個(gè)公司,從長遠(yuǎn)來看粹懒,如果進(jìn)展順利重付,很
可能孵化出一個(gè)新的公司。
Eyeriss 是一個(gè)高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件凫乖,該芯片內(nèi)建 168 個(gè)核心确垫,專門用來部署神經(jīng)網(wǎng)路(neural network),效能為一般 GPU 的 10 倍拣凹。其技術(shù)關(guān)鍵在于最小化 GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運(yùn)作過程通常會(huì)消耗大量的時(shí)間與能量):一般 GPU 內(nèi)的核心通常共享單一記憶體森爽,但 Eyeriss 的每個(gè)核心擁有屬于自己的記憶
體。
目前嚣镜,Eyeriss 主要定位在人臉識(shí)別和語音識(shí)別爬迟,可應(yīng)用在智能手機(jī)、穿戴式設(shè)備菊匿、機(jī)器人付呕、自動(dòng)駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上
Apple
Axx處理器集成了一個(gè)專用于機(jī)器學(xué)習(xí)的硬件——“神經(jīng)網(wǎng)絡(luò)引擎(Neural Engine)”
三星
三星已經(jīng)研發(fā)了許多種類的人工智能芯片。三星還投資了 Graphcore跌捆、深
鑒科技等人工智能芯片企業(yè)
AI芯片應(yīng)用
智能手機(jī)
如華為麒麟搭載了寒武紀(jì)的NPU徽职,蘋果手機(jī)內(nèi)置AXX Bionic芯片
ADAD(高級(jí)輔助駕駛系統(tǒng))
- ADAS需要處理海量由激光雷達(dá)、毫米波雷達(dá)佩厚、攝像頭等傳感器采集的實(shí)時(shí)數(shù)據(jù)
- ADAS 的中樞大腦——ADAS 芯片市場的主要廠商包括被英特爾收購的 Mobileye姆钉、2017 年被高通以 470 億美元驚人價(jià)格收購的 NXP,以及汽車電子的領(lǐng)軍企業(yè)英飛凌抄瓦。隨著英偉達(dá)推出自家基于 GPU 的 ADAS 解決方案 DrivePX2潮瓶,英偉達(dá)也加入到戰(zhàn)團(tuán)之中
- 相對(duì)于傳統(tǒng)的車輛控制方法,智能控制方法主要體現(xiàn)在對(duì)控制對(duì)象模型的運(yùn)用和綜合信息學(xué)習(xí)運(yùn)用上钙姊,包括神經(jīng)網(wǎng)絡(luò)控制和深度學(xué)習(xí)方法等毯辅,得益于 AI 芯片的飛速發(fā)展,這些算法已逐步在車輛控制中得到應(yīng)用
CV(computer vision)計(jì)算機(jī)視覺設(shè)備
如智能攝像頭煞额、無人機(jī)思恐、行車記錄儀沾谜、人臉識(shí)別迎賓機(jī)器人以及智能手寫板等設(shè)備,往往都具有本地端推斷的需要
計(jì)算機(jī)視覺領(lǐng)域全球領(lǐng)先的芯片提供商 Movidius胀莹,目前已被英特爾收購基跑,大疆無人機(jī)、好柩妫康威視和大華股份的智能監(jiān)控?cái)z像頭均使用了 Movidius 的 Myriad 系列芯片
國內(nèi)做計(jì)算機(jī)視覺技術(shù)的公司以初創(chuàng)公司為主涩僻,如商湯科技、曠視栈顷、騰訊優(yōu)圖逆日,以及云從、依圖等萄凤,部分公司會(huì)自然轉(zhuǎn)入CV芯片研發(fā)中
VR設(shè)備
代表為 HPU 芯片室抽,是微軟為自身 VR 設(shè)備 Hololens 研發(fā)定制的
語音交互設(shè)備
國內(nèi)有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內(nèi)置了為語音識(shí)別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)加速方案靡努,實(shí)現(xiàn)設(shè)備的語音離線識(shí)別
機(jī)器人
無論是家居機(jī)器人還是商用服務(wù)機(jī)器人均需要專用軟件+芯片的人工智能解決方案坪圾,公司如地平線機(jī)器人
發(fā)展趨勢(shì)
目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation,乘加計(jì)算)加速陣列來實(shí)現(xiàn)對(duì) CNN(卷積神經(jīng)網(wǎng)絡(luò))中最主要的卷積運(yùn)算的加速
問題
- 數(shù)據(jù)量大惑朦,內(nèi)存帶寬成為瓶頸兽泄,“memory wall”問題
- 內(nèi)存大量訪問和MAC陣列的大量運(yùn)算,AI芯片功耗增加
- 深度度學(xué)習(xí)算法的發(fā)展也是日新月異漾月,新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持病梢,即性能和靈活度之間的平衡問題
趨勢(shì)
-
更高效的大卷積解構(gòu)/復(fù)用
標(biāo)準(zhǔn) SIMD 的基礎(chǔ)上,CNN 由于其特殊的復(fù)用機(jī)制梁肿,可以進(jìn)一步減少總線上的數(shù)據(jù)通信蜓陌,如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個(gè)值得研究的方向
分解卷積可降低消耗
image.png -
更低的 Inference 計(jì)算/存儲(chǔ)位寬
神經(jīng)網(wǎng)絡(luò)參數(shù)/計(jì)算位寬的迅速減少——從 32 位浮點(diǎn)到 16 位浮點(diǎn)/定點(diǎn)吩蔑、8 位定點(diǎn)钮热,甚至是 4 位定點(diǎn)。在理論計(jì)算領(lǐng)域烛芬,2 位甚至 1 位參數(shù)位寬隧期,都已經(jīng)逐漸進(jìn)入實(shí)踐領(lǐng)域
逐層動(dòng)態(tài)定點(diǎn)方法
image.png - 更多樣的存儲(chǔ)器定制設(shè)計(jì)
當(dāng)計(jì)算部件不再成為神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)瓶頸時(shí),如何減少存儲(chǔ)器的訪問延時(shí)將會(huì)成為下一個(gè)研究方向赘娄。通常仆潮,離計(jì)算越近的存儲(chǔ)器速度越快,每字節(jié)的成本也越高擅憔,同時(shí)容量也越受限鸵闪,因此新型的存儲(chǔ)結(jié)構(gòu)也將應(yīng)運(yùn)而生 -
更稀疏的大規(guī)模向量實(shí)現(xiàn)
神經(jīng)網(wǎng)絡(luò)雖然大檐晕,但是暑诸,實(shí)際上有很多以零為輸入的情況蚌讼,此時(shí)稀疏計(jì)算可以高效的減少無用能效
五級(jí)流水線結(jié)構(gòu),在 Activation層后對(duì)下一次計(jì)算的必要性進(jìn)行預(yù)先判斷个榕,如果發(fā)現(xiàn)這是一個(gè)稀疏節(jié)點(diǎn)篡石,則觸發(fā) SKIP 信號(hào),避免乘法運(yùn)算的功耗西采,以達(dá)到減少無用功耗的
image.png
5.計(jì)算和存儲(chǔ)一體化
計(jì)算和存儲(chǔ)一體化(process-in-memory)技術(shù)凰萨,其要點(diǎn)是通過使用新型非易失性存儲(chǔ)(如ReRAM)器件,在存儲(chǔ)陣列里面加上神經(jīng)網(wǎng)絡(luò)計(jì)算功能械馆,從而省去數(shù)據(jù)搬移操作胖眷,即實(shí)現(xiàn)了計(jì)算存儲(chǔ)一體化的神經(jīng)網(wǎng)絡(luò)處理,在功耗性能方面可以獲得顯著提升