學(xué)號(hào):17020150042
姓名:宗澤民
原文鏈接:https://blog.csdn.net/DreamSeeker_1314/article/details/89069966?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.control
【嵌牛導(dǎo)讀】介紹CPU & GPU & TPU
【嵌牛鼻子】CPU & GPU & TPU
【嵌牛正文】
CPU
CPU( Central Processing Unit, 中央處理器)就是機(jī)器的“大腦”,也是布局謀略、發(fā)號(hào)施令膘侮、控制行動(dòng)的“總司令官”世吨。
CPU的結(jié)構(gòu)主要包括運(yùn)算器(ALU, Arithmetic and Logic Unit)颤诀、控制單元(CU, Control Unit)晾剖、寄存器(Register)励负、高速緩存器(Cache)和它們之間通訊的數(shù)據(jù)温亲、控制及狀態(tài)的總線(xiàn)棚壁。
簡(jiǎn)單來(lái)說(shuō)就是:計(jì)算單元、控制單元和存儲(chǔ)單元栈虚,架構(gòu)如下圖所示:
什么袖外?架構(gòu)記不住魂务?來(lái)曼验,我們換種表示方法:
嗯,大概就是這個(gè)意思。
從字面上我們也很好理解盗温,計(jì)算單元主要執(zhí)行算術(shù)運(yùn)算秽之、移位等操作以及地址運(yùn)算和轉(zhuǎn)換;存儲(chǔ)單元主要用于保存運(yùn)算中產(chǎn)生的數(shù)據(jù)以及指令等颖杏;控制單元則對(duì)指令譯碼纯陨,并且發(fā)出為完成每條指令所要執(zhí)行的各個(gè)操作的控制信號(hào)。
所以一條指令在CPU中執(zhí)行的過(guò)程是這樣的:讀取到指令后留储,通過(guò)指令總線(xiàn)送到控制器(黃色區(qū)域)中進(jìn)行譯碼翼抠,并發(fā)出相應(yīng)的操作控制信號(hào);然后運(yùn)算器(綠色區(qū)域)按照操作指令對(duì)數(shù)據(jù)進(jìn)行計(jì)算获讳,并通過(guò)數(shù)據(jù)總線(xiàn)將得到的數(shù)據(jù)存入數(shù)據(jù)緩存器(大塊橙色區(qū)域)阴颖。過(guò)程如下圖所示:
是不是有點(diǎn)兒復(fù)雜?沒(méi)關(guān)系丐膝,這張圖完全不用記住量愧,我們只需要知道,CPU遵循的是馮諾依曼架構(gòu)帅矗,其核心就是:存儲(chǔ)程序偎肃,順序執(zhí)行。
講到這里浑此,有沒(méi)有看出問(wèn)題累颂,沒(méi)錯(cuò)——在這個(gè)結(jié)構(gòu)圖中,負(fù)責(zé)計(jì)算的綠色區(qū)域占的面積似乎太小了凛俱,而橙色區(qū)域的緩存Cache和黃色區(qū)域的控制單元占據(jù)了大量空間紊馏。
高中化學(xué)有句老生常談的話(huà)叫:結(jié)構(gòu)決定性質(zhì),放在這里也非常適用蒲犬。
因?yàn)镃PU的架構(gòu)中需要大量的空間去放置存儲(chǔ)單元(橙色部分)和控制單元(黃色部分)朱监,相比之下計(jì)算單元(綠色部分)只占據(jù)了很小的一部分,所以它在大規(guī)模并行計(jì)算能力上極受限制原叮,而更擅長(zhǎng)于邏輯控制赫编。
另外,因?yàn)樽裱T諾依曼架構(gòu)(存儲(chǔ)程序奋隶,順序執(zhí)行)沛慢,CPU就像是個(gè)一板一眼的管家,人們吩咐的事情它總是一步一步來(lái)做达布。但是隨著人們對(duì)更大規(guī)模與更快處理速度的需求的增加团甲,這位管家漸漸變得有些力不從心。
于是黍聂,大家就想躺苦,能不能把多個(gè)處理器放在同一塊芯片上身腻,讓它們一起來(lái)做事,這樣效率不就提高了嗎匹厘?
沒(méi)錯(cuò)嘀趟,GPU便由此誕生了。
GPU
在正式講解GPU之前愈诚,我們先來(lái)講講上文中提到的一個(gè)概念——并行計(jì)算她按。
并行計(jì)算(Parallel Computing)是指同時(shí)使用多種計(jì)算資源解決計(jì)算問(wèn)題的過(guò)程,是提高計(jì)算機(jī)系統(tǒng)計(jì)算速度和處理能力的一種有效手段炕柔。它的基本思想是用多個(gè)處理器來(lái)共同求解同一問(wèn)題酌泰,即將被求解的問(wèn)題分解成若干個(gè)部分,各部分均由一個(gè)獨(dú)立的處理機(jī)來(lái)并行計(jì)算匕累。
并行計(jì)算可分為時(shí)間上的并行和空間上的并行陵刹。
時(shí)間上的并行是指流水線(xiàn)技術(shù),比如說(shuō)工廠(chǎng)生產(chǎn)食品的時(shí)候分為四步:清洗-消毒-切割-包裝欢嘿。
如果不采用流水線(xiàn)衰琐,一個(gè)食品完成上述四個(gè)步驟后,下一個(gè)食品才進(jìn)行處理炼蹦,耗時(shí)且影響效率羡宙。但是采用流水線(xiàn)技術(shù),就可以同時(shí)處理四個(gè)食品掐隐。這就是并行算法中的時(shí)間并行狗热,在同一時(shí)間啟動(dòng)兩個(gè)或兩個(gè)以上的操作,大大提高計(jì)算性能瑟枫。
空間上的并行是指多個(gè)處理機(jī)并發(fā)的執(zhí)行計(jì)算斗搞,即通過(guò)網(wǎng)絡(luò)將兩個(gè)以上的處理機(jī)連接起來(lái)指攒,達(dá)到同時(shí)計(jì)算同一個(gè)任務(wù)的不同部分慷妙,或者單個(gè)處理機(jī)無(wú)法解決的大型問(wèn)題。
比如小李準(zhǔn)備在植樹(shù)節(jié)種三棵樹(shù)允悦,如果小李1個(gè)人需要6個(gè)小時(shí)才能完成任務(wù)膝擂,植樹(shù)節(jié)當(dāng)天他叫來(lái)了好朋友小紅、小王隙弛,三個(gè)人同時(shí)開(kāi)始挖坑植樹(shù)架馋,2個(gè)小時(shí)后每個(gè)人都完成了一顆植樹(shù)任務(wù),這就是并行算法中的空間并行全闷,將一個(gè)大任務(wù)分割成多個(gè)相同的子任務(wù)叉寂,來(lái)加快問(wèn)題解決速度。
所以說(shuō)总珠,如果讓CPU來(lái)執(zhí)行這個(gè)種樹(shù)任務(wù)的話(huà)屏鳍,它就會(huì)一棵一棵的種勘纯,花上6個(gè)小時(shí)的時(shí)間,但是讓GPU來(lái)種樹(shù)钓瞭,就相當(dāng)于好幾個(gè)人同時(shí)在種驳遵。
GPU全稱(chēng)為Graphics Processing Unit,中文為圖形處理器山涡,就如它的名字一樣堤结,GPU最初是用在個(gè)人電腦、工作站鸭丛、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦竞穷、智能手機(jī)等)上運(yùn)行繪圖運(yùn)算工作的微處理器。
為什么GPU特別擅長(zhǎng)處理圖像數(shù)據(jù)呢系吩?這是因?yàn)閳D像上的每一個(gè)像素點(diǎn)都有被處理的需要来庭,而且每個(gè)像素點(diǎn)處理的過(guò)程和方式都十分相似,也就成了GPU的天然溫床穿挨。
GPU簡(jiǎn)單架構(gòu)如下圖所示:
從架構(gòu)圖我們就能很明顯的看出月弛,GPU的構(gòu)成相對(duì)簡(jiǎn)單,有數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線(xiàn)科盛,特別適合處理大量的類(lèi)型統(tǒng)一的數(shù)據(jù)帽衙。
但GPU無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作贞绵。CPU可單獨(dú)作用厉萝,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類(lèi)型,但當(dāng)需要大量的處理類(lèi)型統(tǒng)一的數(shù)據(jù)時(shí)榨崩,則可調(diào)用GPU進(jìn)行并行計(jì)算谴垫。
注:GPU中有很多的運(yùn)算器ALU和很少的緩存cache,緩存的目的不是保存后面需要訪(fǎng)問(wèn)的數(shù)據(jù)的母蛛,這點(diǎn)和CPU不同翩剪,而是為線(xiàn)程thread提高服務(wù)的。如果有很多線(xiàn)程需要訪(fǎng)問(wèn)同一個(gè)相同的數(shù)據(jù)彩郊,緩存會(huì)合并這些訪(fǎng)問(wèn)前弯,然后再去訪(fǎng)問(wèn)dram。
再把CPU和GPU兩者放在一張圖上看下對(duì)比秫逝,就非常一目了然了恕出。
GPU的工作大部分都計(jì)算量大,但沒(méi)什么技術(shù)含量违帆,而且要重復(fù)很多很多次浙巫。
借用知乎上某大神的說(shuō)法,就像你有個(gè)工作需要計(jì)算幾億次一百以?xún)?nèi)加減乘除一樣刷后,最好的辦法就是雇上幾十個(gè)小學(xué)生一起算的畴,一人算一部分廉油,反正這些計(jì)算也沒(méi)什么技術(shù)含量,純粹體力活而已苗傅;而CPU就像老教授抒线,積分微分都會(huì)算,就是工資高渣慕,一個(gè)老教授資頂二十個(gè)小學(xué)生嘶炭,你要是富士康你雇哪個(gè)?
GPU就是用很多簡(jiǎn)單的計(jì)算單元去完成大量的計(jì)算任務(wù)逊桦,純粹的人海戰(zhàn)術(shù)眨猎。這種策略基于一個(gè)前提,就是小學(xué)生A和小學(xué)生B的工作沒(méi)有什么依賴(lài)性强经,是互相獨(dú)立的睡陪。
但有一點(diǎn)需要強(qiáng)調(diào),雖然GPU是為了圖像處理而生的匿情,但是我們通過(guò)前面的介紹可以發(fā)現(xiàn)兰迫,它在結(jié)構(gòu)上并沒(méi)有專(zhuān)門(mén)為圖像服務(wù)的部件,只是對(duì)CPU的結(jié)構(gòu)進(jìn)行了優(yōu)化與調(diào)整炬称,所以現(xiàn)在GPU不僅可以在圖像處理領(lǐng)域大顯身手汁果,它還被用來(lái)科學(xué)計(jì)算、密碼破解玲躯、數(shù)值分析据德,海量數(shù)據(jù)處理(排序,Map-Reduce等)跷车,金融分析等需要大規(guī)模并行計(jì)算的領(lǐng)域棘利。
所以GPU也可以認(rèn)為是一種較通用的芯片。
TPU
按照上文所述朽缴,CPU和GPU都是較為通用的芯片善玫,但是有句老話(huà)說(shuō)得好:萬(wàn)能工具的效率永遠(yuǎn)比不上專(zhuān)用工具。
隨著人們的計(jì)算需求越來(lái)越專(zhuān)業(yè)化不铆,人們希望有芯片可以更加符合自己的專(zhuān)業(yè)需求蝌焚,這時(shí)裹唆,便產(chǎn)生了ASIC(專(zhuān)用集成電路)的概念誓斥。
ASIC是指依產(chǎn)品需求不同而定制化的特殊規(guī)格集成電路,由特定使用者要求和特定電子系統(tǒng)的需要而設(shè)計(jì)许帐、制造劳坑。當(dāng)然這概念不用記,簡(jiǎn)單來(lái)說(shuō)就是定制化芯片成畦。
因?yàn)?/b>ASIC很“專(zhuān)一”距芬,只做一件事涝开,所以它就會(huì)比CPU、GPU等能做很多件事的芯片在某件事上做的更好框仔,實(shí)現(xiàn)更高的處理速度和更低的能耗舀武。但相應(yīng)的,ASIC的生產(chǎn)成本也非常高离斩。
而TPU(Tensor Processing Unit, 張量處理器)就是谷歌專(zhuān)門(mén)為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片银舱,其實(shí)也是一款ASIC。
一般公司是很難承擔(dān)為深度學(xué)習(xí)開(kāi)發(fā)專(zhuān)門(mén)ASIC芯片的成本和風(fēng)險(xiǎn)的跛梗,但谷歌是誰(shuí)寻馏,人家會(huì)差錢(qián)嗎?
咳咳核偿,開(kāi)玩笑诚欠。更重要的原因是谷歌提供的很多服務(wù),包括谷歌圖像搜索漾岳、谷歌照片轰绵、谷歌云視覺(jué)API、谷歌翻譯等產(chǎn)品和服務(wù)都需要用到深度神經(jīng)網(wǎng)絡(luò)尼荆〔匕模基于谷歌自身龐大的體量,開(kāi)發(fā)一種專(zhuān)門(mén)的芯片開(kāi)始具備規(guī)囊遥化應(yīng)用(大量分?jǐn)傃邪l(fā)成本)的可能翔悠。
如此看來(lái),TPU登上歷史舞臺(tái)也順理成章了野芒。
原來(lái)很多的機(jī)器學(xué)習(xí)以及圖像處理算法大部分都跑在GPU與FPGA(半定制化芯片)上面蓄愁,但這兩種芯片都還是一種通用性芯片,所以在效能與功耗上還是不能更緊密的適配機(jī)器學(xué)習(xí)算法狞悲,而且Google一直堅(jiān)信偉大的軟件將在偉大的硬件的幫助下更加大放異彩撮抓,所以Google便想,我們可不可以做出一款專(zhuān)用機(jī)機(jī)器學(xué)習(xí)算法的專(zhuān)用芯片摇锋,TPU便誕生了丹拯。
據(jù)稱(chēng),TPU與同期的CPU和GPU相比荸恕,可以提供15-30倍的性能提升乖酬,以及30-80倍的效率(性能/瓦特)提升。初代的TPU只能做推理融求,要依靠Google云來(lái)實(shí)時(shí)收集數(shù)據(jù)并產(chǎn)生結(jié)果咬像,而訓(xùn)練過(guò)程還需要額外的資源;而第二代TPU既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),又可以用于推理县昂。
看到這里你可能會(huì)問(wèn)了肮柜,為什么TPU會(huì)在性能上這么牛逼呢?
嗯倒彰,谷歌寫(xiě)了好幾篇論文和博文來(lái)說(shuō)明這一原因审洞,所以?xún)H在這里拋磚引玉一下。
如上圖所示待讳,TPU在芯片上使用了高達(dá)24MB的局部?jī)?nèi)存预明,6MB的累加器內(nèi)存以及用于與主控處理器進(jìn)行對(duì)接的內(nèi)存,總共占芯片面積的37%(圖中藍(lán)色部分)耙箍。
這表示谷歌充分意識(shí)到了片外內(nèi)存訪(fǎng)問(wèn)是GPU能效比低的罪魁禍?zhǔn)鬃罚虼瞬幌С杀镜脑谛酒戏帕司薮蟮膬?nèi)存。相比之下辩昆,英偉達(dá)同時(shí)期的K80只有8MB的片上內(nèi)存阅酪,因此需要不斷地去訪(fǎng)問(wèn)片外DRAM。
另外汁针,TPU的高性能還來(lái)源于對(duì)于低運(yùn)算精度的容忍术辐。研究結(jié)果表明,低精度運(yùn)算帶來(lái)的算法準(zhǔn)確率損失很小施无,但是在硬件實(shí)現(xiàn)上卻可以帶來(lái)巨大的便利辉词,包括功耗更低、速度更快猾骡、占芯片面積更小的運(yùn)算單元瑞躺、更小的內(nèi)存帶寬需求等...TPU采用了8比特的低精度運(yùn)算。
其它更多的信息可以去翻翻谷歌的論文兴想。
到目前為止幢哨,TPU其實(shí)已經(jīng)干了很多事情了,例如機(jī)器學(xué)習(xí)人工智能系統(tǒng)RankBrain嫂便,它是用來(lái)幫助Google處理搜索結(jié)果并為用戶(hù)提供更加相關(guān)搜索結(jié)果的捞镰;還有街景Street View,用來(lái)提高地圖與導(dǎo)航的準(zhǔn)確性的毙替;當(dāng)然還有下圍棋的計(jì)算機(jī)程序AlphaGo岸售!
NPU
講到這里,相信大家對(duì)這些所謂的“XPU”的套路已經(jīng)有了一定了解厂画,我們接著來(lái)凸丸。
所謂NPU(Neural network Processing Unit), 即神經(jīng)網(wǎng)絡(luò)處理器木羹。顧名思義甲雅,這家伙是想用電路模擬人類(lèi)的神經(jīng)元和突觸結(jié)構(gòu)啊坑填!
怎么模仿抛人?那就得先來(lái)看看人類(lèi)的神經(jīng)結(jié)構(gòu)——生物的神經(jīng)網(wǎng)絡(luò)由若干人工神經(jīng)元結(jié)點(diǎn)互聯(lián)而成,神經(jīng)元之間通過(guò)突觸兩兩連接脐瑰,突觸記錄了神經(jīng)元之間的聯(lián)系妖枚。
同志們,高中生物還記得嗎苍在?
如果想用電路模仿人類(lèi)的神經(jīng)元绝页,就得把每個(gè)神經(jīng)元抽象為一個(gè)激勵(lì)函數(shù),該函數(shù)的輸入由與其相連的神經(jīng)元的輸出以及連接神經(jīng)元的突觸共同決定寂恬。
為了表達(dá)特定的知識(shí)续誉,使用者通常需要(通過(guò)某些特定的算法)調(diào)整人工神經(jīng)網(wǎng)絡(luò)中突觸的取值、網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)等初肉。該過(guò)程稱(chēng)為“學(xué)習(xí)”酷鸦。
在學(xué)習(xí)之后,人工神經(jīng)網(wǎng)絡(luò)可通過(guò)習(xí)得的知識(shí)來(lái)解決特定的問(wèn)題牙咏。
這時(shí)不知道大家有沒(méi)有發(fā)現(xiàn)問(wèn)題——原來(lái)臼隔,由于深度學(xué)習(xí)的基本操作是神經(jīng)元和突觸的處理,而傳統(tǒng)的處理器指令集(包括x86和ARM等)是為了進(jìn)行通用計(jì)算發(fā)展起來(lái)的妄壶,其基本操作為算術(shù)操作(加減乘除)和邏輯操作(與或非)摔握,往往需要數(shù)百甚至上千條指令才能完成一個(gè)神經(jīng)元的處理,深度學(xué)習(xí)的處理效率不高丁寄。
這時(shí)就必須另辟蹊徑——突破經(jīng)典的馮·諾伊曼結(jié)構(gòu)氨淌!
神經(jīng)網(wǎng)絡(luò)中存儲(chǔ)和處理是一體化的,都是通過(guò)突觸權(quán)重來(lái)體現(xiàn)伊磺。 而馮·諾伊曼結(jié)構(gòu)中宁舰,存儲(chǔ)和處理是分離的,分別由存儲(chǔ)器和運(yùn)算器來(lái)實(shí)現(xiàn)奢浑,二者之間存在巨大的差異蛮艰。當(dāng)用現(xiàn)有的基于馮·諾伊曼結(jié)構(gòu)的經(jīng)典計(jì)算機(jī)(如X86處理器和英偉達(dá)GPU)來(lái)跑神經(jīng)網(wǎng)絡(luò)應(yīng)用時(shí),就不可避免地受到存儲(chǔ)和處理分離式結(jié)構(gòu)的制約雀彼,因而影響效率壤蚜。這也就是專(zhuān)門(mén)針對(duì)人工智能的專(zhuān)業(yè)芯片能夠?qū)鹘y(tǒng)芯片有一定先天優(yōu)勢(shì)的原因之一。
NPU的典型代表有國(guó)內(nèi)的寒武紀(jì)芯片和IBM的TrueNorth徊哑。以中國(guó)的寒武紀(jì)為例袜刷,DianNaoYu指令直接面對(duì)大規(guī)模神經(jīng)元和突觸的處理,一條指令即可完成一組神經(jīng)元的處理莺丑,并對(duì)神經(jīng)元和突觸數(shù)據(jù)在芯片上的傳輸提供了一系列專(zhuān)門(mén)的支持著蟹。
用數(shù)字來(lái)說(shuō)話(huà)墩蔓,CPU、GPU與NPU相比萧豆,會(huì)有百倍以上的性能或能耗比差距——以寒武紀(jì)團(tuán)隊(duì)過(guò)去和Inria聯(lián)合發(fā)表的DianNao論文為例——DianNao為單核處理器奸披,主頻為0.98GHz,峰值性能達(dá)每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算涮雷,65nm工藝下功耗為0.485W阵面,面積3.02平方毫米mm。
文章開(kāi)頭所說(shuō)的mate10中所用的麒麟970芯片洪鸭,就集成了寒武紀(jì)的NPU样刷,所以才可以實(shí)現(xiàn)所謂的照片優(yōu)化功能,以及保證你的手機(jī)用了很長(zhǎng)時(shí)間后還能不卡(當(dāng)然也得真正用了才能知道有沒(méi)有宣傳的這么好)览爵。
PS置鼻,中星微電子的“星光智能一號(hào)”雖說(shuō)對(duì)外號(hào)稱(chēng)是NPU,但其實(shí)只是DSP蜓竹,僅支持網(wǎng)絡(luò)正向運(yùn)算沃疮,無(wú)法支持神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
在以上這些知識(shí)的基礎(chǔ)上梅肤,我們?cè)賮?lái)理解BPU和DPU就更容易了司蔬。
BPU(Brain Processing Unit,大腦處理器)是由地平線(xiàn)科技提出的嵌入式人工智能處理器架構(gòu)姨蝴。第一代是高斯架構(gòu)俊啼,第二代是伯努利架構(gòu),第三代是貝葉斯架構(gòu)左医。目前地平線(xiàn)已經(jīng)設(shè)計(jì)出了第一代高斯架構(gòu)授帕,并與英特爾在2017年CES展會(huì)上聯(lián)合推出了ADAS系統(tǒng)(高級(jí)駕駛輔助系統(tǒng))。
DPU(Deep learning Processing Unit, 即深度學(xué)習(xí)處理器)最早由國(guó)內(nèi)深鑒科技提出浮梢,基于Xilinx可重構(gòu)特性的FPGA芯片跛十,設(shè)計(jì)專(zhuān)用的深度學(xué)習(xí)處理單元(可基于已有的邏輯單元,設(shè)計(jì)并行高效的乘法器及邏輯電路秕硝,屬于IP范疇)芥映,且抽象出定制化的指令集和編譯器(而非使用OpenCL),從而實(shí)現(xiàn)快速的開(kāi)發(fā)與產(chǎn)品迭代远豺。事實(shí)上奈偏,深鑒提出的DPU屬于半定制化的FPGA。
你以為到這里就完了嗎躯护?
不惊来,據(jù)說(shuō)每過(guò)18天,集成電路領(lǐng)域就會(huì)多出一個(gè)XPU棺滞,直到26個(gè)字母被用完裁蚁。
這被戲稱(chēng)為AI時(shí)代的XPU版摩爾定律矢渊。
據(jù)不完全統(tǒng)計(jì),已經(jīng)被用掉的有:
APU -- Accelerated Processing Unit, 加速處理器枉证,AMD公司推出加速圖像處理芯片產(chǎn)品矮男。
BPU -- Brain Processing Unit, 地平線(xiàn)公司主導(dǎo)的嵌入式處理器架構(gòu)。
CPU -- Central Processing Unit 中央處理器刽严, 目前PC core的主流產(chǎn)品昂灵。
DPU -- Deep learning Processing Unit, 深度學(xué)習(xí)處理器避凝,最早由國(guó)內(nèi)深鑒科技提出舞萄;另說(shuō)有Dataflow Processing Unit 數(shù)據(jù)流處理器, Wave Computing 公司提出的AI架構(gòu)管削;Data storage Processing Unit倒脓,深圳大普微的智能固態(tài)硬盤(pán)處理器。
FPU -- Floating Processing Unit 浮點(diǎn)計(jì)算單元含思,通用處理器中的浮點(diǎn)運(yùn)算模塊崎弃。
GPU -- Graphics Processing Unit, 圖形處理器,采用多線(xiàn)程SIMD架構(gòu)含潘,為圖形處理而生饲做。
HPU -- Holographics Processing Unit 全息圖像處理器, 微軟出品的全息計(jì)算芯片與設(shè)備遏弱。
IPU -- Intelligence Processing Unit盆均,?Deep Mind投資的Graphcore公司出品的AI處理器產(chǎn)品。
MPU/MCU -- Microprocessor/Micro controller Unit漱逸, 微處理器/微控制器泪姨,一般用于低計(jì)算應(yīng)用的RISC計(jì)算機(jī)體系架構(gòu)產(chǎn)品,如ARM-M系列處理器饰抒。
NPU -- Neural Network Processing Unit肮砾,神經(jīng)網(wǎng)絡(luò)處理器,是基于神經(jīng)網(wǎng)絡(luò)算法與加速的新型處理器總稱(chēng)袋坑,如中科院計(jì)算所/寒武紀(jì)公司出品的diannao系列仗处。
RPU -- Radio Processing Unit, 無(wú)線(xiàn)電處理器,?Imagination Technologies 公司推出的集合集Wifi/藍(lán)牙/FM/處理器為單片的處理器枣宫。
TPU -- Tensor Processing Unit 張量處理器疆柔,?Google 公司推出的加速人工智能算法的專(zhuān)用處理器。目前一代TPU面向Inference镶柱,二代面向訓(xùn)練旷档。
VPU -- Vector Processing Unit 矢量處理器,Intel收購(gòu)的Movidius公司推出的圖像處理與人工智能的專(zhuān)用芯片的加速計(jì)算核心歇拆。
WPU -- Wearable Processing Unit鞋屈, 可穿戴處理器范咨,Ineda Systems公司推出的可穿戴片上系統(tǒng)產(chǎn)品,包含GPU/MIPS CPU等IP厂庇。
XPU -- 百度與Xilinx公司在2017年Hotchips大會(huì)上發(fā)布的FPGA智能云加速渠啊,含256核。
ZPU -- Zylin Processing Unit,?由挪威Zylin 公司推出的一款32位開(kāi)源處理器权旷。