【CPU & GPU & TPU】機(jī)器學(xué)習(xí)掃盲篇

學(xué)號(hào)：17020150042

姓名：宗澤民

原文鏈接：https://blog.csdn.net/DreamSeeker_1314/article/details/89069966?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.control

【嵌牛導(dǎo)讀】介紹CPU & GPU & TPU

【嵌牛鼻子】CPU & GPU & TPU

【嵌牛正文】

CPU

CPU( Central Processing Unit, 中央處理器)就是機(jī)器的“大腦”，也是布局謀略、發(fā)號(hào)施令膘侮、控制行動(dòng)的“總司令官”世吨。

CPU的結(jié)構(gòu)主要包括運(yùn)算器（ALU, Arithmetic and Logic Unit）颤诀、控制單元（CU, Control Unit）晾剖、寄存器（Register）励负、高速緩存器（Cache）和它們之間通訊的數(shù)據(jù)温亲、控制及狀態(tài)的總線(xiàn)棚壁。

簡(jiǎn)單來(lái)說(shuō)就是：計(jì)算單元、控制單元和存儲(chǔ)單元栈虚，架構(gòu)如下圖所示：

CPU微架構(gòu)示意圖

什么袖外？架構(gòu)記不住魂务？來(lái)曼验，我們換種表示方法：

CPU微架構(gòu)示意圖（改）

嗯，大概就是這個(gè)意思。

從字面上我們也很好理解盗温，計(jì)算單元主要執(zhí)行算術(shù)運(yùn)算秽之、移位等操作以及地址運(yùn)算和轉(zhuǎn)換；存儲(chǔ)單元主要用于保存運(yùn)算中產(chǎn)生的數(shù)據(jù)以及指令等颖杏；控制單元則對(duì)指令譯碼纯陨，并且發(fā)出為完成每條指令所要執(zhí)行的各個(gè)操作的控制信號(hào)。

所以一條指令在CPU中執(zhí)行的過(guò)程是這樣的：讀取到指令后留储，通過(guò)指令總線(xiàn)送到控制器（黃色區(qū)域）中進(jìn)行譯碼翼抠，并發(fā)出相應(yīng)的操作控制信號(hào)；然后運(yùn)算器（綠色區(qū)域）按照操作指令對(duì)數(shù)據(jù)進(jìn)行計(jì)算获讳，并通過(guò)數(shù)據(jù)總線(xiàn)將得到的數(shù)據(jù)存入數(shù)據(jù)緩存器（大塊橙色區(qū)域）阴颖。過(guò)程如下圖所示：

CPU執(zhí)行指令圖

是不是有點(diǎn)兒復(fù)雜？沒(méi)關(guān)系丐膝，這張圖完全不用記住量愧，我們只需要知道，CPU遵循的是馮諾依曼架構(gòu)帅矗，其核心就是：存儲(chǔ)程序偎肃，順序執(zhí)行。

講到這里浑此，有沒(méi)有看出問(wèn)題累颂，沒(méi)錯(cuò)——在這個(gè)結(jié)構(gòu)圖中，負(fù)責(zé)計(jì)算的綠色區(qū)域占的面積似乎太小了凛俱，而橙色區(qū)域的緩存Cache和黃色區(qū)域的控制單元占據(jù)了大量空間紊馏。

高中化學(xué)有句老生常談的話(huà)叫：結(jié)構(gòu)決定性質(zhì)，放在這里也非常適用蒲犬。

因?yàn)镃PU的架構(gòu)中需要大量的空間去放置存儲(chǔ)單元（橙色部分）和控制單元（黃色部分）朱监，相比之下計(jì)算單元（綠色部分）只占據(jù)了很小的一部分，所以它在大規(guī)模并行計(jì)算能力上極受限制原叮，而更擅長(zhǎng)于邏輯控制赫编。

另外，因?yàn)樽裱T諾依曼架構(gòu)（存儲(chǔ)程序奋隶，順序執(zhí)行）沛慢，CPU就像是個(gè)一板一眼的管家，人們吩咐的事情它總是一步一步來(lái)做达布。但是隨著人們對(duì)更大規(guī)模與更快處理速度的需求的增加团甲，這位管家漸漸變得有些力不從心。

于是黍聂，大家就想躺苦，能不能把多個(gè)處理器放在同一塊芯片上身腻，讓它們一起來(lái)做事，這樣效率不就提高了嗎匹厘？

沒(méi)錯(cuò)嘀趟，GPU便由此誕生了。

GPU

在正式講解GPU之前愈诚，我們先來(lái)講講上文中提到的一個(gè)概念——并行計(jì)算她按。

并行計(jì)算(Parallel Computing)是指同時(shí)使用多種計(jì)算資源解決計(jì)算問(wèn)題的過(guò)程，是提高計(jì)算機(jī)系統(tǒng)計(jì)算速度和處理能力的一種有效手段炕柔。它的基本思想是用多個(gè)處理器來(lái)共同求解同一問(wèn)題酌泰，即將被求解的問(wèn)題分解成若干個(gè)部分，各部分均由一個(gè)獨(dú)立的處理機(jī)來(lái)并行計(jì)算匕累。

并行計(jì)算可分為時(shí)間上的并行和空間上的并行陵刹。

時(shí)間上的并行是指流水線(xiàn)技術(shù)，比如說(shuō)工廠(chǎng)生產(chǎn)食品的時(shí)候分為四步：清洗-消毒-切割-包裝欢嘿。

如果不采用流水線(xiàn)衰琐，一個(gè)食品完成上述四個(gè)步驟后，下一個(gè)食品才進(jìn)行處理炼蹦，耗時(shí)且影響效率羡宙。但是采用流水線(xiàn)技術(shù)，就可以同時(shí)處理四個(gè)食品掐隐。這就是并行算法中的時(shí)間并行狗热，在同一時(shí)間啟動(dòng)兩個(gè)或兩個(gè)以上的操作，大大提高計(jì)算性能瑟枫。

流水線(xiàn)示意圖

空間上的并行是指多個(gè)處理機(jī)并發(fā)的執(zhí)行計(jì)算斗搞，即通過(guò)網(wǎng)絡(luò)將兩個(gè)以上的處理機(jī)連接起來(lái)指攒，達(dá)到同時(shí)計(jì)算同一個(gè)任務(wù)的不同部分慷妙，或者單個(gè)處理機(jī)無(wú)法解決的大型問(wèn)題。

比如小李準(zhǔn)備在植樹(shù)節(jié)種三棵樹(shù)允悦，如果小李1個(gè)人需要6個(gè)小時(shí)才能完成任務(wù)膝擂，植樹(shù)節(jié)當(dāng)天他叫來(lái)了好朋友小紅、小王隙弛，三個(gè)人同時(shí)開(kāi)始挖坑植樹(shù)架馋，2個(gè)小時(shí)后每個(gè)人都完成了一顆植樹(shù)任務(wù)，這就是并行算法中的空間并行全闷，將一個(gè)大任務(wù)分割成多個(gè)相同的子任務(wù)叉寂，來(lái)加快問(wèn)題解決速度。

所以說(shuō)总珠，如果讓CPU來(lái)執(zhí)行這個(gè)種樹(shù)任務(wù)的話(huà)屏鳍，它就會(huì)一棵一棵的種勘纯，花上6個(gè)小時(shí)的時(shí)間，但是讓GPU來(lái)種樹(shù)钓瞭，就相當(dāng)于好幾個(gè)人同時(shí)在種驳遵。

GPU全稱(chēng)為Graphics Processing Unit，中文為圖形處理器山涡，就如它的名字一樣堤结，GPU最初是用在個(gè)人電腦、工作站鸭丛、游戲機(jī)和一些移動(dòng)設(shè)備（如平板電腦竞穷、智能手機(jī)等）上運(yùn)行繪圖運(yùn)算工作的微處理器。

為什么GPU特別擅長(zhǎng)處理圖像數(shù)據(jù)呢系吩？這是因?yàn)閳D像上的每一個(gè)像素點(diǎn)都有被處理的需要来庭，而且每個(gè)像素點(diǎn)處理的過(guò)程和方式都十分相似，也就成了GPU的天然溫床穿挨。

GPU簡(jiǎn)單架構(gòu)如下圖所示：

GPU微架構(gòu)示意圖

從架構(gòu)圖我們就能很明顯的看出月弛，GPU的構(gòu)成相對(duì)簡(jiǎn)單，有數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線(xiàn)科盛，特別適合處理大量的類(lèi)型統(tǒng)一的數(shù)據(jù)帽衙。

但GPU無(wú)法單獨(dú)工作，必須由CPU進(jìn)行控制調(diào)用才能工作贞绵。CPU可單獨(dú)作用厉萝，處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類(lèi)型，但當(dāng)需要大量的處理類(lèi)型統(tǒng)一的數(shù)據(jù)時(shí)榨崩，則可調(diào)用GPU進(jìn)行并行計(jì)算谴垫。

注：GPU中有很多的運(yùn)算器ALU和很少的緩存cache，緩存的目的不是保存后面需要訪(fǎng)問(wèn)的數(shù)據(jù)的母蛛，這點(diǎn)和CPU不同翩剪，而是為線(xiàn)程thread提高服務(wù)的。如果有很多線(xiàn)程需要訪(fǎng)問(wèn)同一個(gè)相同的數(shù)據(jù)彩郊，緩存會(huì)合并這些訪(fǎng)問(wèn)前弯，然后再去訪(fǎng)問(wèn)dram。

再把CPU和GPU兩者放在一張圖上看下對(duì)比秫逝，就非常一目了然了恕出。

GPU的工作大部分都計(jì)算量大，但沒(méi)什么技術(shù)含量违帆，而且要重復(fù)很多很多次浙巫。

借用知乎上某大神的說(shuō)法，就像你有個(gè)工作需要計(jì)算幾億次一百以?xún)?nèi)加減乘除一樣刷后，最好的辦法就是雇上幾十個(gè)小學(xué)生一起算的畴，一人算一部分廉油，反正這些計(jì)算也沒(méi)什么技術(shù)含量，純粹體力活而已苗傅；而CPU就像老教授抒线，積分微分都會(huì)算，就是工資高渣慕，一個(gè)老教授資頂二十個(gè)小學(xué)生嘶炭，你要是富士康你雇哪個(gè)？

GPU就是用很多簡(jiǎn)單的計(jì)算單元去完成大量的計(jì)算任務(wù)逊桦，純粹的人海戰(zhàn)術(shù)眨猎。這種策略基于一個(gè)前提，就是小學(xué)生A和小學(xué)生B的工作沒(méi)有什么依賴(lài)性强经，是互相獨(dú)立的睡陪。

但有一點(diǎn)需要強(qiáng)調(diào)，雖然GPU是為了圖像處理而生的匿情，但是我們通過(guò)前面的介紹可以發(fā)現(xiàn)兰迫，它在結(jié)構(gòu)上并沒(méi)有專(zhuān)門(mén)為圖像服務(wù)的部件，只是對(duì)CPU的結(jié)構(gòu)進(jìn)行了優(yōu)化與調(diào)整炬称，所以現(xiàn)在GPU不僅可以在圖像處理領(lǐng)域大顯身手汁果，它還被用來(lái)科學(xué)計(jì)算、密碼破解玲躯、數(shù)值分析据德，海量數(shù)據(jù)處理（排序，Map-Reduce等）跷车，金融分析等需要大規(guī)模并行計(jì)算的領(lǐng)域棘利。

所以GPU也可以認(rèn)為是一種較通用的芯片。

TPU

按照上文所述朽缴，CPU和GPU都是較為通用的芯片善玫，但是有句老話(huà)說(shuō)得好：萬(wàn)能工具的效率永遠(yuǎn)比不上專(zhuān)用工具。

隨著人們的計(jì)算需求越來(lái)越專(zhuān)業(yè)化不铆，人們希望有芯片可以更加符合自己的專(zhuān)業(yè)需求蝌焚，這時(shí)裹唆，便產(chǎn)生了ASIC（專(zhuān)用集成電路）的概念誓斥。

ASIC是指依產(chǎn)品需求不同而定制化的特殊規(guī)格集成電路，由特定使用者要求和特定電子系統(tǒng)的需要而設(shè)計(jì)许帐、制造劳坑。當(dāng)然這概念不用記，簡(jiǎn)單來(lái)說(shuō)就是定制化芯片成畦。

因?yàn)?/b>ASIC很“專(zhuān)一”距芬，只做一件事涝开，所以它就會(huì)比CPU、GPU等能做很多件事的芯片在某件事上做的更好框仔，實(shí)現(xiàn)更高的處理速度和更低的能耗舀武。但相應(yīng)的，ASIC的生產(chǎn)成本也非常高离斩。

而TPU（Tensor Processing Unit, 張量處理器）就是谷歌專(zhuān)門(mén)為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片银舱，其實(shí)也是一款ASIC。

谷歌第二代TPU

一般公司是很難承擔(dān)為深度學(xué)習(xí)開(kāi)發(fā)專(zhuān)門(mén)ASIC芯片的成本和風(fēng)險(xiǎn)的跛梗，但谷歌是誰(shuí)寻馏，人家會(huì)差錢(qián)嗎？

咳咳核偿，開(kāi)玩笑诚欠。更重要的原因是谷歌提供的很多服務(wù)，包括谷歌圖像搜索漾岳、谷歌照片轰绵、谷歌云視覺(jué)API、谷歌翻譯等產(chǎn)品和服務(wù)都需要用到深度神經(jīng)網(wǎng)絡(luò)尼荆〔匕模基于谷歌自身龐大的體量，開(kāi)發(fā)一種專(zhuān)門(mén)的芯片開(kāi)始具備規(guī)囊遥化應(yīng)用（大量分?jǐn)傃邪l(fā)成本）的可能翔悠。

如此看來(lái)，TPU登上歷史舞臺(tái)也順理成章了野芒。

原來(lái)很多的機(jī)器學(xué)習(xí)以及圖像處理算法大部分都跑在GPU與FPGA（半定制化芯片）上面蓄愁，但這兩種芯片都還是一種通用性芯片，所以在效能與功耗上還是不能更緊密的適配機(jī)器學(xué)習(xí)算法狞悲，而且Google一直堅(jiān)信偉大的軟件將在偉大的硬件的幫助下更加大放異彩撮抓，所以Google便想，我們可不可以做出一款專(zhuān)用機(jī)機(jī)器學(xué)習(xí)算法的專(zhuān)用芯片摇锋，TPU便誕生了丹拯。

據(jù)稱(chēng)，TPU與同期的CPU和GPU相比荸恕，可以提供15-30倍的性能提升乖酬，以及30-80倍的效率（性能/瓦特）提升。初代的TPU只能做推理融求，要依靠Google云來(lái)實(shí)時(shí)收集數(shù)據(jù)并產(chǎn)生結(jié)果咬像，而訓(xùn)練過(guò)程還需要額外的資源；而第二代TPU既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)，又可以用于推理县昂。

看到這里你可能會(huì)問(wèn)了肮柜，為什么TPU會(huì)在性能上這么牛逼呢？

嗯倒彰，谷歌寫(xiě)了好幾篇論文和博文來(lái)說(shuō)明這一原因审洞，所以?xún)H在這里拋磚引玉一下。

TPU 各模塊的框圖

TPU芯片布局圖

如上圖所示待讳，TPU在芯片上使用了高達(dá)24MB的局部?jī)?nèi)存预明，6MB的累加器內(nèi)存以及用于與主控處理器進(jìn)行對(duì)接的內(nèi)存，總共占芯片面積的37%（圖中藍(lán)色部分）耙箍。

這表示谷歌充分意識(shí)到了片外內(nèi)存訪(fǎng)問(wèn)是GPU能效比低的罪魁禍?zhǔn)鬃罚虼瞬幌С杀镜脑谛酒戏帕司薮蟮膬?nèi)存。相比之下辩昆，英偉達(dá)同時(shí)期的K80只有8MB的片上內(nèi)存阅酪，因此需要不斷地去訪(fǎng)問(wèn)片外DRAM。

另外汁针，TPU的高性能還來(lái)源于對(duì)于低運(yùn)算精度的容忍术辐。研究結(jié)果表明，低精度運(yùn)算帶來(lái)的算法準(zhǔn)確率損失很小施无，但是在硬件實(shí)現(xiàn)上卻可以帶來(lái)巨大的便利辉词，包括功耗更低、速度更快猾骡、占芯片面積更小的運(yùn)算單元瑞躺、更小的內(nèi)存帶寬需求等...TPU采用了8比特的低精度運(yùn)算。

其它更多的信息可以去翻翻谷歌的論文兴想。

到目前為止幢哨，TPU其實(shí)已經(jīng)干了很多事情了，例如機(jī)器學(xué)習(xí)人工智能系統(tǒng)RankBrain嫂便，它是用來(lái)幫助Google處理搜索結(jié)果并為用戶(hù)提供更加相關(guān)搜索結(jié)果的捞镰；還有街景Street View，用來(lái)提高地圖與導(dǎo)航的準(zhǔn)確性的毙替；當(dāng)然還有下圍棋的計(jì)算機(jī)程序AlphaGo岸售！

NPU

講到這里，相信大家對(duì)這些所謂的“XPU”的套路已經(jīng)有了一定了解厂画，我們接著來(lái)凸丸。

所謂NPU（Neural network Processing Unit），即神經(jīng)網(wǎng)絡(luò)處理器木羹。顧名思義甲雅，這家伙是想用電路模擬人類(lèi)的神經(jīng)元和突觸結(jié)構(gòu)啊坑填！

怎么模仿抛人？那就得先來(lái)看看人類(lèi)的神經(jīng)結(jié)構(gòu)——生物的神經(jīng)網(wǎng)絡(luò)由若干人工神經(jīng)元結(jié)點(diǎn)互聯(lián)而成，神經(jīng)元之間通過(guò)突觸兩兩連接脐瑰，突觸記錄了神經(jīng)元之間的聯(lián)系妖枚。

同志們，高中生物還記得嗎苍在？

如果想用電路模仿人類(lèi)的神經(jīng)元绝页，就得把每個(gè)神經(jīng)元抽象為一個(gè)激勵(lì)函數(shù)，該函數(shù)的輸入由與其相連的神經(jīng)元的輸出以及連接神經(jīng)元的突觸共同決定寂恬。

為了表達(dá)特定的知識(shí)续誉，使用者通常需要（通過(guò)某些特定的算法）調(diào)整人工神經(jīng)網(wǎng)絡(luò)中突觸的取值、網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)等初肉。該過(guò)程稱(chēng)為“學(xué)習(xí)”酷鸦。

在學(xué)習(xí)之后，人工神經(jīng)網(wǎng)絡(luò)可通過(guò)習(xí)得的知識(shí)來(lái)解決特定的問(wèn)題牙咏。

這時(shí)不知道大家有沒(méi)有發(fā)現(xiàn)問(wèn)題——原來(lái)臼隔，由于深度學(xué)習(xí)的基本操作是神經(jīng)元和突觸的處理，而傳統(tǒng)的處理器指令集（包括x86和ARM等）是為了進(jìn)行通用計(jì)算發(fā)展起來(lái)的妄壶，其基本操作為算術(shù)操作（加減乘除）和邏輯操作（與或非）摔握，往往需要數(shù)百甚至上千條指令才能完成一個(gè)神經(jīng)元的處理，深度學(xué)習(xí)的處理效率不高丁寄。

這時(shí)就必須另辟蹊徑——突破經(jīng)典的馮·諾伊曼結(jié)構(gòu)氨淌！

神經(jīng)網(wǎng)絡(luò)中存儲(chǔ)和處理是一體化的，都是通過(guò)突觸權(quán)重來(lái)體現(xiàn)伊磺。而馮·諾伊曼結(jié)構(gòu)中宁舰，存儲(chǔ)和處理是分離的，分別由存儲(chǔ)器和運(yùn)算器來(lái)實(shí)現(xiàn)奢浑，二者之間存在巨大的差異蛮艰。當(dāng)用現(xiàn)有的基于馮·諾伊曼結(jié)構(gòu)的經(jīng)典計(jì)算機(jī)（如X86處理器和英偉達(dá)GPU）來(lái)跑神經(jīng)網(wǎng)絡(luò)應(yīng)用時(shí)，就不可避免地受到存儲(chǔ)和處理分離式結(jié)構(gòu)的制約雀彼，因而影響效率壤蚜。這也就是專(zhuān)門(mén)針對(duì)人工智能的專(zhuān)業(yè)芯片能夠?qū)鹘y(tǒng)芯片有一定先天優(yōu)勢(shì)的原因之一。

NPU的典型代表有國(guó)內(nèi)的寒武紀(jì)芯片和IBM的TrueNorth徊哑。以中國(guó)的寒武紀(jì)為例袜刷，DianNaoYu指令直接面對(duì)大規(guī)模神經(jīng)元和突觸的處理，一條指令即可完成一組神經(jīng)元的處理莺丑，并對(duì)神經(jīng)元和突觸數(shù)據(jù)在芯片上的傳輸提供了一系列專(zhuān)門(mén)的支持著蟹。

用數(shù)字來(lái)說(shuō)話(huà)墩蔓，CPU、GPU與NPU相比萧豆，會(huì)有百倍以上的性能或能耗比差距——以寒武紀(jì)團(tuán)隊(duì)過(guò)去和Inria聯(lián)合發(fā)表的DianNao論文為例——DianNao為單核處理器奸披，主頻為0.98GHz，峰值性能達(dá)每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算涮雷，65nm工藝下功耗為0.485W阵面，面積3.02平方毫米mm。

文章開(kāi)頭所說(shuō)的mate10中所用的麒麟970芯片洪鸭，就集成了寒武紀(jì)的NPU样刷，所以才可以實(shí)現(xiàn)所謂的照片優(yōu)化功能，以及保證你的手機(jī)用了很長(zhǎng)時(shí)間后還能不卡（當(dāng)然也得真正用了才能知道有沒(méi)有宣傳的這么好）览爵。

PS置鼻，中星微電子的“星光智能一號(hào)”雖說(shuō)對(duì)外號(hào)稱(chēng)是NPU，但其實(shí)只是DSP蜓竹，僅支持網(wǎng)絡(luò)正向運(yùn)算沃疮，無(wú)法支持神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

在以上這些知識(shí)的基礎(chǔ)上梅肤，我們?cè)賮?lái)理解BPU和DPU就更容易了司蔬。

BPU（Brain Processing Unit，大腦處理器）是由地平線(xiàn)科技提出的嵌入式人工智能處理器架構(gòu)姨蝴。第一代是高斯架構(gòu)俊啼，第二代是伯努利架構(gòu)，第三代是貝葉斯架構(gòu)左医。目前地平線(xiàn)已經(jīng)設(shè)計(jì)出了第一代高斯架構(gòu)授帕，并與英特爾在2017年CES展會(huì)上聯(lián)合推出了ADAS系統(tǒng)（高級(jí)駕駛輔助系統(tǒng)）。

DPU（Deep learning Processing Unit, 即深度學(xué)習(xí)處理器）最早由國(guó)內(nèi)深鑒科技提出浮梢，基于Xilinx可重構(gòu)特性的FPGA芯片跛十，設(shè)計(jì)專(zhuān)用的深度學(xué)習(xí)處理單元（可基于已有的邏輯單元，設(shè)計(jì)并行高效的乘法器及邏輯電路秕硝，屬于IP范疇）芥映，且抽象出定制化的指令集和編譯器（而非使用OpenCL），從而實(shí)現(xiàn)快速的開(kāi)發(fā)與產(chǎn)品迭代远豺。事實(shí)上奈偏，深鑒提出的DPU屬于半定制化的FPGA。

你以為到這里就完了嗎躯护？

不惊来，據(jù)說(shuō)每過(guò)18天，集成電路領(lǐng)域就會(huì)多出一個(gè)XPU棺滞，直到26個(gè)字母被用完裁蚁。

這被戲稱(chēng)為AI時(shí)代的XPU版摩爾定律矢渊。

據(jù)不完全統(tǒng)計(jì)，已經(jīng)被用掉的有：

APU -- Accelerated Processing Unit, 加速處理器枉证，AMD公司推出加速圖像處理芯片產(chǎn)品矮男。

BPU -- Brain Processing Unit, 地平線(xiàn)公司主導(dǎo)的嵌入式處理器架構(gòu)。

CPU -- Central Processing Unit 中央處理器刽严，目前PC core的主流產(chǎn)品昂灵。

DPU -- Deep learning Processing Unit, 深度學(xué)習(xí)處理器避凝，最早由國(guó)內(nèi)深鑒科技提出舞萄；另說(shuō)有Dataflow Processing Unit 數(shù)據(jù)流處理器， Wave Computing 公司提出的AI架構(gòu)管削；Data storage Processing Unit倒脓，深圳大普微的智能固態(tài)硬盤(pán)處理器。

FPU -- Floating Processing Unit 浮點(diǎn)計(jì)算單元含思，通用處理器中的浮點(diǎn)運(yùn)算模塊崎弃。

GPU -- Graphics Processing Unit, 圖形處理器，采用多線(xiàn)程SIMD架構(gòu)含潘，為圖形處理而生饲做。

HPU -- Holographics Processing Unit 全息圖像處理器，微軟出品的全息計(jì)算芯片與設(shè)備遏弱。

IPU -- Intelligence Processing Unit盆均，?Deep Mind投資的Graphcore公司出品的AI處理器產(chǎn)品。

MPU/MCU -- Microprocessor/Micro controller Unit漱逸，微處理器/微控制器泪姨，一般用于低計(jì)算應(yīng)用的RISC計(jì)算機(jī)體系架構(gòu)產(chǎn)品，如ARM-M系列處理器饰抒。

NPU -- Neural Network Processing Unit肮砾，神經(jīng)網(wǎng)絡(luò)處理器，是基于神經(jīng)網(wǎng)絡(luò)算法與加速的新型處理器總稱(chēng)袋坑，如中科院計(jì)算所/寒武紀(jì)公司出品的diannao系列仗处。

RPU -- Radio Processing Unit, 無(wú)線(xiàn)電處理器，?Imagination Technologies 公司推出的集合集Wifi/藍(lán)牙/FM/處理器為單片的處理器枣宫。

TPU -- Tensor Processing Unit 張量處理器疆柔，?Google 公司推出的加速人工智能算法的專(zhuān)用處理器。目前一代TPU面向Inference镶柱，二代面向訓(xùn)練旷档。

VPU -- Vector Processing Unit 矢量處理器，Intel收購(gòu)的Movidius公司推出的圖像處理與人工智能的專(zhuān)用芯片的加速計(jì)算核心歇拆。

WPU -- Wearable Processing Unit鞋屈，可穿戴處理器范咨，Ineda Systems公司推出的可穿戴片上系統(tǒng)產(chǎn)品，包含GPU/MIPS CPU等IP厂庇。

XPU -- 百度與Xilinx公司在2017年Hotchips大會(huì)上發(fā)布的FPGA智能云加速渠啊，含256核。

ZPU -- Zylin Processing Unit,?由挪威Zylin 公司推出的一款32位開(kāi)源處理器权旷。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末替蛉，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子拄氯，更是在濱河造成了極大的恐慌躲查，老刑警劉巖，帶你破解...
沈念sama閱讀 219,366評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件译柏，死亡現(xiàn)場(chǎng)離奇詭異镣煮，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)鄙麦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)典唇，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人胯府，你說(shuō)我怎么就攤上這事介衔。” “怎么了骂因？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,689評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵炎咖，是天一觀(guān)的道長(zhǎng)。經(jīng)常有香客問(wèn)我侣签，道長(zhǎng)塘装，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,925評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任影所，我火速辦了婚禮蹦肴，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘猴娩。我一直安慰自己阴幌，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,942評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布卷中。她就那樣靜靜地躺著矛双，像睡著了一般。火紅的嫁衣襯著肌膚如雪蟆豫。梳的紋絲不亂的頭發(fā)上议忽，一...
開(kāi)封第一講書(shū)人閱讀 51,727評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音十减，去河邊找鬼栈幸。笑死愤估，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的速址。我是一名探鬼主播玩焰，決...
沈念sama閱讀 40,447評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼芍锚！你這毒婦竟也來(lái)了昔园？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,349評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤并炮，失蹤者是張志新（化名）和其女友劉穎默刚，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體渣触，經(jīng)...
沈念sama閱讀 45,820評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡羡棵，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,990評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年壹若，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嗅钻。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,127評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡店展，死狀恐怖养篓，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情赂蕴，我是刑警寧澤柳弄，帶...
沈念sama閱讀 35,812評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站概说，受9級(jí)特大地震影響碧注，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜糖赔，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,471評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一萍丐、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧放典，春花似錦逝变、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,017評(píng)論 0贊 22
一樁弒父案壳影，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至弥臼，卻和暖如春宴咧，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背径缅。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,142評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留碟联，地道東北人栋操。一個(gè)月前我還...
沈念sama閱讀 48,388評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像茬高，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子假抄，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,066評(píng)論 2贊 355

【CPU & GPU & TPU】機(jī)器學(xué)習(xí)掃盲篇

CPU

GPU

TPU

NPU

推薦閱讀更多精彩內(nèi)容