鄭文盼? ? ? 16020150021
【嵌牛導(dǎo)讀】指數(shù)增長(zhǎng)的數(shù)據(jù)量和逐漸陷入瓶頸的芯片性能蝶桶,二者的不匹配會(huì)帶來(lái)芯片架構(gòu)的根本性改變。而這種改變管搪,可能將會(huì)是顛覆性的改變谅河。
【嵌牛鼻子】芯片架構(gòu),人工智能
【嵌牛提問(wèn)】芯片怎樣改變才能使性能適應(yīng)日益增長(zhǎng)的需求叶骨?
【嵌牛正文】
人工智能倒逼芯片底層的真正變革
研究人類的科技發(fā)展史茫多,發(fā)現(xiàn)科技的進(jìn)步速度呈現(xiàn)指數(shù)型加速態(tài)勢(shì)。尤其在1950年以后進(jìn)入芯片時(shí)代忽刽,摩爾定律推動(dòng)下的每18個(gè)月“芯片晶體管同比例縮小一半”帶來(lái)的性能提升以倍數(shù)計(jì)天揖。每一次加速的過(guò)程推動(dòng),都引發(fā)了產(chǎn)業(yè)的深層次變革跪帝,帶動(dòng)從底層到系統(tǒng)的階躍今膊。我們本篇報(bào)告將著重從底層芯片角度出發(fā),探討人工智能芯片帶來(lái)的深層次變革伞剑。
計(jì)算芯片的架構(gòu)50多年來(lái)都沒(méi)有發(fā)生過(guò)本質(zhì)上的變化,請(qǐng)注意計(jì)算架構(gòu)的決定是資源的組織形式褐着。而傳統(tǒng)的馮諾伊曼是采取控制流架構(gòu)坷澡,采用的是線性的記憶體和布爾函數(shù)作為基線計(jì)算操作。處理器的架構(gòu)基于流水線串行處理的機(jī)制建立含蓉,存儲(chǔ)器和處理器分離频敛,流水線的計(jì)算過(guò)程可以分解為取指令,執(zhí)行谴餐,取數(shù)據(jù)姻政,數(shù)據(jù)存儲(chǔ)呆抑,依次循環(huán)岂嗓。依靠整個(gè)串行的過(guò)程,邏輯清晰鹊碍,但性能的提升通過(guò)兩種方式厌殉,一是摩爾定律下推動(dòng)下晶體管數(shù)量的增多實(shí)現(xiàn)性能倍增;二是通過(guò)并行多個(gè)芯片核來(lái)實(shí)現(xiàn)侈咕。無(wú)論何種方式公罕,本質(zhì)上都是線性的性能擴(kuò)張。
人工智能芯片根據(jù)數(shù)據(jù)流的碎片化和分布式而采取神經(jīng)網(wǎng)絡(luò)計(jì)算范式耀销,特征在于分布式的表示和激活模式楼眷。變量由疊加在共享物理資源上的向量表示,并且通過(guò)神經(jīng)元的激活來(lái)進(jìn)行計(jì)算熊尉。以神經(jīng)元架構(gòu)實(shí)現(xiàn)深度學(xué)習(xí)人工智能的臨界點(diǎn)實(shí)現(xiàn)主要原因在于:數(shù)據(jù)量的激增和計(jì)算機(jī)能力/成本罐柳。
深度學(xué)習(xí)以神經(jīng)元為架構(gòu)。從單一的神經(jīng)元,再到簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),到一個(gè)用于語(yǔ)音識(shí)別的深層神經(jīng)網(wǎng)絡(luò)狰住。層次間的復(fù)雜度呈幾何倍數(shù)的遞增张吉。數(shù)據(jù)量的激增要求的就是芯片計(jì)算能力的提升。
計(jì)算的體系處于碎片化引發(fā)架構(gòu)變革催植。數(shù)據(jù)的擴(kuò)張遠(yuǎn)大于處理器性能的擴(kuò)張肮蛹,依靠處理器性能在摩爾定律推動(dòng)下的提升的單極世界已經(jīng)崩潰,處理器性能提升的速度并不足以滿足AI所需的應(yīng)用程序的需求创南。大量數(shù)據(jù)消耗的數(shù)字運(yùn)算能力比幾年前所有數(shù)據(jù)中心加起來(lái)還要多伦忠。
基于摩爾定律的機(jī)器時(shí)代的架構(gòu)——從Wintel到AA
Intel與Windows結(jié)合構(gòu)建PC生態(tài) ,本質(zhì)上誕生了軟硬件結(jié)合的機(jī)器時(shí)代稿辙。而在其基礎(chǔ)上的延升缓苛, 2010后蘋果帶來(lái)的智能手機(jī)引發(fā)的ARM與Android生態(tài),將機(jī)器與人的結(jié)合拓展到了移動(dòng)端。我們回顧歷史上的芯片架構(gòu)歷史未桥,認(rèn)為馮諾伊曼架構(gòu)帶來(lái)了計(jì)算體系的建立并通過(guò)Intel實(shí)現(xiàn)了最大化笔刹;ARM通過(guò)共享IP的商業(yè)模式帶來(lái)了更開放的生態(tài)體系,實(shí)現(xiàn)了軟硬件的結(jié)合延伸了人類的觸角冬耿。
觀察Intel和ARM的黃金十年舌菜,站在現(xiàn)在時(shí)點(diǎn)往后看,我們提出以下觀點(diǎn):過(guò)去十年以下游的應(yīng)用驅(qū)動(dòng)設(shè)計(jì)公司的成長(zhǎng)轉(zhuǎn)換為由設(shè)計(jì)公司主導(dǎo)應(yīng)用正在發(fā)生亦镶。從需求層面看企業(yè)成長(zhǎng)空間日月。類似90年代的PC和10年的智能手機(jī)帶來(lái)的億級(jí)大空間增量市場(chǎng)將很容易推動(dòng)企業(yè)的快速增長(zhǎng)。設(shè)計(jì)企業(yè)能夠在成長(zhǎng)軌跡上實(shí)現(xiàn)跨越式突破的可能性來(lái)自于賽道的選擇缤骨。但站在現(xiàn)在時(shí)點(diǎn)看爱咬,人工智能是確定性的方向,在所有已有領(lǐng)域的人工智能滲透绊起,都將極大的改變?nèi)祟惖纳罹狻L幱谧钋把氐男酒镜母镄抡谝源硕l(fā)生,重新定義底層架構(gòu)的芯片虱歪,從上游推動(dòng)行業(yè)的變革蜂绎。在并沒(méi)有具體應(yīng)用場(chǎng)景爆發(fā)之前已經(jīng)給予芯片公司充分的高估值就是認(rèn)可設(shè)計(jì)公司的價(jià)值。
2.1.? Intel——PC時(shí)代的王者榮耀
本節(jié)重點(diǎn)闡述Intel公司在X86時(shí)代的芯片架構(gòu)產(chǎn)品以及此架構(gòu)下公司以及行業(yè)的變化笋鄙。
2.1.1. Intel公司簡(jiǎn)介
Intel是一家成立于1968年的半導(dǎo)體制造公司师枣,總部位于美國(guó)加州。隨著個(gè)人電腦的普及和全球計(jì)算機(jī)工業(yè)的日益發(fā)展萧落,公司逐漸發(fā)展成為全球最大的微處理器及相關(guān)零件的供應(yīng)商践美。公司在2016年實(shí)現(xiàn)營(yíng)業(yè)收入594億美元,世界500強(qiáng)排名158找岖。
公司分為PC客戶端部門陨倡、數(shù)據(jù)中心部門、物聯(lián)網(wǎng)宣增、移動(dòng)及通訊部門玫膀、軟件及服務(wù)運(yùn)營(yíng),其他還有筆記本部門爹脾、新設(shè)備部門及NVM解決方案部門帖旨。公司主要營(yíng)業(yè)收入來(lái)自于PC客戶部門,其次是數(shù)據(jù)中心部門灵妨。公司的主要產(chǎn)品X86處理器占主導(dǎo)地位解阅,接近90%,包括蘋果在2006年放棄PowerPC改用英特爾的x86 processors泌霍。
回顧Intel 90年代至今發(fā)展歷程坞笙,清晰看到90年代是Intel發(fā)展最快的階段并在2000年前后達(dá)到了峰值。顯而易見(jiàn)的原因是個(gè)人電腦的快速普及滲透刽脖。而遵從摩爾定律的每一代產(chǎn)品的推出羞海,疊加個(gè)人電腦快速滲透的乘數(shù)效應(yīng)忌愚,持續(xù)放大了企業(yè)的市值曲管,類似于戴維斯雙擊,推動(dòng)股價(jià)的一路上揚(yáng)硕糊。
馮諾伊曼架構(gòu)帶來(lái)了計(jì)算體系的建立并通過(guò)Intel實(shí)現(xiàn)了最大化院水,但從本質(zhì)上說(shuō),英特爾參與的是機(jī)器時(shí)代的興起和計(jì)算芯片價(jià)值體現(xiàn)简十。但時(shí)至今日檬某,在人口紅利消散,PC滲透率達(dá)到穩(wěn)定階段螟蝙,依托于PC時(shí)代的處理器芯片進(jìn)入了穩(wěn)定常態(tài)恢恼。英特爾在總產(chǎn)品收入提升的情況下,PC端提供的收入增長(zhǎng)機(jī)會(huì)停滯胰默。處理器依靠摩爾定律不斷推經(jīng)延續(xù)生命力场斑,但在應(yīng)用增長(zhǎng)乏力的階段缺乏爆發(fā)式的再增長(zhǎng)。PC時(shí)代的處理器設(shè)計(jì)遵從了下游應(yīng)用驅(qū)動(dòng)上游芯片的實(shí)質(zhì)牵署。
進(jìn)入2010年后漏隐,英特爾的處理器增速同半導(dǎo)體行業(yè)基本協(xié)同一致,毫無(wú)疑問(wèn)超越行業(yè)增速的增長(zhǎng)已經(jīng)需要新的應(yīng)用拉動(dòng)奴迅。摩爾定律支撐了10多年的快速增長(zhǎng)再出現(xiàn)邊際改善的增長(zhǎng)需要重新審視青责。
2.2. ARM——開放生態(tài)下移動(dòng)時(shí)代的新王加冕
本節(jié)重點(diǎn)闡述ARM在移動(dòng)時(shí)代的芯片架構(gòu)產(chǎn)品以及此架構(gòu)下公司以及行業(yè)的變化。
2.2.1. ARM公司簡(jiǎn)介
ARM公司是全球領(lǐng)先的半導(dǎo)體知識(shí)產(chǎn)權(quán) (IP) 提供商,專門從事基于RISC技術(shù)芯片設(shè)計(jì)開發(fā)脖隶,并因此在數(shù)字電子產(chǎn)品的開發(fā)中處于核心地位扁耐。公司的前身Acorn于1978年在倫敦正式成立。1990年ARM從Acorn分拆出來(lái)产阱。得益于20世紀(jì)90年代手機(jī)的快速發(fā)展做葵,基于ARM技術(shù)的芯片出貨量飛速增長(zhǎng),并于2017年宣布正式達(dá)成1000億芯片出貨量的里程碑心墅。2016年7月酿矢,日本軟銀以320億美元收購(gòu)ARM。
ARM本身不直接從事芯片生產(chǎn)怎燥,只設(shè)計(jì)IP瘫筐,包括指令集架構(gòu)、微處理器铐姚、圖形核心和互連架構(gòu)策肝,依靠轉(zhuǎn)讓設(shè)計(jì)許可由合作公司生產(chǎn)各具特色的芯片,目前它在世界范圍有超過(guò)1100個(gè)的合作伙伴隐绵。
ARM的創(chuàng)新型商業(yè)模式為公司帶來(lái)了豐厚的回報(bào)率:它既使得ARM技術(shù)獲得更多的第三方工具之众、制造、軟件的支持依许,又使整個(gè)系統(tǒng)成本降低棺禾,使產(chǎn)品更容易進(jìn)入市場(chǎng)被消費(fèi)者所接受,更具有競(jìng)爭(zhēng)力峭跳。正因?yàn)锳RM的IP多種多樣以及支持基于ARM的解決方案的芯片和軟件體系十分龐大膘婶,全球領(lǐng)先的原始設(shè)備制造商 (OEM) 都在廣泛使用ARM技術(shù),因此ARM得以在智能手機(jī)蛀醉、平板上一枝獨(dú)秀悬襟,全世界超過(guò)95%的智能手機(jī)都采用ARM架構(gòu)。
ARM沿用了馮諾伊曼架構(gòu)拯刁,在性能和功耗上做到了更加平衡脊岳。在底層架構(gòu)沒(méi)有發(fā)生根本性? ? 變革的情況下,在架構(gòu)的橫向延伸上尋找到了技術(shù)的轉(zhuǎn)換垛玻,從而實(shí)現(xiàn)了智能手機(jī)時(shí)代移動(dòng)端的產(chǎn)品階躍割捅。
處理器架構(gòu)在根源上看ARM延續(xù)了X86的底層架構(gòu)。正如我們?cè)谥坝懻摷軜?gòu)時(shí)指出夭谤,處理器一般分為取指令棺牧,譯碼,發(fā)射朗儒,執(zhí)行颊乘,寫回五個(gè)步驟参淹。而我們說(shuō)的訪存,指的是訪問(wèn)數(shù)據(jù)乏悄,不是指令抓取浙值。訪問(wèn)數(shù)據(jù)的指令在前三步?jīng)]有什么特殊,在第四步檩小,它會(huì)被發(fā)送到存取單元开呐,等待完成。與X86不同的是在指令集方面规求,ARM架構(gòu)過(guò)去稱作進(jìn)階精簡(jiǎn)指令機(jī)器(Advanced RISC Machine)筐付,更早時(shí)期被稱作Acorn RISC Machine,是32位精簡(jiǎn)指令集(RISC)處理器架構(gòu)阻肿,被廣泛地使用在嵌入式系統(tǒng)設(shè)計(jì)中瓦戚。在應(yīng)用場(chǎng)景上有所不同。
ARM指令集架構(gòu)的主要特點(diǎn):一是體積小丛塌、低功耗较解、低成本、高性能赴邻,因此ARM處理器非常適用于移動(dòng)通訊領(lǐng)域印衔;二是大量使用寄存器且大多數(shù)數(shù)據(jù)操作都在寄存器中完成,指令執(zhí)行速度更快姥敛;三是尋址方式靈活簡(jiǎn)單奸焙,執(zhí)行效率高;四是指令長(zhǎng)度固定徒溪,可通過(guò)多流水線方式提高處理效率忿偷。
ARM的商業(yè)模式值得真正的關(guān)注金顿。ARM通過(guò)授權(quán)和版稅來(lái)賺取收入臊泌。使用ARM的授權(quán),跟據(jù)流片的次數(shù)揍拆,可以付一次流片的費(fèi)用渠概,也可以買三年內(nèi)無(wú)限次流片,更可以永久買斷嫂拴。芯片量產(chǎn)后播揪,根據(jù)產(chǎn)量,會(huì)按百分比收一點(diǎn)版稅筒狠。Intel通過(guò)售賣自己的芯片來(lái)贏得終端客戶和市場(chǎng)猪狈,而ARM則是通過(guò)授權(quán)讓全世界的芯片制造商使用自家的產(chǎn)品來(lái)推廣。ARM的商業(yè)模式之所以在智能手機(jī)時(shí)代能夠推廣辩恼,是因?yàn)橐苿?dòng)端的生態(tài)更為開放雇庙,自上而下的生態(tài)建立谓形,不僅是芯片開發(fā)者,也包括軟件開發(fā)者疆前,都被構(gòu)建在生態(tài)的范圍內(nèi)寒跳。
智能移動(dòng)設(shè)備上包含多件ARM的處理器/技術(shù),每當(dāng)智能手機(jī)上新增一個(gè)功能時(shí)竹椒,就為新的ARM知識(shí)產(chǎn)權(quán)帶來(lái)了新的機(jī)會(huì)童太。2016年,ARM在移動(dòng)應(yīng)用處理器(包括智能手機(jī)胸完、平板電腦和筆記本電腦)上书释,根據(jù)量的測(cè)算,其市場(chǎng)份額高達(dá)90%赊窥,同時(shí)ARM估計(jì)移動(dòng)應(yīng)用處理器規(guī)模將從2016年的200億美元增長(zhǎng)到2025年的300億美元征冷。
人工智能芯片——新架構(gòu)的異軍突起
首先我們必須描述人工智能對(duì)芯片的訴求腹侣,深度學(xué)習(xí)的目標(biāo)是模仿人類神經(jīng)網(wǎng)絡(luò)感知外部世界的方法叔收。深度學(xué)習(xí)算法的實(shí)現(xiàn)是人工智能芯片需要完成的任務(wù)。在算法沒(méi)有發(fā)生質(zhì)變的前提下傲隶,追根溯源饺律,所有的加速器芯片都是為了實(shí)現(xiàn)算法而設(shè)計(jì)。
我們整理了人工智能芯片相關(guān)的類型和產(chǎn)業(yè)鏈公司跺株,傳統(tǒng)的芯片廠商/生態(tài)的建立者/新進(jìn)入者复濒。 傳統(tǒng)的芯片制造廠商:Intel,Nvidia和AMD乒省。他們的優(yōu)勢(shì)在于在已有架構(gòu)上對(duì)人工智能的延伸巧颈,對(duì)于硬件的理解會(huì)優(yōu)于競(jìng)爭(zhēng)對(duì)手,但也會(huì)困頓于架構(gòu)的囹圄袖扛;2 上層生態(tài)的構(gòu)建者進(jìn)入芯片設(shè)計(jì)砸泛,比如蘋果和Google,優(yōu)勢(shì)在于根據(jù)生態(tài)靈活開發(fā)定制各類ASIC蛆封,專用性強(qiáng)唇礁;新進(jìn)入者,某些全新的架構(gòu)比如神經(jīng)網(wǎng)絡(luò)芯片的寒武紀(jì)惨篱,因?yàn)槭侨碌氖袌?chǎng)開拓盏筐,具有后發(fā)先至的可能。新進(jìn)入者的機(jī)會(huì)砸讳,因?yàn)槭莻€(gè)全新的架構(gòu)機(jī)會(huì)琢融,將有機(jī)會(huì)誕生獨(dú)角獸楷拳。
3.1. GPU——舊瓶裝新酒
GPU使用SIMD(單指令多數(shù)據(jù)流)來(lái)讓多個(gè)執(zhí)行單元以同樣的步伐來(lái)處理不同的數(shù)據(jù),原本用于處理圖像數(shù)據(jù)吏奸,但其離散化和分布式的特征欢揖,以及用矩陣運(yùn)算替代布爾運(yùn)算適合處理深度學(xué)習(xí)所需要的非線性離散數(shù)據(jù)。作為加速器的使用奋蔚,可以實(shí)現(xiàn)深度學(xué)習(xí)算法她混。但注意的是,GPU架構(gòu)依然基于馮諾伊曼泊碑。
我們以GPU和CPU的對(duì)比來(lái)說(shuō)明GPU所具有的架構(gòu)特點(diǎn)坤按。GPU由并行計(jì)算單元和控制單元以及存儲(chǔ)單元構(gòu)成GPU擁有大量的核(多達(dá)幾千個(gè)核)和大量的高速內(nèi)存,擅長(zhǎng)做類似圖像處理的并行計(jì)算馒过,以矩陣的分布式形式來(lái)實(shí)現(xiàn)計(jì)算臭脓。同CPU不同的是,GPU的計(jì)算單元明顯增多腹忽,特別適合大規(guī)模并行計(jì)算来累。
GPU的特征決定了其特別適合做訓(xùn)練继低。機(jī)器學(xué)習(xí)的廣泛應(yīng)用: 海量訓(xùn)練數(shù)據(jù)的出現(xiàn)以及 GPU 計(jì)算所提供的強(qiáng)大而高效的并行計(jì)算。? 人們利用 GPU 來(lái)訓(xùn)練這些深度神經(jīng)網(wǎng)絡(luò)韭山,所使用的訓(xùn)練集大得多郁季,所耗費(fèi)的時(shí)間大幅縮短,占用的數(shù)據(jù)中心基礎(chǔ)設(shè)施也少得多钱磅。 GPU 還被用于運(yùn)行這些機(jī)器學(xué)習(xí)訓(xùn)練模型,以便在云端進(jìn)行分類和預(yù)測(cè)似枕,從而在耗費(fèi)功率更低盖淡、占用基礎(chǔ)設(shè)施更少的情況下能夠支持遠(yuǎn)比從前更大的數(shù)據(jù)量和吞吐量。
與單純使用CPU的做法相比凿歼,GPU具有數(shù)以千計(jì)的計(jì)算核心褪迟、可實(shí)現(xiàn)10-100倍應(yīng)用吞吐量冗恨,因此GPU已經(jīng)成為數(shù)據(jù)科學(xué)家處理大數(shù)據(jù)的處理器。
NVIDIA是一家以設(shè)計(jì)GPU芯片為主業(yè)的半導(dǎo)體公司味赃,其主要產(chǎn)品從應(yīng)用領(lǐng)域劃分掀抹,包括GPU(如游戲圖形處理器GeForce GPU,深度學(xué)習(xí)處理器Tesla心俗,圖形處理器GRID等)和Tegra Processor(用于車載傲武,包括DRIVE PX和SHIELD)等。GPU芯片構(gòu)成公司最主要收入來(lái)源城榛,2017年上半年揪利,GPU貢獻(xiàn)收入34.59億美元,占公司總收入的83%狠持;Tegra Processor貢獻(xiàn)收入6.65億美元疟位,占比16%,其他部分貢獻(xiàn)收入1%喘垂。
公司業(yè)績(jī)穩(wěn)定甜刻,營(yíng)業(yè)收入除2013年略有下降外,2012-2016年均實(shí)現(xiàn)穩(wěn)步增長(zhǎng)正勒,從42.80億美元增至69.10億美元罢吃,CAGR為10.05%浸船;2016年公司實(shí)現(xiàn)凈利16.66億美元峡碉,相較于2012年的5.63億美元,CAGR達(dá)24.23%窄刘。毛利潤(rùn)方面阱驾,公司毛利潤(rùn)從2012年的22.26億美元增至2016年的40.63億美元就谜,實(shí)現(xiàn)穩(wěn)步增長(zhǎng),毛利率維持在50%以上里覆。
FPGA是用于解決專用集成電路的一種方案苔严。專用集成電路是為特定用戶或特定電子系統(tǒng)制作的集成電路定枷。人工智能算法所需要的復(fù)雜并行電路的設(shè)計(jì)思路適合用FPGA實(shí)現(xiàn)。FPGA計(jì)算芯片布滿“邏輯單元陣列”届氢,內(nèi)部包括可配置邏輯模塊欠窒,輸入輸出模塊和內(nèi)部連線三個(gè)部分,相互之間既可實(shí)現(xiàn)組合邏輯功能又可實(shí)現(xiàn)時(shí)序邏輯功能的獨(dú)立基本邏輯單元退子。
注意FPGA與傳統(tǒng)馮諾伊曼架構(gòu)的最大不同之處在于內(nèi)存的訪問(wèn)岖妄。FPGA在本質(zhì)上是用硬件來(lái)實(shí)現(xiàn)軟件的算法,因此在實(shí)現(xiàn)復(fù)雜算法方面有一些難度寂祥。
FPGA相對(duì)于CPU與GPU有明顯的能耗優(yōu)勢(shì)删掀,主要有兩個(gè)原因。首先嚣镜,在FPGA中沒(méi)有取指令與指令譯碼操作爬迟,在Intel的CPU里面,由于使用的是CISC架構(gòu)菊匿,僅僅譯碼就占整個(gè)芯片能耗的50%付呕;在GPU里面,取指令與譯碼也消耗了10%~20%的能耗跌捆。其次徽职,F(xiàn)PGA的主頻比CPU與GPU低很多,通常CPU與GPU都在1GHz到3GHz之間佩厚,而FPGA的主頻一般在500MHz以下姆钉。如此大的頻率差使得FPGA消耗的能耗遠(yuǎn)低于CPU與GPU。
根據(jù)Altera內(nèi)部文件顯示,Altera很早就在研發(fā)使用FPGA針對(duì)深度學(xué)習(xí)算法的應(yīng)用毯辅,并在2015年Intel的論壇上展示了產(chǎn)品的性能埂伦。結(jié)論是在功耗和性能上相對(duì)同等級(jí)的CPU,有較大的優(yōu)勢(shì)。CPU+FPGA在人工智能深度學(xué)習(xí)領(lǐng)域思恐,將會(huì)是未來(lái)的一個(gè)重要發(fā)展方向
ASIC(專用定制芯片)是為實(shí)現(xiàn)特定要求而定制的芯片沾谜,具有功耗低、可靠性高胀莹、性能高基跑、體積小等優(yōu)點(diǎn),但不可編程描焰,可擴(kuò)展性不及FPGA媳否,尤其適合適合高性能/低功耗的移動(dòng)端。目前栈顷,VPU和TPU都是基于ASIC架構(gòu)的設(shè)計(jì)逆日。
我們梳理針對(duì)圖像和語(yǔ)音這兩方面的人工智能定制芯片,目前主要有專用于圖像處理的VPU萄凤,以及針對(duì)語(yǔ)音識(shí)別的FAGA和TPU芯片室抽。
3.3.1. VPU——你是我的眼
VPU是專門為圖像處理和視覺(jué)處理設(shè)計(jì)的定制芯片。根據(jù)特定算法來(lái)實(shí)現(xiàn)定制化的芯片架構(gòu)靡努,實(shí)現(xiàn)特定的圖像處理能力坪圾,提高效率,是VPU的基礎(chǔ)理念惑朦。集成在攝像頭中的VPU,直接對(duì)輸入圖像進(jìn)行識(shí)別理解兽泄,消除了存儲(chǔ)器的讀寫操作。相較主流的移動(dòng)處理芯片(集成 GPU 的 SoC)漾月,VPU 的尺寸更小病梢,視覺(jué)處理運(yùn)算的效能更高。
以Movidiu公司產(chǎn)品Myriad2為例梁肿,VPU芯片包括接口電路(Interfaces)蜓陌、硬件加速器(Hardware Accelerators),矢量處理器陣列(Array of Vector Processors)吩蔑,精簡(jiǎn)指令集的CPU(RISC CPU)等部分钮热。接口電路支持多路攝像頭傳感器等外部設(shè)備,硬件加速器可以迅速的提高運(yùn)算處理速度烛芬,矢量處理器陣列專門針對(duì)機(jī)器視覺(jué)隧期,精簡(jiǎn)指令集的CPU(RISC CPU)主要進(jìn)行任務(wù)分配飒责。
目前霹崎,VPU的應(yīng)用市場(chǎng)有機(jī)器人珊搀、物聯(lián)網(wǎng)、智能穿戴設(shè)備尾菇、智能手機(jī)境析、無(wú)人駕駛、無(wú)人機(jī)等派诬。
TPU(Tensor Processing Unit)是谷歌的張量處理器冯挎,它是一款為機(jī)器學(xué)習(xí)而定制的芯片底哥,經(jīng)過(guò)了專門深度機(jī)器學(xué)習(xí)方面的訓(xùn)練咙鞍,它有更高效能。
從底層架構(gòu)的變革角度看,最前沿的革新以深度學(xué)習(xí)原理打造的人工神經(jīng)網(wǎng)絡(luò)芯片函筋。人工神經(jīng)網(wǎng)絡(luò)是模仿生物神經(jīng)網(wǎng)絡(luò)的計(jì)算架構(gòu)的總稱沙合,由若干人工神經(jīng)元節(jié)點(diǎn)互連而成,神經(jīng)元之間通過(guò)突觸連接驻呐。每個(gè)神經(jīng)元其實(shí)是一個(gè)激勵(lì)函數(shù)灌诅,突觸則是記錄神經(jīng)元間聯(lián)系的強(qiáng)弱權(quán)值。
神經(jīng)網(wǎng)絡(luò)是多層的含末,一個(gè)神經(jīng)元函數(shù)的輸入由與其相連的上一個(gè)神經(jīng)元的輸出以及連接突觸權(quán)重共同決定猜拾。所謂訓(xùn)練神經(jīng)網(wǎng)絡(luò),就是通過(guò)不斷自動(dòng)調(diào)整神經(jīng)元之間突觸權(quán)重的過(guò)程佣盒,直到輸出結(jié)果穩(wěn)定正確挎袜。然后在輸入新數(shù)據(jù)時(shí),能夠根據(jù)當(dāng)前的突觸權(quán)重計(jì)算出輸出結(jié)果肥惭。以此來(lái)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)對(duì)已有知識(shí)的“學(xué)習(xí)”盯仪。神經(jīng)網(wǎng)絡(luò)中存儲(chǔ)和處理是一體化的,中間計(jì)算結(jié)果化身為突觸的權(quán)重蜜葱。
馮諾伊曼架構(gòu)的傳統(tǒng)處理器處理神經(jīng)網(wǎng)絡(luò)任務(wù)時(shí)效率低下全景,是由其本身的架構(gòu)限制決定的。馮諾伊曼架構(gòu)存儲(chǔ)和處理分離牵囤,基本運(yùn)算為算術(shù)和邏輯操作爸黄,這兩點(diǎn)決定了一個(gè)神經(jīng)元的處理需要成百上千條指令才能完成滞伟。以AlphaGo為例,總共需要1202個(gè)CPU+176個(gè)CPU炕贵。
真正打造的類腦芯片梆奈,寒武紀(jì)試圖將通過(guò)低功耗高性能的架構(gòu)重塑,顛覆已有的馮諾伊曼架構(gòu)称开,實(shí)現(xiàn)在移動(dòng)端/云端的加速器實(shí)現(xiàn)亩钟。
我們?cè)谇岸轮攸c(diǎn)討論了Intel和ARM的歷史發(fā)展睛蛛,認(rèn)為馮諾伊曼架構(gòu)帶來(lái)了計(jì)算體系的建立并通過(guò)Intel實(shí)現(xiàn)了最大化;ARM通過(guò)共享IP的商業(yè)模式帶來(lái)了更開放的生態(tài)體系胧谈,實(shí)現(xiàn)了軟硬件的結(jié)合延伸了人類的觸角忆肾。同時(shí)我們認(rèn)為人工智能芯片將有可能在摩爾定律放緩維度下引發(fā)芯片底層架構(gòu)重構(gòu)的變革。
本章我們重點(diǎn)討論人工智能芯片的市場(chǎng)空間測(cè)算菱肖,我們從兩個(gè)維度來(lái)進(jìn)行估算客冈,給出詳細(xì)的拆解。
維度一:市場(chǎng)規(guī)模反推芯片空間
根據(jù)Nvidia官方給出的資料統(tǒng)計(jì)稳强,到2020年场仲,由軟件、硬件退疫、服務(wù)三者組成的人工智能市場(chǎng)將達(dá)到400億美元渠缕,其中硬件占到1/3強(qiáng),為160億美元褒繁。而硬件的核心是芯片亦鳞。我們估算硬件的BOM,芯片會(huì)占到60%棒坏,芯片空間將達(dá)到96億美元燕差。
人工智能芯片從用途來(lái)看,分為云端加速器芯片和終端(包括智能手機(jī)坝冕、無(wú)人駕駛汽車徒探、)智能芯片。我們基于這兩個(gè)場(chǎng)景喂窟,給出結(jié)論测暗,預(yù)測(cè)至2021年吵血,人工智能芯片市場(chǎng)有望達(dá)到111億美元,CAGR達(dá)20.99%偷溺。
具體來(lái)看云端方面蹋辅,根據(jù)Gartner的統(tǒng)計(jì),到 2020 年挫掏,全球云計(jì)算市場(chǎng)規(guī)模將達(dá)到 3834億美元侦另,其中,云基礎(chǔ)設(shè)施服務(wù)市場(chǎng)規(guī)模達(dá)863.5億美元尉共。
終端方面剧蚣,目前人工智能芯片主要應(yīng)用領(lǐng)域是智能手機(jī)支竹、無(wú)人駕駛汽車和無(wú)人機(jī)。我們假設(shè):
1)智能手機(jī)全球出貨量年均增速3.3%鸠按,主處理器平均價(jià)格15美元礼搁,帶人工智能芯片模塊占智能手機(jī)主處理器BOM的10%
2)帶人工智能功能的智能手機(jī)滲透率從2018的10%提升到2020年的40%。目尖;
3)無(wú)人駕駛汽車市場(chǎng)規(guī)模年均增速10%馒吴。因無(wú)人駕駛汽車以及其芯片市場(chǎng)均尚未成型,目前成本較高瑟曲,我們假設(shè)芯片成本占總成本的20%饮戳,人工智能芯片占處理器成本的10%。據(jù)此預(yù)測(cè)終端領(lǐng)域人工智能芯片的市場(chǎng)規(guī)模洞拨。
據(jù)此我們預(yù)測(cè)扯罐,在終端領(lǐng)域,至2021年扣甲,全球人工智能芯片市場(chǎng)規(guī)模由2016年的3.05億美元增至5.55億美元篮赢,CAGR為10.49%。其中琉挖,智能手機(jī)市場(chǎng)中启泣,人工智能芯片由2016年的2.25億美元增至2021年的4.26億美元,CAGR為11.24%示辈;無(wú)人駕駛汽車市場(chǎng)中寥茫,人工智能芯片由2016年的0.80億美元增至2021年的1.29億美元,CAGR為8.27%矾麻。
臺(tái)積電:無(wú)論是何種架構(gòu)的人工智能芯片纱耻,都是依賴于臺(tái)積電最先進(jìn)制程的代工工藝芭梯,在全球只有臺(tái)積電能夠提供HPC(高性能計(jì)算芯片)的工藝平臺(tái)上,行業(yè)的卡位優(yōu)勢(shì)已然確立弄喘,確定性受益標(biāo)的玖喘。
Intel:收購(gòu)Altera,收購(gòu)Movidius蘑志,CPU+FPGA方案累奈,Intel在人工智能領(lǐng)域的布局長(zhǎng)遠(yuǎn),而通過(guò)我們的測(cè)算急但,服務(wù)器端將是人工智能芯片未來(lái)行業(yè)滲透和消耗的重點(diǎn)澎媒,而Intel在服務(wù)器端已經(jīng)有深厚不可撼動(dòng)的優(yōu)勢(shì)。
NVIDIA:目前人工智能芯片領(lǐng)域的領(lǐng)跑者波桩,深度學(xué)習(xí)訓(xùn)練領(lǐng)域的唯一方案選擇戒努。有完整的生態(tài)布局,針對(duì)云端+汽車自動(dòng)駕駛镐躲,百億美元新增市場(chǎng)的競(jìng)爭(zhēng)者储玫。
寒武紀(jì):寒武紀(jì)試圖將代表性智能算法的處理速度和性能功耗比提升一萬(wàn)倍,在移動(dòng)端實(shí)時(shí)完成圖像語(yǔ)音和文本的理解和識(shí)別匀油,更為重要的是通過(guò)實(shí)時(shí)訓(xùn)練缘缚,還能不斷進(jìn)化提升能力,真正實(shí)現(xiàn)超越敌蚜。
富瀚微:國(guó)內(nèi)上市公司智能視頻監(jiān)控領(lǐng)域的前端芯片方案解決商,在前端芯片集成一定的智能算法功能處理窝爪。
北京君正:積極進(jìn)入視頻監(jiān)控領(lǐng)域的芯片方案解決商弛车,曾經(jīng)的MIPS方案芯片設(shè)計(jì)商,有芯片架構(gòu)層基因蒲每,對(duì)標(biāo)Movidius纷跛。
全志科技:SoC芯片方案解決商,未來(lái)能將AI算法模塊嵌入SoC之中邀杏。