姓名 符子龍绳慎,學(xué)號14020120006
【嵌牛導(dǎo)讀】一年的時間纵竖,股價增長兩倍以上漠烧,創(chuàng)始人成為《財富》雜志2017年度商業(yè)人物,這家公司就是風(fēng)頭正勁英偉達(NVIDIA)靡砌。在多年的耕耘之后已脓,英偉達的憑借著先發(fā)優(yōu)勢和快速迭代在AI時代迅速崛起。如今通殃,英偉達的GPU幾乎壟斷了AI芯片市場度液,著實讓人眼紅。不過画舌,大部分公司都不希望自己的命脈掌控在別人手中堕担,于是谷歌推出了TPU,然后其他公司紛紛效仿曲聂,開始研發(fā)類似的深度學(xué)習(xí)專用芯片霹购。那么類似TPU這種的專用芯片真的能對英偉達的GPU產(chǎn)生威脅嗎?
【嵌牛鼻子】人工智能朋腋,機器學(xué)習(xí)齐疙,智能硬件。
【嵌牛提問】深度學(xué)習(xí)的硬件和軟件的發(fā)展方向旭咽,對于終端市場來說深度學(xué)習(xí)帶來了什么贞奋?
【嵌牛正文】
近日,ARK Invest的分析師James Wang撰文對這個問題進行了全面剖析穷绵,AI科技大本營對全文進行了不改變原意的翻譯轿塔,希望能給讀者,給整個行業(yè)一點啟發(fā)仲墨。
過去兩年間勾缭,深度學(xué)習(xí)的熱潮使英偉達的數(shù)據(jù)中心業(yè)務(wù)增長了五倍,同時也催生了行業(yè)競爭宗收。截至2017年漫拭,以打造深度學(xué)習(xí)專用芯片為目標的創(chuàng)業(yè)公司已有十幾家。除此之外混稽,Alphabet(谷歌母公司)采驻、英特爾、高通匈勋、蘋果等一票大型上市科技公司也在計劃進入深度學(xué)習(xí)芯片市場礼旅。
在日益加劇的競爭下,英偉達還能在深度學(xué)習(xí)芯片市場中保持領(lǐng)先地位嗎洽洁?哪個新來者最有可能獲得成功痘系?
目前的競爭主要集中在TPU(張量處理單元)領(lǐng)域,這是一種用于加速張量運算的新型芯片饿自,深度學(xué)習(xí)算法的核心工作負載就是張量運算汰翠。Alphabet龄坪、英特爾、Wave Computing聲稱复唤,TPU在執(zhí)行深度學(xué)習(xí)算法時要比GPU快十倍健田。對此差距的一種解釋是,GPU主要是為處理圖像而設(shè)計的佛纫,芯片中的很大一部分執(zhí)行單元并不參與深度學(xué)習(xí)運算妓局。以英偉達最新的Volta GPU為例, 在GPU核心(如下圖所示)中呈宇,只有右側(cè)的兩個張量核心(Tensor Cores)負責(zé)執(zhí)行深度學(xué)習(xí)運算好爬,左側(cè)的執(zhí)行單元要么很少使用,要么不太適合進行深度學(xué)習(xí)運算甥啄。而新成立的深度學(xué)習(xí)創(chuàng)業(yè)公司造出的芯片則似乎完全由張量核心和晶載內(nèi)存(on-chip memory)組成存炮。理論上,這種TPU在利用率和性能上要優(yōu)于GPU蜈漓。
不過目前看來僵蛛,實際情況并非如此。在研發(fā)深度學(xué)習(xí)芯片的十幾家公司中迎变,只有谷歌和Wave Computing擁有能夠工作的芯片,并正在進行客戶測試飘言。雖然谷歌宣稱自家的TPU在性能和能效的表現(xiàn)上要比GPU好很多衣形,但是這一說法并沒有經(jīng)過獨立驗證。谷歌的第二代“Cloud TPU”的功率大概為200多瓦姿鸿,和英偉達的GPU處在同一范圍內(nèi)谆吴。而Wave Computing表示它的3U深度學(xué)習(xí)服務(wù)器可以在40分鐘內(nèi)訓(xùn)練完AlexNet,比英偉達的P100 DGX-1服務(wù)器快3倍苛预。如果這是真的句狼,當然令人印象深刻,不過按照Wave Computing的說法热某,其TPU的處理速度本來要快1000倍腻菇。奇怪的是,這兩家公司生產(chǎn)的新芯片都沒有被廣泛地使用昔馋,這或許表明TPU的實際表現(xiàn)并不如GPU筹吐。
TPU之所以沒能超越GPU,英偉達的GPU架構(gòu)進化得非趁囟簦快是其中的一個重要原因丘薛。在經(jīng)歷了四代GPU的迭代之后,英偉達將其深度學(xué)習(xí)芯片的架構(gòu)效率提升了約10倍邦危。下方的圖表顯示了各代GPU每秒鐘執(zhí)行100萬次深度學(xué)習(xí)運算所需晶體管的數(shù)量洋侨。需要的晶體管數(shù)量越少舍扰,架構(gòu)的效率就越高。如果將所有芯片廠商的晶體管數(shù)量限制在同一水平希坚,那么誰設(shè)計的架構(gòu)效率最高边苹,誰的性能就最好。
英偉達的K40是最先應(yīng)用于深度學(xué)習(xí)的首批GPU之一吏够,它每秒執(zhí)行100萬次運算需要使用1400個晶體管勾给。其繼任者M40移除了深度學(xué)習(xí)算法不需要的硬件(FP64單元),它只需1000個晶體管就能實現(xiàn)和K40同樣的性能锅知。英偉達在之后推出的P40 GPU上添加了對FP16指令添加的支持播急,使得P40的效能達到M40的兩倍。新推出的V100芯片在每個數(shù)據(jù)通道上添加了兩個專用張量核心售睹,在架構(gòu)效能上是P40的3倍桩警。 在過去幾年間,英偉達將其GPU 的架構(gòu)性能提升了大概10倍昌妹,這就是TPU到現(xiàn)在還無法替代GPU的主要原因捶枢。
就算初創(chuàng)公司在深度學(xué)習(xí)硬件上可能占有優(yōu)勢,但是在軟件上英偉達依舊遙遙領(lǐng)先飞崖。和主要使用兩大API(DirectX 和 OpenGL)的制圖任務(wù)不同烂叔,深度學(xué)習(xí)算法的軟件框架有十幾種之多。而且每種框架都有自己的擁護者:谷歌使用TensorFlow固歪;Facebook使用Pytorch 和 Caffe蒜鸡;微軟使用CNTK;百度使用PaddlePaddle牢裳。由于英偉達最先入場逢防,它的產(chǎn)品支持以上提到的所有框架,而其競爭對手大部分都只支持支持TensorFlow和Caffe蒲讯。
如果深度學(xué)習(xí)編程是圍繞一個領(lǐng)先的框架進行整合的忘朝,假設(shè)是TensorFlow,那么英偉達在軟件上的領(lǐng)先優(yōu)勢就會不再那么重要判帮。但是目前開發(fā)者傾向于使用不同的深度學(xué)習(xí)框架局嘁,因此英偉達可以利用在軟件上的巨大優(yōu)勢領(lǐng)先對手。
終端設(shè)備市場有很大機會
許多創(chuàng)業(yè)公司選擇為連接型終端設(shè)備開發(fā)深度學(xué)習(xí)芯片晦墙,而不是與英偉達在服務(wù)器市場展開正面對決导狡。這是一個新興市場,沒有什么確立的領(lǐng)先者偎痛,而且每年生產(chǎn)的終端設(shè)備可達數(shù)百億臺旱捧,對芯片的需求很大。終端設(shè)備所使用的芯片必須符合低至1瓦的功率要求。英偉達的SoC設(shè)計所要求的功率須達到幾十瓦枚赡,多數(shù)終端設(shè)備都不適用氓癌。實際上英偉達早已退出了這個市場。2017年5月贫橙,英偉達宣布將開源其深度學(xué)習(xí)加速器(DLA)的設(shè)計贪婉,DLA是Xavier芯片上一種類似于TPU的單元。英偉達此舉表明終端設(shè)備市場的規(guī)模和差異太大卢肃,單靠一款芯片是無法滿足客戶的需求的疲迂,最終客戶只好要求定制化設(shè)計,這和如今的智能手機市場很像莫湘。
在ARK看來尤蒿,新來者在終端市場中成功的可能性最大。在接下來的幾年時間里幅垮,智能手機系統(tǒng)級芯片(SoC)很可能會像之前加入GPU和modem邏輯單元一樣加入TPU邏輯單元腰池,并因此催生出一大批新的專利許可公司。例如忙芒,中國的寒武紀公司將其TPU設(shè)計許可給華為示弓,用于生產(chǎn)麒麟970芯片。目前呵萨,蘋果奏属、高通等老牌系統(tǒng)級芯片廠商內(nèi)部正在開發(fā)這種芯片技術(shù),并且會在接下來的一或兩個產(chǎn)品周期內(nèi)推出集成TPU的系統(tǒng)級芯片潮峦。(AI科技大本營注:蘋果在已經(jīng)發(fā)布的A11 Bionic里已經(jīng)集成了神經(jīng)網(wǎng)絡(luò)引擎)
除了在智能手機上的應(yīng)用拍皮,深度學(xué)習(xí)還能為Mythic和Thinci這樣的新興公司提供巨大的市場機遇。雖然這些公司大部分會被收購跑杭,但是少數(shù)幾家可能會成為下一個Imagination Technologies(市值5億美元)、ARM(以320億美元被收購)或高通(市值780億美元)咆耿。
在上世紀九十年代德谅,英偉達曾與十幾家芯片廠商(如上圖所示)競爭,并最終成為勝利者∪荩現(xiàn)在窄做,它正與新一批的競爭對手在深度學(xué)習(xí)芯片上展開對決。盡管英偉達擊退了的第一波TPU廠商慰技,但是現(xiàn)在它還沒有脫離危險椭盏。今年年末,英特爾和GraphCore很可能會分別發(fā)布自家類TPU產(chǎn)品吻商,借助完全不同的芯片設(shè)計超越英偉達的Volta GPU掏颊。不過根據(jù)過往經(jīng)驗,采用特殊的芯片架構(gòu)往往很難撼動英偉達的地位。Crusoe乌叶、Itanium盆偿、Cell、Larrabee和 Niagara雖然都采用了創(chuàng)新的架構(gòu)設(shè)計准浴,但是在商業(yè)上卻一敗涂地事扭。
除非獨立測試證明TPU的表現(xiàn)明顯優(yōu)于GPU,否則英偉達仍將繼續(xù)在深度學(xué)習(xí)數(shù)據(jù)中心業(yè)務(wù)上占據(jù)主導(dǎo)地位乐横。至于終端設(shè)備求橄,創(chuàng)業(yè)公司有大量的機會來借助人工智能技術(shù)徹底變革這個市場。下一個ARM可能就在我們中間葡公。