一般的機器學習工程師很少考慮計算資源。而且他們也很少關(guān)心內(nèi)存的使用情況。為什么震庭?因為這些硬件都很便宜左胞,甚至是你的手機都擁有相當不錯的 CPU 和大量內(nèi)存寇仓。
嵌入式設備可以是任何電動機械,甚至是微波爐和洗衣機烤宙,如今遍烦,幾乎所有的電氣設備都是嵌入式的。這些設備內(nèi)部可能擁有一個或多個控制器來負責每個功能:觸摸感應躺枕、發(fā)動機狀態(tài)監(jiān)控等服猪。
邊緣計算芯片
真正的嵌入式世界供填,由資源極其有限的 1-2 美元芯片組成。而生產(chǎn)級別的產(chǎn)品使用的就是這種芯片罢猪。
邊緣機器學習芯片可讓終端設備能夠在本地執(zhí)行密集型機器學習計算近她,減少甚至消除了將大量數(shù)據(jù)發(fā)送到遠端位置的需求,因此在可用性膳帕、速度粘捎、數(shù)據(jù)安全性和隱私性方面益處良多。
從隱私和安全性方面來看危彩,在邊緣設備上處理數(shù)據(jù)顯然更安全攒磨;個人信息不離開手機就不會被攔截或濫用。而當邊緣AI芯片安裝在手機上時汤徽,即使未連接到網(wǎng)絡娩缰,它也可以完成所有處理。
除了相對便宜之外谒府,獨立的邊緣AI處理器還具有體積小的優(yōu)勢拼坎,而且功耗也相對較低,僅為1到10W之間完疫。相比之下演痒,一個由16個GPU和兩個CPU組成的數(shù)據(jù)中心集群功能非常強大,但成本也十分昂貴趋惨,高達40萬美元鸟顺,重350磅,耗電要10千瓦器虾。
當設備上的邊緣AI芯片無法處理太多數(shù)據(jù)時讯嫂,發(fā)送數(shù)據(jù)給遠端AI陣列來處理是適當?shù)模踔潦鞘走x方案兆沙。實際上欧芽,多數(shù)情況下,AI將以混合模式完成:一部分在設備端實現(xiàn)葛圃,一部分在云端實現(xiàn)千扔。具體情況下應該選擇什么樣的混合方式,要看需要完成的AI處理類型库正。
在蘋果的A12 仿生芯片上曲楚,專用于機器學習的部分約占裸片總面積的7%。如果整個處理器的成本為72美元褥符,那么邊緣AI部分的成本約為5.10美元龙誊。在智能手機芯片中添加專用的邊緣AI NPU是很自然的事。按照正常的利潤加價幅度喷楣,制造成本增加1美元趟大,對最終消費者而言也僅增加2美元鹤树。這意味著即使是價格低于250美元的智能手機,也可以擁有NPU及其帶來的益處逊朽,如更好的攝像頭罕伯、離線語音助手等,而價格漲幅也不過1%叽讳。
邊緣AI處理器已經(jīng)有一些企業(yè)用例了捣炬,例如某些自主無人機。配備了智能手機SoC應用處理器的無人機能夠完全在設備端進行實時導航和避障绽榛,而無需網(wǎng)絡連接。
據(jù)說婿屹,有多達50家不同的公司正在開發(fā)各種各樣的AI加速芯片灭美。2019年就已經(jīng)有獨立的邊緣AI芯片面向開發(fā)人員供應,可以單獨購買昂利,價格約為80美元届腐。如果生產(chǎn)量達到百萬級別的話,設備制造商的購買成本會大大降低蜂奸,有些甚至低至1美元(甚至可能更低)犁苏,而有些要幾十美元。
邊緣 AI可以為企業(yè)帶來更多新的可能性扩所,尤其是在物聯(lián)網(wǎng)應用方面围详。通過使用邊緣AI芯片,企業(yè)可以極大地提高在設備端的數(shù)據(jù)分析能力(而不僅僅從聯(lián)網(wǎng)設備端收集數(shù)據(jù))祖屏,并能夠?qū)⒎治鼋Y(jié)果轉(zhuǎn)化為行動助赞,從而避免了將海量數(shù)據(jù)發(fā)送到云端造成的成本、復雜性和安全性方面的挑戰(zhàn)袁勺。
在某些情況下雹食,設備聯(lián)網(wǎng)是不切實際的,無人機就是個很好的例子期丰。無人機的操作位置決定了維持其聯(lián)網(wǎng)可能很困難群叶,而且聯(lián)網(wǎng)本身以及將數(shù)據(jù)上傳到云端都會縮短電池壽命。在澳大利亞新南威爾士州钝荡,裝配有嵌入式機器學習功能的無人機可以巡邏海灘街立,以確保游泳者的安全。無需互聯(lián)網(wǎng)連接埠通,這些無人機就可以識別出被海浪卷走的游泳者几晤,或者在鯊魚和鱷魚襲擊來臨前警告游泳者。
低功耗的機器學習芯片甚至可以在小型電池供電的設備上執(zhí)行AI計算植阴,而不會消耗過多功率蟹瘾。例如圾浅,Arm芯片可以嵌入到呼吸機中來分析數(shù)據(jù),比如吸入肺活量和進入肺部的藥物流憾朴。在呼吸機上進行AI分析狸捕,然后將結(jié)果發(fā)送到智能手機上的APP,這樣就可以幫助醫(yī)療保健專家為哮喘患者提供個性化護理众雷。除了現(xiàn)在已有的低功率邊緣AI NPU外灸拍,很多公司還致力于開發(fā)“微型機器學習”:在微控制器單元之類的器件上實現(xiàn)深度學習。例如砾省,谷歌正在開發(fā)一個TensorFlow Lite版本鸡岗,可以讓微控制器分析數(shù)據(jù),并將需要發(fā)送到芯片外的數(shù)據(jù)壓縮為只有幾個字節(jié)大小编兄。
由AI芯片推動的智能設備將有助于擴展現(xiàn)有市場轩性,沖擊現(xiàn)有企業(yè),同時改變制造狠鸳、建筑揣苏、物流、農(nóng)業(yè)和能源等行業(yè)的價值分配方式件舵。收集卸察、理解并立即根據(jù)大量數(shù)據(jù)采取行動的能力對于依賴大數(shù)據(jù)的應用將變得至關(guān)重要.
想在這個微型控制器上運行機器學習模型,就需要使用 C 代碼進行模型搭建铅祸。機器學習社區(qū)還有一個重大的問題:沒有“嵌入式 AI”的專業(yè)工具坑质。
請參考:
paper: Machine Learning Fails When It Comes to Embedded System. Here’s Why
將機器學習工作負載優(yōu)化并部署到裸機設備上是很困難的
此類器件大都處于早期開發(fā)階段,因為設計人員正在努力尋找最有效的算法临梗,甚至人工智能 (AI) 研究人員也在迅速推演新方法洪乍。
高性能FPGA的出現(xiàn)使得開發(fā)人員可以構(gòu)建性能接近GPU的推理引擎。
采用專為嵌入式視覺設計的機器學習FPGA平臺夜焦,開發(fā)人員可以專注于特定需求壳澳,使用標準機器學習框架訓練模型,并依靠FPGA平臺實現(xiàn)高性能推理茫经。
FPGA可以提供顯著的性能升級和快速開發(fā)平臺巷波。例如, 萊迪思半導體(Lattice Semiconductor)的SensAI平臺使用神經(jīng)網(wǎng)路編譯器卸伞,能夠?qū)ensorFlow pb檔和其他檔案編譯到Lattice 神經(jīng)網(wǎng)路IP核心上抹镊,以便在其FPGA上實現(xiàn)人工智慧。
專用的AI元件則更進一步荤傲,它們採用特別設計的硬體來加速針對大眾市場的機器學習應用垮耳。例如Intel Movidius Neural Compute Stick、NVIDIA Jetson TX2模組和高通(Qualcomm) Snapdragon模組等硬體設備可讓開發(fā)人員在各種系統(tǒng)中嵌入高性能機器學習演算法。
專門針對AI應用的架構(gòu)旨在減少CPU對記憶體容量需求的瓶頸终佛。例如俊嗽,IBM在2018年VLSI Circuits Symposium上描述的AI加速器晶片將用於加速矩陣乘法的處理單元,與用於減少外部記憶體存取的「草稿記憶體」(scratchpad memory)層級結(jié)合在一起(圖7)铃彰。同樣地绍豁,新興的高階AI晶片利用各種方法將微架構(gòu)中的邏輯和記憶體合併,以加速AI應用的各種運作牙捉。
參考資料:
Applying machine learning in embedded systems