參考鏈接:
https://www.arm.com/solutions/artificial-intelligence
https://developer.arm.com/ip-products/processors/machine-learning/arm-nn
https://github.com/Arm-software/armnn
http://www.elecfans.com/d/643409.html
armnn是arm公司推出的一項(xiàng)開(kāi)源軟件超陆,可在基于arm的高性能平臺(tái)上完成機(jī)器學(xué)習(xí)應(yīng)用程序的構(gòu)建和運(yùn)行
armnn橋接了底層硬件和深度學(xué)習(xí)框架(tf, tf_lite, caffe, 等)锤悄,可以在編程過(guò)程中選擇用到的后臺(tái)計(jì)算硬件(包括CPU褂策,mali GPU或者arm的專(zhuān)用NPU)這樣我們能夠很方便地在嵌入式平臺(tái)上搭建訓(xùn)練好的深度學(xué)習(xí)模型么翰,并配合opencv或者其他開(kāi)源框架構(gòu)建完整的人工智能應(yīng)用董瞻。
本文將大致總結(jié)一下用armnn來(lái)運(yùn)行一個(gè)神經(jīng)網(wǎng)絡(luò)需要的步驟
需要包含的頭文件
#include "armnn/ArmNN.hpp"
#include "armnn/Exceptions.hpp"
#include "armnn/Tensor.hpp"
#include "armnn/INetwork.hpp"
#include "armnnTfParser/ITfParser.hpp"
armnn運(yùn)行一個(gè)神經(jīng)網(wǎng)絡(luò)的過(guò)程主要包括如下步驟:
- 讀取模型捏境,創(chuàng)建網(wǎng)絡(luò)
armnnTfParser::ITfParserPtr parser = armnnTfParser::ITfParser::Create();
armnn::INetworkPtr network = parser->CreateNetworkFromBinaryFile(輸入數(shù)據(jù)(指針),{{input_tensor_name, 輸入tensor的size}},{output_tensor_name});
armnnTfParser::BindingPointInfo inputBindingInfo = parser->GetNetworkInputBindingInfo(input_tensor_name);
armnnTfParser::BindingPointInfo outputBindingInfo = parser->GetNetworkOutputBindingInfo(output_tensor_name);
- 配置運(yùn)行參數(shù),其中可以指定用到的后臺(tái)窖壕,包括CPU忧勿,GPU。其中使用GPU能夠明顯提升神經(jīng)網(wǎng)絡(luò)運(yùn)行速度瞻讽,在RK3399平臺(tái)上鸳吸,對(duì)于一個(gè)基于resnet-18的語(yǔ)義分割網(wǎng)絡(luò)(兩個(gè)resnet-18正向反向相接,pb格式的模型大小約為90MB)速勇,使用GpuAcc選項(xiàng)運(yùn)行時(shí)間大概在1.2s左右层释,使用CpuRef選項(xiàng)用時(shí)接近200s,而直接使用tensorflow for aarch64的python接口,運(yùn)行時(shí)間在4s左右(可能是編譯好的tensorflow for aarch64中使用了一些加速方法)快集。不過(guò)使用GPU存在的一個(gè)問(wèn)題就是IO時(shí)間要比使用CPU長(zhǎng)很多,如果跑一些小網(wǎng)絡(luò)(比如lenet-5,使用CPU循環(huán)執(zhí)行500000次用時(shí)16s廉白,用GPU循環(huán)執(zhí)行5000次同樣用時(shí)16s)使用CPU來(lái)完成會(huì)更好个初。
armnn::IRuntime::CreationOptions options;
armnn::IRuntimePtr runtime = armnn::IRuntime::Create(options);
options.m_EnableGpuProfiling = false;
options.m_GpuAccTunedParameters = armnn::IGpuAccTunedParameters::Create(armnn::IGpuAccTunedParameters::Mode::UseTunedParameters);
armnn::IOptimizedNetworkPtr optNet = armnn::Optimize(*network, {armnn::Compute::GpuAcc}, runtime->GetDeviceSpec());
armnn::NetworkId networkIdentifier;
runtime->LoadNetwork(networkIdentifier, std::move(optNet));
- 讀入數(shù)據(jù)并運(yùn)行模型
armnn::Status ret = runtime->EnqueueWorkload(networkIdentifier,MakeInputTensors(inputBindingInfo, &arr_256[0]),MakeOutputTensors(outputBindingInfo, &output[0]));
其中函數(shù) makeInputTensor 和 makeOutputTensor定義如下:
armnn::InputTensors MakeInputTensors(const std::pair<armnn::LayerBindingId,armnn::TensorInfo> &input, const void *inputTensorData)
{
return {{input.first, armnn::ConstTensor(input.second, inputTensorData)}};
}
// Helper function to make output tensors
armnn::OutputTensors MakeOutputTensors(const std::pair<armnn::LayerBindingId, armnn::TensorInfo> &output, void *outputTensorData)
{
return {{output.first, armnn::Tensor(output.second, outputTensorData)}};
}