1-什么是算力
TOPS是Tera Operations Per Second的縮寫(xiě)
1TOPS代表處理器每秒鐘可進(jìn)行一萬(wàn)億次(10^12)操作
GOPS(Giga Operations Per Second:1GOPS代表處理器每秒鐘可進(jìn)行十億次(10^9)操作
MOPS(Million Operation Per Second):1MOPS代表處理器每秒鐘可進(jìn)行一百萬(wàn)次(10^6)操作
一個(gè)MFLOPS(megaFLOPS)等于每秒一百萬(wàn)(=10^6)次的浮點(diǎn)運(yùn)算
一個(gè)GFLOPS(gigaFLOPS)等于每秒十億(=10^9)次的浮點(diǎn)運(yùn)算
一個(gè)TFLOPS(teraFLOPS)等于每秒一萬(wàn)億(=10^12)次的浮點(diǎn)運(yùn)算注簿,(1太拉)
一個(gè)PFLOPS(petaFLOPS)等于每秒一千萬(wàn)億(=10^15)次的浮點(diǎn)運(yùn)算
2-什么TensorRT
高吞吐率凤优、低響應(yīng)時(shí)間煌往、低資源消耗以及簡(jiǎn)便的部署流程要求,因此TensorRT就是用來(lái)解決推理所帶來(lái)的挑戰(zhàn)以及影響的部署級(jí)的解決方案英支。TensorRT 是nvidia 自己開(kāi)發(fā)的,主要作用就是對(duì)算法進(jìn)行優(yōu)化杖挣,然后進(jìn)行了部署
TensorRT 部署流程:
TensorRT的部署分為兩個(gè)部分:
- 優(yōu)化訓(xùn)練好的模型并生成計(jì)算流圖
- 使用TensorRT Runtime部署計(jì)算流圖
- 輸入篇之網(wǎng)絡(luò)框架:TensorRT3支持所有常見(jiàn)的深度學(xué)習(xí)框架包括Caffe慢洋、Chainer、CNTK匾效、MXnet搏予、PaddlePaddle、Pytorch弧轧、TensorFlow以及Theano雪侥。
- 輸入篇之接口方式:TensorRT3支持模型導(dǎo)入方式包括C++ API、Python API精绎、NvCaffeParser和NvUffParser
- 輸出篇之支持系統(tǒng)平臺(tái):TensorRT3支持的平臺(tái)包括Linux x86速缨、Linux aarch64、Android aarch64和QNX aarch64代乃。
- 輸出篇之支持硬件平臺(tái):TensorRT3可以運(yùn)行在每一個(gè)GPU平臺(tái)旬牲,從數(shù)據(jù)中心的Tesla P4/V100到自動(dòng)駕駛和嵌入式平臺(tái)的DrivePX及TX1/TX2。
3-TensorRT優(yōu)化方式
-
層間融合或張量融合(Layer & Tensor Fusion)
如下圖左側(cè)是GoogLeNetInception模塊的計(jì)算圖搁吓。這個(gè)結(jié)構(gòu)中有很多層原茅,在部署模型推理時(shí),這每一層的運(yùn)算操作都是由GPU完成的堕仔,但實(shí)際上是GPU通過(guò)啟動(dòng)不同的CUDA(Compute unified device architecture)核心來(lái)完成計(jì)算的擂橘,CUDA核心計(jì)算張量的速度是很快的,但是往往大量的時(shí)間是浪費(fèi)在CUDA核心的啟動(dòng)和對(duì)每一層輸入/輸出張量的讀寫(xiě)操作上面摩骨,這造成了內(nèi)存帶寬的瓶頸和GPU資源的浪費(fèi)通贞。TensorRT通過(guò)對(duì)層間的橫向或縱向合并(合并后的結(jié)構(gòu)稱為CBR,意指 convolution, bias, and ReLU layers are fused to form a single layer)恼五,使得層的數(shù)量大大減少昌罩。橫向合并可以把卷積、偏置和激活層合并成一個(gè)CBR結(jié)構(gòu)灾馒,只占用一個(gè)CUDA核心茎用。縱向合并可以把結(jié)構(gòu)相同睬罗,但是權(quán)值不同的層合并成一個(gè)更寬的層轨功,也只占用一個(gè)CUDA核心。合并之后的計(jì)算圖(圖4右側(cè))的層次更少了傅物,占用的CUDA核心數(shù)也少了夯辖,因此整個(gè)模型結(jié)構(gòu)會(huì)更小,更快董饰,更高效蒿褂。
數(shù)據(jù)精度校準(zhǔn)(Weight &Activation Precision Calibration)
大部分深度學(xué)習(xí)框架在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)網(wǎng)絡(luò)中的張量(Tensor)都是32位浮點(diǎn)數(shù)的精度(Full 32-bit precision圆米,F(xiàn)P32),一旦網(wǎng)絡(luò)訓(xùn)練完成啄栓,在部署推理的過(guò)程中由于不需要反向傳播娄帖,完全可以適當(dāng)降低數(shù)據(jù)精度,比如降為FP16或INT8的精度昙楚。更低的數(shù)據(jù)精度將會(huì)使得內(nèi)存占用和延遲更低近速,模型體積更小。
如下表為不同精度的動(dòng)態(tài)范圍:
Precision Dynamic Range
FP32
FP16
INT8
INT8只有256個(gè)不同的數(shù)值堪旧,使用INT8來(lái)表示 FP32精度的數(shù)值削葱,肯定會(huì)丟失信息,造成性能下降淳梦。不過(guò)TensorRT會(huì)提供完全自動(dòng)化的校準(zhǔn)(Calibration )過(guò)程析砸,會(huì)以最好的匹配性能將FP32精度的數(shù)據(jù)降低為INT8精度,最小化性能損失爆袍。關(guān)于校準(zhǔn)過(guò)程首繁,后面會(huì)專門(mén)做一個(gè)探究。
Kernel Auto-Tuning
網(wǎng)絡(luò)模型在推理計(jì)算時(shí)陨囊,是調(diào)用GPU的CUDA核進(jìn)行計(jì)算的弦疮。TensorRT可以針對(duì)不同的算法,不同的網(wǎng)絡(luò)模型蜘醋,不同的GPU平臺(tái)胁塞,進(jìn)行 CUDA核的調(diào)整(怎么調(diào)整的還不清楚),以保證當(dāng)前模型在特定平臺(tái)上以最優(yōu)性能計(jì)算堂湖。
TensorRT will pick the implementation from a library of kernels that delivers the best performance for the target GPU, input data size, filter size, tensor layout, batch size and other parameters.Dynamic Tensor Memory
在每個(gè)tensor的使用期間闲先,TensorRT會(huì)為其指定顯存,避免顯存重復(fù)申請(qǐng)无蜂,減少內(nèi)存占用和提高重復(fù)使用效率。Multi-Stream Execution
Scalable design to process multiple input streams in parallel蒙谓,這個(gè)應(yīng)該就是GPU底層的優(yōu)化了斥季。
優(yōu)化結(jié)果:
4-TensorRT運(yùn)行一個(gè)demo
使用了nvidia 板子,使用了sdkmanager 安裝累驮,板子已經(jīng)安裝了下面軟件
遇到問(wèn)題:
第一步:
cd /usr/src/tensorrt/samples/sampleMNIST
查看README.md,在該目錄下make
生產(chǎn)的bin 的路徑是:
/usr/src/tensorrt/bin/sample_mnist
執(zhí)行指令:
sudo ./sample_mnist [-h] [–datadir=/usr/src/tensorrt/data/mnist] [–useDLA=1] [–int8]
上面指令運(yùn)行錯(cuò)誤酣倾,找不到*.pgm
cd /usr/src/tensorrt/data/mnist/
sudo python3 download_pgms.py
沒(méi)有任何響應(yīng),稍等之后谤专,下載有*.pgm
可能遇到的錯(cuò)誤:
pip install pillow
Traceback (most recent call last):
File "download_pgms.py", line 2, in <module>
from PIL import Image
ModuleNotFoundError: No module named 'PIL
處理方式:
nvidia@nvidia-desktop:/usr/bin$ ls -l python
lrwxrwxrwx 1 root root 9 9?. 24 19:42 python -> python3.6
nvidia@nvidia-desktop:/usr/bin$ python -V
Python 3.6.9
下面運(yùn)行指令可以安裝pillow:
pip install pillow
sudo apt-get install python-pip
sudo apt-get install python3-pip
運(yùn)行結(jié)果:
REF:
https://mp.weixin.qq.com/s/E5qbMsuc7UBnNmYBzq__5Q##
https://arleyzhang.github.io/articles/7f4b25ce/
https://www.pianshen.com/article/3389187425/
https://zhuanlan.zhihu.com/p/84125533
nvidia 官方參考文檔:
https://docs.nvidia.com/deeplearning/tensorrt/quick-start-guide/index.html