1览芳、 TLT安裝&運(yùn)行
TLT需要在docker中運(yùn)行寄摆,因此第一步拉取鏡像
首先登陸NGC喇闸,如果你是第一次注冊NGC蒸眠,你需要獲得一個(gè)API KEY漾橙,這個(gè)值需要保存下來,因?yàn)樗粫?huì)顯示一次楞卡,并且以后會(huì)經(jīng)常用到
拉取鏡像
docker pull nvcr.io/nvidia/tlt-streamanalytics:v2.0_py3
啟動(dòng)鏡像
sudo docker run -it -v /home/zhaobing/data:/data --gpus all nvcr.io/nvidia/tlt-streamanalytics:v2.0_py3
2霜运、準(zhǔn)備數(shù)據(jù)集
2.1準(zhǔn)備KITTI格式數(shù)據(jù)集
對于目標(biāo)檢測任務(wù),TLT支持的數(shù)據(jù)集形式為KITTI數(shù)據(jù)集形式,訓(xùn)練前蒋腮,需要將該形式的數(shù)據(jù)集轉(zhuǎn)化為TFRecords.
KITTI數(shù)據(jù)集形式
<v:shapetype id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"><v:stroke joinstyle="miter"><v:formulas></v:formulas><v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect"></v:path></v:stroke></v:shapetype><v:shape id="圖片_x0020_1" o:spid="_x0000_i1038" type="#_x0000_t75" style="width:415.5pt;height:196.5pt;visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image001.png" o:title=""></v:imagedata></v:shape>TLT要求圖像分辨率統(tǒng)一淘捡,不支持多分辨率圖像自動(dòng)resize訓(xùn)練.需要自行將圖像分辨率統(tǒng)一并對應(yīng)修改label文件中bbox位置。labels標(biāo)注為每張圖片對應(yīng)一個(gè)txt文檔池摧,對于每個(gè)標(biāo)注目標(biāo)焦除,標(biāo)注信息包括15個(gè)元素。對于2D目標(biāo)檢測作彤,第1個(gè)元素為目標(biāo)類別膘魄,5-8為四個(gè)坐標(biāo)值。目前官方未提供常見的數(shù)據(jù)集格式如VOC,COCO數(shù)據(jù)集轉(zhuǎn)換為KITTI數(shù)據(jù)集形式的腳本竭讳,整理了二者轉(zhuǎn)換為KITTI格式的腳本如下创葡。
<v:shape id="圖片_x0020_2" o:spid="_x0000_i1037" type="#_x0000_t75" style="width:415pt;height:38pt;
visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image002.png" o:title=""></v:imagedata></v:shape>
<v:shape id="_x0000_i1025" type="#_x0000_t75" style="width:63pt;height:41pt" o:ole=""><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image003.emz" o:title=""></v:imagedata></v:shape><v:shape id="_x0000_i1026" type="#_x0000_t75" style="width:70pt;
height:41pt" o:ole=""><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image004.emz" o:title=""></v:imagedata></v:shape>
2.2轉(zhuǎn)tfrecord
生成訓(xùn)練集tfrecord格式文件,需先準(zhǔn)備.config配置文件绢慢,例如將如下信息生成為train.config
<v:shape id="_x0000_i1027" type="#_x0000_t75" style="width:61.5pt;height:41pt" o:ole=""><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image005.emz" o:title=""></v:imagedata></v:shape>
image_directory_path設(shè)置與root_directory_path相同灿渴。
執(zhí)行轉(zhuǎn)換命令:
tlt-dataset-convert -d <path_to_tfrecords_conversion_spec> -o <path_to_output_tfrecords>
測試集同理。
3.生成實(shí)驗(yàn)配置文件
各種目標(biāo)檢測網(wǎng)絡(luò)實(shí)驗(yàn)配置文件寫法不同,根據(jù)自己選擇的目標(biāo)檢測算法骚露,定義相應(yīng)配置文件蹬挤,參考
https://docs.nvidia.com/metropolis/TLT/tlt-getting-started-guide/index.html#spec_file_yolov3_topic
7.2-7.9.
Yolov3配置文件spec.txt內(nèi)容如下所示。
<v:shape id="_x0000_i1028" type="#_x0000_t75" style="width:58.5pt;height:41pt" o:ole=""><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image006.emz" o:title=""></v:imagedata></v:shape>
推薦將自己想要訓(xùn)練集的所有類別填到target_class_mapping荸百,可以默認(rèn)設(shè)置一個(gè)key闻伶,一個(gè)value對應(yīng)一個(gè)類別,也可以多個(gè)key對應(yīng)一個(gè)value够话,這樣訓(xùn)練時(shí)多個(gè)類別將合并為一個(gè)value類進(jìn)行訓(xùn)練蓝翰。
4.模型訓(xùn)練
tlt-train yolo --gpus 0 -e /data/tlt/spec.txt -r /data/tlt/output_yolov3 -k tlt_encode
其中,
-e spec.txt配置文件位置
-r 實(shí)驗(yàn)結(jié)果存放位置
-k 加密模型的key,設(shè)置為tlt_encode
注意兩個(gè)特殊選項(xiàng)
量化感知訓(xùn)練:對于DetectNet_v2, SSD, DSSD, YOLOv3, RetinaNet and FasterRCNN女嘲,tlt支持采用量化感知進(jìn)行訓(xùn)練畜份。
量化感知訓(xùn)練,就是在量化的過程中欣尼,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練爆雹,從而讓網(wǎng)絡(luò)參數(shù)能更好地適應(yīng)量化帶來的信息損失。這種方式的準(zhǔn)確性普遍比訓(xùn)練后進(jìn)行量化要高愕鼓。
將spec.txt中的enable_qat 參數(shù)設(shè)置為 True即可
自動(dòng)混合精度:訓(xùn)練階段混合使用FP32和FP16.
開啟方法钙态,tlt-train訓(xùn)練時(shí),export 一個(gè)環(huán)境變量即可菇晃。
export tf_enable_auto_mixed_precision=1
5.模型驗(yàn)證
tlt-evaluate yolo -e /data/tlt/spec.txt \
-m /data/tlt/output_yolov3/weights/yolo_darknet53_epoch_002.tlt \
-k tlt_encode
6.模型推理
tlt-infer yolo -i /data/tlt/000158.jpg \ -o /data/tlt/000158.jpg \ -e /data/tlt/spec.txt \
-m /data/tlt/output_yolov3/weights/yolo_darknet53_epoch_003.tlt \ -k tlt_encode
7.模型裁剪
tlt-prune [-h] -m <pretrained_model>
-o <output_file> -k <key>
[-n <normalizer>]
[-eq <equalization_criterion>]
[-pg <pruning_granularity>]
[-pth <pruning threshold>]
[-nf <min_num_filters>]
[-el [<excluded_list>]
示例:
tlt-prune -m /data/tlt/output_voc/weights/yolo_darknet53_epoch_006.tlt \
-o /data/tlt/output_voc/yolo_prune.tlt \
-eq union \
-pth 0.7 -k tlt_encode
pth設(shè)置越大册倒,模型裁剪后體積越小。
8.模型導(dǎo)出
將訓(xùn)練生成.tlt模型導(dǎo)出成INT8磺送、FP16驻子、FP32模型(.etlt),用于后續(xù)Deepstream的部署。
8.1 導(dǎo)出為FP16估灿、FP32模型
<v:shape id="圖片_x0020_5" o:spid="_x0000_i1036" type="#_x0000_t75" style="width:389.5pt;height:112pt;
visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image007.png" o:title=""></v:imagedata></v:shape>
tlt-export [-h] {classification, detectnet_v2, ssd, dssd, faster_rcnn, yolo, retinanet}
-m <path to the .tlt model file generated by tlt train>
-k <key>
[-o <path to output file>]
[--cal_data_file <path to tensor file>]
[--cal_image_dir <path to the directory images to calibrate the model]
[--cal_cache_file <path to output calibration file>]
[--data_type <Data type for the TensorRT backend during export>]
[--batches <Number of batches to calibrate over>]
[--max_batch_size <maximum trt batch size>]
[--max_workspace_size <maximum workspace size]
[--batch_size <batch size to TensorRT engine>]
[--experiment_spec <path to experiment spec file>]
[--engine_file <path to the TensorRT engine file>]
[--verbose Verbosity of the logger]
[--force_ptq Flag to force PTQ]
示例:
tlt-export yolo -m /data/tlt/output_yolov3/yolo_pruned.tlt -k tlt_encode -o /data/tlt/output_yolov3/yolo_prune.etlt --data_type fp32 -e /data/tlt/spec.txt
注意----data_type 說明想要導(dǎo)出的模型類型崇呵,此時(shí)可選擇fp32或者fp16.
8.2 導(dǎo)出為INT8模型
INT8格式模型推薦轉(zhuǎn)換模式,需要訓(xùn)練數(shù)據(jù)參與馅袁,還會(huì)生成.bin文件
<v:shape id="圖片_x0020_4" o:spid="_x0000_i1035" type="#_x0000_t75" style="width:415pt;height:180pt;
visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image008.png" o:title=""></v:imagedata></v:shape>
示例:
tlt-export yolo \
-m /data/tlt/output_yolov3/yolo_pruned.tlt \
-o /data/tlt/output_yolov3/yolo_prunedint8.tlt \
-k tlt_encode \
--data_type int8 \
--cal_cache_file /data/tlt/output_yolov3/calibration.bin \
-e /data/tlt/spec.txt \
--cal_image_dir /data/tlt/train_dataset/images
注意:FP32,FP16,INT8導(dǎo)出過程中域慷,均可以導(dǎo)出engine文件,但是由于engine與gpu型號相關(guān)汗销,除非到處環(huán)境與未來應(yīng)用GPU相同芒粹,否則無意義。
9.使用Deepstream部署
<v:shape id="圖片_x0020_6" o:spid="_x0000_i1034" type="#_x0000_t75" alt="../_images/dstream_deploy_options.png" style="width:415pt;height:252pt;visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image009.png" o:title="dstream_deploy_options"></v:imagedata></v:shape>
模型部署在x86或者jetson卡上大溜,除了nv自研Detectnet_v2比較簡單外化漆,其他目標(biāo)檢測模型都需要結(jié)合TensorRT OSS在目標(biāo)環(huán)境下轉(zhuǎn)換為engine,再進(jìn)行部署。
9.1 TensorRT OSS安裝
l TensorRT OSS on X86
1. Install Cmake (>=3.13).
sudo apt remove --purge --auto-remove cmake
wget https://github.com/Kitware/CMake/releases/download/v3.13.5/cmake-3.13.5.tar.gz
tar xvf cmake-3.13.5.tar.gz
cd cmake-3.13.5/
./configure
make -j$(nproc)
sudo make install
sudo ln -s /usr/local/bin/cmake /usr/bin/cmake
2. Get GPU Arch.****獲得算力數(shù)值
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
T4的話钦奋,該值為75
3. Build TensorRT OSS
git clone -b release/7.0 https://github.com/nvidia/TensorRT
cd TensorRT/
git submodule update --init --recursive
export TRT_SOURCE=pwd
cd $TRT_SOURCE
mkdir -p build && cd build
/usr/local/bin/cmake .. -DGPU_ARCHS=xy -DTRT_LIB_DIR=/usr/lib/aarch64-linux-gnu/ -DCMAKE_C_COMPILER=/usr/bin/gcc -DTRT_BIN_DIR=pwd
/out
make nvinfer_plugin -j$(nproc)
libnvinfer_plugin.so*文件將生成到`pwd`/out/文件夾
4.****替換原始的TensorRT的原始libnvinfer_plugin.so*
sudo mv /usr/lib/x86_64-linux-gnu/libnvinfer_plugin.so.7.x.y ${HOME}/libnvinfer_plugin.so.7.x.y.bak // backup original libnvinfer_plugin.so.x.y
sudo cp $TRT_SOURCE/pwd
/out/libnvinfer_plugin.so.7.m.n /usr/lib/x86_64-linux-gnu/libnvinfer_plugin.so.7.x.y
sudo ldconfig
此步容易出錯(cuò)座云,參考下文jetson做法疙赠。
l TensorRT OSS on Jetson
1.****安裝Cmake(>=3.13)
<pre>sudo apt remove --purge --auto-remove cmake</pre>
<pre>wget https://github.com/Kitware/CMake/releases/download/v3.13.5/cmake-3.13.5.tar.gz</pre>
<pre>tar xvf cmake-3.13.5.tar.gz</pre>
<pre>cd cmake-3.13.5/</pre>
<pre>./configure</pre>
<pre>make -j$(nproc)</pre>
<pre>sudo make install</pre>
<pre>sudo ln -s /usr/local/bin/cmake /usr/bin/cmake</pre>
2.build TensorRT OSS
<pre>git clone -b release/7.0 https://github.com/nvidia/TensorRT</pre>
<pre>cd TensorRT/</pre>
<pre>git submodule update --init --recursive</pre>
<pre>export TRT_SOURCE=pwd
</pre>
<pre>cd $TRT_SOURCE</pre>
<pre>mkdir -p build && cd build</pre>
<pre>/usr/local/bin/cmake .. -DGPU_ARCHS=72 -DTRT_LIB_DIR=/usr/lib/aarch64-linux-gnu/ -DCMAKE_C_COMPILER=/usr/bin/gcc -DTRT_BIN_DIR=pwd
/out</pre>
<pre>make nvinfer_plugin -j$(nproc)</pre>
<v:shape id="圖片_x0020_7" o:spid="_x0000_i1033" type="#_x0000_t75" style="width:220pt;height:100pt;
visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png" o:title=""></v:imagedata></v:shape>
GPU_ARCH根據(jù)型號選擇填寫。
libnvinfer_plugin.so*文件將生成到`pwd`/out/文件夾
<v:shape id="圖片_x0020_9" o:spid="_x0000_i1032" type="#_x0000_t75" style="width:151.5pt;height:97pt;
visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image011.png" o:title="ce42db35c91a0bae1b2c27d59a66dd8"></v:imagedata></v:shape>
3.****替換原始的TensorRT的原始libnvinfer_plugin.so*
<pre>sudo mv /usr/lib/aarch64-linux-gnu/libnvinfer_plugin.so.7.x.y ${HOME}/libnvinfer_plugin.so.7.x.y.bak // backup original libnvinfer_plugin.so.x.y</pre>
<pre>sudo cp pwd
/out/libnvinfer_plugin.so.7.m.n /usr/lib/aarch64-linux-gnu/libnvinfer_plugin.so.7.x.y</pre>
<pre>sudo ldconfig</pre>
<pre>注意朦拖,此處無需按照上述官方操作圃阳,以jetson nx為例,原始tensorrt的libnvinfer_plugin.so*文件在/usr/lib/aarch64-linux-gnu/路徑下璧帝,如libnvinfer_plugin.so捍岳,libnvinfer_plugin.so.7.1.3,libnvinfer_plugin.so.7.1.0.將這三個(gè)文件備份后刪除睬隶,將新生成的文件拷貝至此文件夾即可锣夹。</pre>
9.2將TLT模型整合到Deeepstream
1. 下載官方部署示例源碼
git clone https://github.com/NVIDIA-AI-IOT/deepstream_tlt_apps.git
- Build Sample Application
<v:shape id="圖片_x0020_8" o:spid="_x0000_i1031" type="#_x0000_t75" style="width:415.5pt;height:44.5pt;
visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image012.png" o:title=""></v:imagedata></v:shape>
3. 部署官方模型示例
Wget https://nvidia.box.com/shared/static/8k0zpe9gq837wsr0acoy4oh3fdf476gq.zip -O models.zip
Models文件夾中含有NV官方訓(xùn)練好的faster rcnn,yolov3,ssd,detecnet_v2等目標(biāo)檢測網(wǎng)絡(luò)訓(xùn)練.etlt模型苏潜。
以yolov3為例银萍,pgie_yolov3_tlt_config.txt和nvdsinfer_customparser_yolo_tlt目錄下yolo_labels.txt無需修改,分別運(yùn)行下面兩行命令恤左,可生成對應(yīng)engine贴唇,并對engine進(jìn)行性能測試。
<v:shape id="_x0000_i1029" type="#_x0000_t75" style="width:415.5pt;height:217pt" o:ole=""><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image013.emz" o:title=""></v:imagedata></v:shape>
3****.自己訓(xùn)練的.etlt轉(zhuǎn)換為engine
將TLT訓(xùn)練的.etlt文件拷貝到該目錄下(yolo_fp16.etlt)
修改nvdsinfer_customparser_yolo_tlt目錄下yolo_labels.txt修改為自己任務(wù)類別飞袋,加上background類別戳气。
修改pgie_yolov3_tlt_config.txt文件,指定模型路徑和秘鑰巧鸭,注意密鑰要和TLT訓(xùn)練時(shí)設(shè)定的密鑰相同瓶您,如本項(xiàng)目中,設(shè)定的密鑰為tlt_encode蹄皱,要修改才能讀取。
tlt-encoded-model=./ yolo_fp16.etlt
tlt-model-key=nvidia_tlt
pgie_yolov3_tlt_config.txt指定輸出engine的精度芯肤,我們這里選擇導(dǎo)出FP16精度
network-mode=2
修改類別數(shù)巷折,記得要加background
num-detected-classes=21
轉(zhuǎn)化為engine及性能測試與上節(jié)命令相同。
參考:
官方文檔
https://github.com/NVIDIA-AI-IOT/deepstream_tlt_apps
3.示例
https://blog.csdn.net/zong596568821xp/article/details/107386744
https://zongxp.blog.csdn.net/article/details/107709786
<v:shape id="圖片_x0020_3" o:spid="_x0000_i1030" type="#_x0000_t75" style="width:415.5pt;height:178pt;
visibility:visible;mso-wrap-style:square"><v:imagedata src="file:///C:/Users/ZHAOBI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image014.png" o:title=""></v:imagedata></v:shape>