1 TF-slim簡(jiǎn)介
? ? ? ???TF-slim是一個(gè)輕型的TensorFlow高層API (tensorflow.contrib.slim
) 沼死∪荩可以用來(lái)定義糯崎、訓(xùn)練和評(píng)估復(fù)雜模型毁兆。slim項(xiàng)目包含豐富的源碼。可以使用TF-slim來(lái)訓(xùn)練和推理許多廣泛應(yīng)用于CNN的圖像分類(lèi)模型躯概。slim項(xiàng)目包含許多腳本登钥,你可以利用它們重新訓(xùn)練,也可以在已訓(xùn)練模型的基礎(chǔ)上進(jìn)行fine-tune楞陷。當(dāng)然也包括一些默認(rèn)的腳本,用來(lái)下載標(biāo)準(zhǔn)的圖像數(shù)據(jù)集茉唉,并將它們轉(zhuǎn)換為T(mén)ensorFlow的TFRecord格式固蛾,以及使用TF-Slim的數(shù)據(jù)讀和隊(duì)列化函數(shù)來(lái)讀取這些數(shù)據(jù)。也可以使用自己的數(shù)據(jù)進(jìn)行訓(xùn)練度陆。
? ? ? ???可以參考腳本jupyter notebook,其提供了許多使用TF-Slim的圖像分類(lèi)例子。對(duì)于開(kāi)發(fā)或者改進(jìn)TF-Slim妆毕,可以參考main TF-Slim page.
2 安裝
這里我們介紹TF-Slim的安裝步驟
2.1 安裝最新版本的TF-Slim
TF-Slim is available as tf.contrib.slim
via TensorFlow 1.0. To test that your installation is working, execute the following command; it should run without raising any errors.
TF-Slim基于TensorFlow 1.0犀呼,庫(kù)名為tf.contrib.slim
。測(cè)試安裝是否成功蹬蚁,運(yùn)行下面的代碼
python -c 'import tensorflow.contrib.slim as slim; eval = slim.evaluation.evaluate_once'
2.2 安裝TF-Slim圖像模型庫(kù)
? ? ? ???要使用TF-Slim進(jìn)行圖像分類(lèi)恃泪,需要安裝 TF-Slim image models library。其不是TensorFlow默認(rèn)安裝的犀斋。為了使用這些圖像分類(lèi)模型贝乎,我們需要將下載 tensorflow/models
cd $HOME/workspace
git clone https://github.com/tensorflow/models/
? ? ? ???上面的命令會(huì)下將TF-Slim的圖像模型庫(kù)下載到目錄$HOME/workspace/models/research/slim
(同時(shí)會(huì)創(chuàng)建目錄models/inception,該目錄包含Slim的老版本叽粹,這里可以忽略)览效。
? ? ? ???為了驗(yàn)證是否成功,可以執(zhí)行下面的shell腳本虫几。
cd $HOME/workspace/models/research/slim
python -c "from nets import cifarnet; mynet = cifarnet.cifarnet"
3 準(zhǔn)備數(shù)據(jù)
? ? ? ???作為Slim庫(kù)的一部分锤灿,下表中的數(shù)據(jù)集的下載和格式轉(zhuǎn)換腳本也內(nèi)置在slim目錄下。
Dataset | Training Set Size | Testing Set Size | Number of Classes | Comments |
---|---|---|---|---|
Flowers | 2500 | 2500 | 5 | Various sizes (source: Flickr) |
Cifar10 | 60k | 10k | 10 | 32x32 color |
MNIST | 60k | 10k | 10 | 28x28 gray |
ImageNet | 1.2M | 50k | 1000 | Various size |
? ? ? ???對(duì)于每個(gè)數(shù)據(jù)集辆脸,我們需要下載原始數(shù)據(jù)但校,并將其轉(zhuǎn)換為T(mén)ensorFlow的基本TFRecord格式。每個(gè)TFRecord包含一個(gè)TF-Example協(xié)議緩沖文件啡氢。下面的腳本是顯示如何轉(zhuǎn)換Flowers數(shù)據(jù)集為T(mén)FRecord始腾。
$ DATA_DIR=/tmp/data/flowers
$ python download_and_convert_data.py \
--dataset_name=flowers \
--dataset_dir="${DATA_DIR}"
完成上面的腳本命令后,會(huì)得到如下TFRecord文件:
$ ls ${DATA_DIR}
flowers_train-00000-of-00005.tfrecord
...
flowers_train-00004-of-00005.tfrecord
flowers_validation-00000-of-00005.tfrecord
...
flowers_validation-00004-of-00005.tfrecord
labels.txt
? ? ? ???上面的文件中中包括訓(xùn)練和驗(yàn)證數(shù)據(jù)集空执,每個(gè)數(shù)據(jù)集包括5個(gè)文件浪箭。除此之外,還有一個(gè)labels.txt文件辨绊。該文件中表示了數(shù)字到類(lèi)別名的映射關(guān)系奶栖。
? ? ? ???類(lèi)似的,可以使用相同的腳本來(lái)創(chuàng)建MNIST和CIFAR-10數(shù)據(jù)集。但是對(duì)于ImageNet數(shù)據(jù)集宣鄙,需要參考這里袍镀。下載ImageNet數(shù)據(jù)集,需要注冊(cè)冻晤,并且下載數(shù)據(jù)集需要耗費(fèi)幾個(gè)小時(shí)苇羡,而且要占據(jù)接近500GB的存儲(chǔ)空間。
3.1 創(chuàng)建TF-Slim數(shù)據(jù)集描述字
? ? ? ???如果已經(jīng)創(chuàng)建好了數(shù)據(jù)集的TFRecord格式鼻弧,那么創(chuàng)建Slim數(shù)據(jù)集格式將會(huì)非常容易设江。Slim數(shù)據(jù)集存儲(chǔ)了指向數(shù)據(jù)文件的指針,以及各種多樣的數(shù)據(jù)塊攘轩,例如類(lèi)標(biāo)簽叉存,訓(xùn)練/測(cè)試數(shù)據(jù)集分割,以及如何轉(zhuǎn)化為T(mén)FExample格式度帮。Slim數(shù)據(jù)集已經(jīng)做了Cifar10歼捏、ImageNet、Flowers和MNIST的TF-Slim數(shù)據(jù)描述字笨篷。下面展示一個(gè)使用TF-Slim數(shù)據(jù)集描述字的例子(使用TF-Slim的DatasetDataProvider)瞳秽。
import tensorflow as tf
from datasets import flowers
slim = tf.contrib.slim
# Selects the 'validation' dataset.
dataset = flowers.get_split('validation', DATA_DIR)
# Creates a TF-Slim DataProvider which reads the dataset in the background
# during both training and testing.
provider = slim.dataset_data_provider.DatasetDataProvider(dataset)
[image, label] = provider.get(['image', 'label'])
3.2 一個(gè)處理ImageNet數(shù)據(jù)的自動(dòng)腳本
? ? ? ???我們經(jīng)常需要基于ImageNet數(shù)據(jù)集訓(xùn)練模型。為了方便處理ImageNet數(shù)據(jù)集率翅,Slim提供了一個(gè)自動(dòng)腳本寂诱,用來(lái)下載和將ImageNet數(shù)據(jù)集轉(zhuǎn)換為T(mén)FRecord格式。
? ? ? ???TFRecord格式文件包含一個(gè)標(biāo)準(zhǔn)文件集合安聘,該集合中的每個(gè)入口是一個(gè)序列化的tf.Example
proto痰洒。每個(gè)tf.Example
proto包含ImageNet圖像(JPEG編碼格式)以及一些元數(shù)據(jù)(包括標(biāo)簽和bounding box信息)。
? ? ? ???Slim提供了單個(gè)腳本來(lái)下載和轉(zhuǎn)換ImageNet數(shù)據(jù)為T(mén)FRecord格式數(shù)據(jù)浴韭。下載和預(yù)處理這些數(shù)據(jù)可能需要耗費(fèi)若干個(gè)小時(shí)丘喻,這以來(lái)于你的網(wǎng)速和計(jì)算機(jī),請(qǐng)保持耐心哦念颈!
? ? ? ???開(kāi)始已下載的時(shí)候泉粉,需要注冊(cè)ImageNet網(wǎng)站的賬號(hào)。并且得到一個(gè)訪(fǎng)問(wèn)密碼來(lái)下載數(shù)據(jù)榴芳。
? ? ? ???在得到USERNAME
和PASSWORD
之后嗡靡,就可以運(yùn)行這個(gè)腳本了。首先確定你的硬盤(pán)空間有超過(guò)500GB的空間用來(lái)下載和存儲(chǔ)數(shù)據(jù)窟感。這個(gè)示例中選擇DATA_DIR=$HOME/imagenet-data
作為存儲(chǔ)ImageNet數(shù)據(jù)的文件夾讨彼。
? ? ? ???當(dāng)運(yùn)行下面的腳本之后,需要輸入用戶(hù)名和密碼柿祈。輸入一次之后就OK了哈误。
# location of where to place the ImageNet data
DATA_DIR=$HOME/imagenet-data
# build the preprocessing script.
bazel build slim/download_and_preprocess_imagenet
# run it
bazel-bin/slim/download_and_preprocess_imagenet "${DATA_DIR}"
? ? ? ???當(dāng)運(yùn)行完上面的腳本以后可以發(fā)現(xiàn)有1024和128個(gè)訓(xùn)練和驗(yàn)證文件(在DATA_DIR文件夾中)哩至。文件的格式為train-????-of-1024
和validation-?????-of-00128
。
3.3 預(yù)訓(xùn)練模型
? ? ? ???當(dāng)神經(jīng)網(wǎng)絡(luò)的參數(shù)越多的時(shí)候蜜自,其功能越強(qiáng)大菩貌,這使得神經(jīng)網(wǎng)絡(luò)可以擬合任何映射關(guān)系。但是這也意味著神經(jīng)網(wǎng)絡(luò)需要更大的訓(xùn)練數(shù)據(jù)集重荠。因?yàn)閺念^開(kāi)始訓(xùn)練神經(jīng)網(wǎng)絡(luò)非常耗時(shí)箭阶,可能需要幾周時(shí)間,因此Slim提供了許多預(yù)訓(xùn)練模型戈鲁,如下表所示仇参。這些CNN是在ILSVRC-2012-CLS圖像分類(lèi)數(shù)據(jù)集中已經(jīng)訓(xùn)練好了。
? ? ? ???在下表中荞彼,列出了每個(gè)模型冈敛、對(duì)應(yīng)的TensorFlow模型文件待笑、模型參數(shù)文件的鏈接地址鸣皂、以及在ImageNet數(shù)據(jù)集上的Top-1和Top-5準(zhǔn)確率。下表的VGG和ResNet V1參數(shù)已經(jīng)從原始的caffe格式轉(zhuǎn)換為T(mén)ensorFlow格式暮蹂。而Inception和ResNet V2參數(shù)是Google內(nèi)部訓(xùn)練的結(jié)果寞缝。它們對(duì)應(yīng)的準(zhǔn)確率是基于單個(gè)裁剪圖像得到的準(zhǔn)確率,在一些論文中采用了更多的圖像增強(qiáng)方法仰泻,使準(zhǔn)確率更高荆陆。
? ? ? ???^ResNet V2模型使用Inception預(yù)處理以及299圖像尺寸的輸入圖像(在腳本eval_image_classifier.py
中使用參數(shù)--preprocessing_name inception --eval_image_size 299
)。另外集侯,關(guān)于NASNet架構(gòu)信息可以參考NASNet
? ? ? ???所有的16個(gè)浮點(diǎn)類(lèi)型的MobileNet V1模型均來(lái)自論文被啼,而所有的16個(gè)量化的TensorFlow Lite的相關(guān)信息可以參考這里。更多的關(guān)于Mobile Net V2的信息可以參考這里棠枉。下面是下載Inception V3 checkpoint的例子:
$ CHECKPOINT_DIR=/tmp/checkpoints
$ mkdir ${CHECKPOINT_DIR}
$ wget http://download.tensorflow.org/models/inception_v3_2016_08_28.tar.gz
$ tar -xvf inception_v3_2016_08_28.tar.gz
$ mv inception_v3.ckpt ${CHECKPOINT_DIR}
$ rm inception_v3_2016_08_28.tar.gz
4 重新訓(xùn)練
? ? ? ???Slim可以很方便的使用TF-Slim數(shù)據(jù)集來(lái)重新訓(xùn)練模型浓体。下面的代碼展示如何使用ImageNet數(shù)據(jù)集的默認(rèn)參數(shù)來(lái)訓(xùn)練Inception V3模型。
DATASET_DIR=/tmp/imagenet
TRAIN_DIR=/tmp/train_logs
python train_image_classifier.py \
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=inception_v3
? ? ? ???上面的代碼可能要運(yùn)行好幾天辈讶,甚至幾個(gè)星期命浴。這主要依賴(lài)于所使用的硬件。為提高訓(xùn)練速度贱除,可以使用多GPU或多CPU生闲,甚至同步或異步,具體可以參照這里月幌。
? ? ? ???為了監(jiān)視訓(xùn)練過(guò)程碍讯,可以使用TensorBoard,運(yùn)行如下代碼:
tensorboard --logdir=${TRAIN_DIR}
運(yùn)行了上面的命令之后扯躺,在瀏覽器上訪(fǎng)問(wèn)地址http://localhost:6006冲茸。
5 從現(xiàn)有checkpoint上Fine-tuning模型(所謂的遷移學(xué)習(xí))
? ? ? ???重新訓(xùn)練模型太慢屯阀,一般我們?cè)谝延械哪P突A(chǔ)上進(jìn)行fine-tuning。通過(guò)給參數(shù)--checkpoint_path
設(shè)置絕對(duì)路徑來(lái)指定fine-tune的checkpoint轴术。
? ? ? ???當(dāng)fine-tune一個(gè)模型時(shí)难衰,我們需要仔細(xì)的處理checkpoint權(quán)值。特殊的逗栽,當(dāng)我們fine-tune一個(gè)模型盖袭,其輸出標(biāo)簽數(shù)目不同的情況,我們希望重新訓(xùn)練最后的分類(lèi)層彼宠。要實(shí)現(xiàn)這個(gè)功能鳄虱,可以設(shè)置參數(shù)--checkpoint_exclude_scopes
。該參數(shù)實(shí)現(xiàn)解凍部分層凭峡。當(dāng)輸出的類(lèi)別數(shù)與預(yù)訓(xùn)練模型不同的情況下拙已,則新模型將使用不同類(lèi)別數(shù)(與預(yù)訓(xùn)練模型不同)。在Flowers數(shù)據(jù)集上fine-tune一個(gè)ImageNet預(yù)訓(xùn)練模型摧冀,這里的預(yù)訓(xùn)練模型logits的維數(shù)為倍踪,而Flowers數(shù)據(jù)集的logits維數(shù)為。換言之索昂,該參數(shù)可以防止Slim從預(yù)訓(xùn)練的checkpoint中載入你不想載入的參數(shù)建车。
? ? ? ???可以認(rèn)為從一個(gè)checkpoint中熱啟動(dòng),僅僅影響模型的權(quán)值初始化椒惨。一旦一個(gè)模型開(kāi)始訓(xùn)練缤至,在目錄$(TRAIN_DIR)
中將會(huì)創(chuàng)建新的checkpoint。如果fine-tune過(guò)程停止或者重啟康谆,并且新的checkpoint將會(huì)創(chuàng)建到新的權(quán)值存儲(chǔ)位置领斥,而不是存儲(chǔ)在$(checkpoint_path)$
。因此沃暗,參數(shù)--checkpoint_path
和--checkpoint_exclude_scopes
也只是僅僅在模型初始化的時(shí)候才起作用月洛。當(dāng)希望訓(xùn)練一個(gè)層的子集,可以使用參數(shù)--trainable_scopes
來(lái)指定哪些層被訓(xùn)練描睦,其余的部分參數(shù)將被凍結(jié)膊存。
? ? ? ???下面給出了一個(gè)在Flowers數(shù)據(jù)集上fine-tune一個(gè)Inception-v3的例子。inception v3在ImageNet數(shù)據(jù)集上已訓(xùn)練好忱叭,其類(lèi)別有1000個(gè)隔崎,但是Flowers數(shù)據(jù)集只有5類(lèi)。因此數(shù)據(jù)集非常小韵丑,我們僅僅訓(xùn)練新層爵卒。
$ DATASET_DIR=/tmp/flowers
$ TRAIN_DIR=/tmp/flowers-models/inception_v3
$ CHECKPOINT_PATH=/tmp/my_checkpoints/inception_v3.ckpt
$ python train_image_classifier.py \
--train_dir=${TRAIN_DIR} \
--dataset_dir=${DATASET_DIR} \
--dataset_name=flowers \
--dataset_split_name=train \
--model_name=inception_v3 \
--checkpoint_path=${CHECKPOINT_PATH} \
--checkpoint_exclude_scopes=InceptionV3/Logits,InceptionV3/AuxLogits \
--trainable_scopes=InceptionV3/Logits,InceptionV3/AuxLogits
6 評(píng)估模型的性能
? ? ? ???若要評(píng)估一個(gè)模型的性能(預(yù)訓(xùn)練模型或者新模型),Slim提供了一個(gè)腳本eval_image_classifier.py撵彻。如下所示钓株。
? ? ? ???下面的例子為下載預(yù)訓(xùn)練的inception模型实牡,并且在ImageNet數(shù)據(jù)集上評(píng)估它的性能。
CHECKPOINT_FILE = ${CHECKPOINT_DIR}/inception_v3.ckpt # Example
$ python eval_image_classifier.py \
--alsologtostderr \
--checkpoint_path=${CHECKPOINT_FILE} \
--dataset_dir=${DATASET_DIR} \
--dataset_name=imagenet \
--dataset_split_name=validation \
--model_name=inception_v3
若要評(píng)估多個(gè)checkpoint可以參考這里轴合。
7 導(dǎo)出推理圖
? ? ? ???保存包含模型架構(gòu)的GraphDef创坞。可以用Slim定義的模型名稱(chēng)來(lái)使用它受葛,如下所示题涨。
$ python export_inference_graph.py \
--alsologtostderr \
--model_name=inception_v3 \
--output_file=/tmp/inception_v3_inf_graph.pb
$ python export_inference_graph.py \
--alsologtostderr \
--model_name=mobilenet_v1 \
--image_size=224 \
--output_file=/tmp/mobilenet_v1_224.pb
7.1 凍結(jié)導(dǎo)出的計(jì)算圖
? ? ? ???如果想使用帶有自定義訓(xùn)練或者預(yù)訓(xùn)練的模型作為移動(dòng)模型的一部分,可以使用freeze_graph
來(lái)得到帶有內(nèi)聯(lián)變量的graph def总滩,如下所示纲堵。
bazel build tensorflow/python/tools:freeze_graph
bazel-bin/tensorflow/python/tools/freeze_graph \
--input_graph=/tmp/inception_v3_inf_graph.pb \
--input_checkpoint=/tmp/checkpoints/inception_v3.ckpt \
--input_binary=true --output_graph=/tmp/frozen_inception_v3.pb \
--output_node_names=InceptionV3/Predictions/Reshape_1
? ? ? ???上面的輸出節(jié)點(diǎn)的名稱(chēng)與模型相關(guān),但是你也可以使用summarize_graph
工具來(lái)修改闰渔,如下所示席函。
bazel build tensorflow/tools/graph_transforms:summarize_graph
bazel-bin/tensorflow/tools/graph_transforms/summarize_graph \
--in_graph=/tmp/inception_v3_inf_graph.pb
7.2 在C++上運(yùn)行標(biāo)簽圖像
? ? ? ???若要在C++上運(yùn)行計(jì)算圖,可以使用如下示例(label_image)冈涧。
bazel build tensorflow/examples/label_image:label_image
bazel-bin/tensorflow/examples/label_image/label_image \
--image=${HOME}/Pictures/flowers.jpg \
--input_layer=input \
--output_layer=InceptionV3/Predictions/Reshape_1 \
--graph=/tmp/frozen_inception_v3.pb \
--labels=/tmp/imagenet_slim_labels.txt \
--input_mean=0 \
--input_std=255
8 Bugs
- 如果模型運(yùn)行的時(shí)候超過(guò)CPU內(nèi)存茂附,可以參考Model Runs out of CPU memory。
- 如果模型運(yùn)行的時(shí)候超過(guò)GPU顯存炕舵,可以參考Adjusting Memory Demands何之。
- 模型訓(xùn)練時(shí)出現(xiàn)NaNs跟畅,可以參考Model Resulting in NaNs咽筋。
- ResNet和VGG模型有1000類(lèi)的輸出,而ImageNet有1001類(lèi)的輸出徊件。
ImageNet數(shù)據(jù)集包括一個(gè)背景類(lèi)奸攻,該類(lèi)可以用于fine-tune用于其他任務(wù)的模型。如果想在ImageNet數(shù)據(jù)集上訓(xùn)練或者fine-tuning這個(gè)VGG或者ResNet模型虱痕,可能會(huì)出現(xiàn)下面的錯(cuò)誤睹耐。
這是因?yàn)閂GG或者ResNet的輸出層為1000維,而ImageNet數(shù)據(jù)集的輸出類(lèi)別為1001部翘。若要處理這個(gè)錯(cuò)誤硝训,可以設(shè)置參數(shù)--labels_offset=1
。該參數(shù)可以使得ImageNet的標(biāo)簽向下移動(dòng)一位新思。
InvalidArgumentError: Assign requires shapes of both tensors to match. lhs shape= [1001] rhs shape= [1000]
- 訓(xùn)練一個(gè)不同圖像尺寸的模型(不是224的輸入)
預(yù)處理函數(shù)使用參數(shù)height
和width
窖梁。可以使用以下參數(shù)定義來(lái)改變默認(rèn)值:
image_preprocessing_fn = preprocessing_factory.get_preprocessing(
preprocessing_name,
height=MY_NEW_HEIGHT,
width=MY_NEW_WIDTH,
is_training=True)
- 這些超參數(shù)的目標(biāo)是用于哪些硬件設(shè)置Hardware Specifications夹囚。