1. 介紹
如今大多數(shù)的檢測模型的backbone都需要在ImageNet預(yù)訓(xùn)練话瞧,才能達到一個較好的結(jié)果嫩与。但是如果是新設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),就需要先在ImageNet預(yù)訓(xùn)練移稳,這將會非常耗時蕴纳。因此,作者提出是否能夠跳過這個步驟个粱,而不損失效果。
作者提出翻翩,假如我們擁有一個表現(xiàn)很好的檢測模型都许,我們可以用它來監(jiān)督其他檢測網(wǎng)絡(luò)。那么問題就是如何用一個好的檢測模型嫂冻,監(jiān)督訓(xùn)練一個更加高效的網(wǎng)絡(luò)胶征,同時保持它的準(zhǔn)確率。
大多數(shù)的檢測算法桨仿,都會有個基于CNN的特征提取器睛低,然后使用不同的方法來對特征進行解碼,得到用于檢測的數(shù)據(jù)服傍。因此钱雷,大的模型和更加高效的模型的區(qū)別主要在于這個CNN特征提取器,也就是backbone吹零。因此,作者認為,mimicking應(yīng)該加在CNN輸出的feature map上辉巡。
但是feature map通常維度很高太雨,直接進行模仿很難收斂∶S迹考慮到特征提取是基于region或者proposal的操刀,因此,需要從特征中提取對應(yīng)區(qū)域來優(yōu)化婴洼。
作者提出的模仿的方式骨坑,可以應(yīng)對圖片縮放,可以使用一種2階段的流程來進一步提高performance窃蹋。
3. Mimicking for Object Detection
3.1 Logits Mimic Learning
Mimicking的主要思想是通過大的模型的soft targets或者logits來訓(xùn)練一個小的神經(jīng)網(wǎng)絡(luò)卡啰。通常soft targets包含了大的模型學(xué)習(xí)得到的信息,是的小的模型能夠近似地擬合這種大模型的知識警没。loss函數(shù)可以是L2:
3.2 Feature Map Mimic Learning
為了能夠在檢測任務(wù)中應(yīng)用mimicking匈辱,作者采用的是feature map模仿。由于卷積出來的特征的維度都非常高杀迹,但是與此同時亡脸,圖片上的物體卻可能相對較少,因此直接模仿整個圖片的feature map就不是特別合適,因此作者提出浅碾,僅僅模仿proposals的feature map大州。具體loss如下:
從公式可以看出,作者使用了模仿帶來的L2 loss和原本的檢測的loss垂谢,并用一個參數(shù)來控制相對大小厦画。
為了減少特征數(shù)目帶來的影響,作者又提出改用如下loss:
其中
3.3 Network Architecture and Implementation Details
框架如下圖
訓(xùn)練的時候滥朱,大的網(wǎng)絡(luò)是以及訓(xùn)練好的Faster R-CNN或者R-FCN根暑,小的網(wǎng)絡(luò)隨機初始化,每次根據(jù)小的網(wǎng)絡(luò)的RPN徙邻,從大的網(wǎng)絡(luò)提取相應(yīng)的feature map排嫌,作為小的網(wǎng)絡(luò)的監(jiān)督信息。最后再使用訓(xùn)練數(shù)據(jù)進行finetune缰犁。
3.4 Two-stage Mimic
finetune可能導(dǎo)致退化淳地,結(jié)果變差,因此作者提出在2階段也假如mimic loss帅容。通過二階段的mimic颇象,就使得特征,proposal信息丰嘉,以及分類信息都傳遞給了小網(wǎng)絡(luò)夯到。
3.5 Mimic over Scales
當(dāng)輸入尺寸減少時,通常會導(dǎo)致結(jié)果很差饮亏。作者通過在feature map后增加一層deconv耍贾,再按照前文提出的mimic方法進行訓(xùn)練。這種方式可以增加performance路幸。