用分類來學(xué)習(xí)行人特征
Geng M, Wang Y, Xiang T, et al. Deep transfer learning for person re-identification[J]. arXiv preprint arXiv:1611.05244, 2016.
該論文的提出的模型是使用的ImageNet上訓(xùn)練好的模型進行初始化荤堪,然后對特征采用了兩個子網(wǎng)絡(luò)進行訓(xùn)練,一個是分類子網(wǎng)絡(luò)褒侧,一個是驗證子網(wǎng)絡(luò)酥宴。分類子網(wǎng)絡(luò)的輸入是一張一張的圖像啦吧,采用的損失函數(shù)是cross-entropy loss,這樣使得類間特征的距離擴大拙寡。驗證子網(wǎng)絡(luò)的輸入是成對的圖像,值得注意的是這里采用的損失函數(shù)不是contrastive loss而是與之前一樣的cross-entropy loss琳水,參考作者給出的原因是他們發(fā)現(xiàn)用contrastive loss反而模型性能會變差肆糕,具體操作是將成對的圖像特征相減,然后當(dāng)做是二分類模型在孝,輸出相似或者不相似诚啃,這樣能使類內(nèi)特征的距離減小。
該模型的結(jié)構(gòu)如下:
論文中的細節(jié):
- base network采用的是在ImageNet上預(yù)訓(xùn)練過的GoogLeNet私沮,發(fā)現(xiàn)效果和ResNet相當(dāng)始赎。
- 提出一種Loss specific dropout unit,該單元特殊用于驗證子網(wǎng)絡(luò),因為要對兩個圖像進行相減操作造垛,因此兩張圖像的dropout的方式要相同魔招,因此使用了一個mask來記錄要drop的元素。
- 提出一種Two-stepped fine-tuning五辽,第一步是將模型凍結(jié)办斑,將原GoogLeNet中的softmax層的節(jié)點數(shù)量替換為數(shù)據(jù)集類別數(shù)量,單獨訓(xùn)練分類子網(wǎng)絡(luò)杆逗。第二步是乡翅,解除凍結(jié),對整個網(wǎng)絡(luò)進行微調(diào)罪郊。
除此之外蠕蚜,作者還討論了無監(jiān)督遷移學(xué)習(xí)方法之間效果的比較。這里討論的是Self-training和Co-training悔橄。無監(jiān)督的遷移學(xué)習(xí)用到的數(shù)據(jù)也是多個攝像頭拍攝的行人靶累,假設(shè)我們現(xiàn)在有A、B兩個攝像頭拍下的無標(biāo)簽的行人圖像橄维,A攝像頭下的每個行人我們都賦予一個獨特的ID尺铣,然后通過最近鄰搜索找到B攝像頭中與之最接近的行人并附上相同的標(biāo)簽,這個想法很簡單争舞,但是實現(xiàn)起來效果很差凛忿,因為很容易存在多個A攝像頭中的行人都是B攝像頭中的同一個行人與之最相似,而B攝像頭中的某些行人無法與A攝像頭中的行人ID產(chǎn)生對應(yīng)關(guān)系竞川。
而Co-training正好就能彌補Self-training的缺陷店溢,主要流程是設(shè)計兩個具有互補性質(zhì)的模型,用模型1來標(biāo)注所有的無標(biāo)簽數(shù)據(jù)委乌,用模型1標(biāo)注的數(shù)據(jù)來訓(xùn)練模型2床牧,再用模型2來標(biāo)注所有的無標(biāo)簽數(shù)據(jù),用模型2標(biāo)注的數(shù)據(jù)來訓(xùn)練模型1遭贸,循環(huán)直到所有的未標(biāo)注數(shù)據(jù)都擁有標(biāo)注為止戈咳。