arXiv:1611.05666v2 [cs.CV] 3 Feb 2017 by Zhedong Zheng, Liang Zheng and Yi Yang
Dataset
Market1501,CUHK03,Oxford5k.
Verification-Identification Models
結(jié)合Verification model和Identification model的優(yōu)點(diǎn)泡徙,并通過(guò)互補(bǔ)來(lái)規(guī)避兩者各自的缺點(diǎn)橱鹏。
Verification models:把Person Re-id當(dāng)作一個(gè)二分類的識(shí)別任務(wù)或者說(shuō)是相似性回歸任務(wù),以圖片對(duì)作為輸入并判斷他們是否為同一個(gè)人堪藐。
缺點(diǎn):只使用弱Reid標(biāo)簽莉兰,而沒(méi)有考慮圖片對(duì)(image pair)與其他圖片之間的關(guān)系。
Identification models:為了充分利用Re-id標(biāo)簽礁竞,identi?cation models 把行人重識(shí)別當(dāng)作一個(gè)多分類的識(shí)別任務(wù), 用以特征學(xué)習(xí).
缺點(diǎn):The major drawback of the identi?cation model is that the training objective is different from the testing procedure,it does not account for the similarity measurement between image pairs, which can be problematic during the pedestrian retrieval process.
因?yàn)橐陨蟽煞N模型各自的優(yōu)點(diǎn)與限制糖荒,提出了Siamese Network,結(jié)合了兩者的優(yōu)點(diǎn)模捂,并彌補(bǔ)相互的不足捶朵。它能同時(shí)預(yù)測(cè)人的id和判斷兩人的相似性蜘矢。
論文核心模型 --Siamese Network
- 給定227x227的一個(gè)圖片對(duì),網(wǎng)絡(luò)同時(shí)給出兩張圖片的ID和similarity score综看。
- 該網(wǎng)絡(luò)包括兩個(gè)pre-trained CNN models(此處為CaffeNet)品腹,3個(gè)additional Convolutional Layers,一個(gè)Square Layer和3個(gè)loss(2個(gè)identification loss和1個(gè)verification loss)红碑。
- 本文中pre-trained CNN models的最后的FC層(1000-dim)被去掉了舞吭,被替換為卷積層(In order to ?ne-tune the network on a new dataset),并且加入softmax來(lái)約束輸出。
- 卷積過(guò)程中沒(méi)有假如ReLU析珊,和大多數(shù)方法一樣羡鸥,此處使用的是cross-entropy loss。
- 在此模型中忠寻,直接比較high-level features f1,f2作為similarity評(píng)估兄春。
- Square Layer,無(wú)參層锡溯,用以比較f1,f2的特征赶舆,它將兩個(gè)tensor作為輸入,將它們做差的平方后輸出一個(gè)tensor祭饭。fs=f(f1-f2)^2.(f1,f2 are the 4,096-dim embeddings and fs is the output tensor of the Square Layer. )