行人重識別面臨的兩個major challenges:
缺少跨視角的成對圖片來訓練;
在有大量不同姿態(tài)的數(shù)據(jù)中難以提取不受姿態(tài)變化影響的穩(wěn)定特征;
現(xiàn)有的person re-id的算法的局限性:
難以拓展到大規(guī)模的camera networks银亲,因為大規(guī)模的監(jiān)控區(qū)域包含了大量的不同角度不同姿態(tài)不同身份的行人信息。現(xiàn)有的模型需要充足的不同身份不同攝像頭角度的標記數(shù)據(jù)來訓練。要獲取這樣的數(shù)據(jù)非常困難(多少人工多少智能)
用一個攝像頭網(wǎng)絡的數(shù)據(jù)訓練的模型難以泛化到新的攝像頭網(wǎng)絡上庭敦,一般都需要用額外的數(shù)據(jù)去做fine-tuning。
解決思路
減小姿態(tài)的不同對于行人的外表的影響薪缆,使得re-id模型可以提取穩(wěn)定的高辨識度特征秧廉。而在沒有姿態(tài)變化的情況下學習到的特征與在具有大量姿態(tài)變化的情況下學習到的特征不同且互補。
定義8種典型姿態(tài)拣帽,然后將數(shù)據(jù)集中的行人歸一化到這8種姿態(tài)中疼电。
Contributions
使用一個PN-GAN將數(shù)據(jù)中的所有行人歸一化到8個姿態(tài)中,將從真實數(shù)據(jù)中提取到的行人特征和生成數(shù)據(jù)中提取到的行人特征融合之后做re-id匹配减拭。
方法
論文方法的總體流程是:對于給定的源圖片
在pose estimation 方面号杏,文章用的也是現(xiàn)成的模型:OpenPose ,可以直接用到任意數(shù)據(jù)集上提取行人的18個關鍵點婴氮。
對行人姿態(tài)進行歸一化,將數(shù)據(jù)集中的每個行人的姿態(tài)都變換到上圖(a)中的 8 種姿態(tài)盾致。為了選取出具有代表性的8種姿態(tài)主经,論文將一個數(shù)據(jù)集中的所有圖片數(shù)據(jù)都提取出對應的姿態(tài),用預訓練好的VGG-19提取出對應的姿態(tài)圖的特征庭惜,然后用K-means算法將所有的姿態(tài)圖做cluster罩驻,隨后將每一個簇的平均值作為一個典型姿態(tài)(上圖(b))。
具體的姿態(tài)遷移模型如上圖护赊。模型需要成對的訓練數(shù)據(jù):需要改變姿態(tài)的行人圖片
實驗結果
在Market數(shù)據(jù)集上做監(jiān)督學習的結果壁熄,ResNet-50-A是論文模型中直接抽取真實行人圖片特征的re-id模型帚豪。可以看到草丧,其實論文提出的融合從生成的8個姿態(tài)圖片中提取到的特征來做re-id的效果跟直接用ResNet-50-A做re-id的效果相比狸臣,沒有非常大的提升,這在后面做直接遷移到CUHK數(shù)據(jù)集上的結果對比中尤其明顯昌执。
隨后論文在CUHK01和CUHK03數(shù)據(jù)集上都做了對比烛亦,TL表示將論文在Market上預訓練好的模型不經(jīng)過fine-tune直接用到CUHK數(shù)據(jù)集上的結果。從直接在CUHK上使用模型的結果來看仙蚜,使用了融合了生成圖片特征的完全體模型并不比僅僅使用真實數(shù)據(jù)訓練的ResNet-50-A有多大的優(yōu)勢此洲。
PN-GAN生成結果如下:
總結一下,論文通過將姿態(tài)歸一化來去除掉姿態(tài)變化對re-id模型提取特征的影響委粉,用的東西也是現(xiàn)成的呜师,比如說PN-GAN的實現(xiàn)思路跟Pose Guided Person Image Generation里如出一轍等。最后實驗的效果比直接使用ResNet-50去做re-id的結果提升也不算特別大(尤其是直接用到新的數(shù)據(jù)集上測試性能的時候)贾节。我覺得可能是生成的圖片沒有能夠很好的還原真實的信息汁汗,或者無法提供re-id模型想要提取的特征衷畦。另一篇文章Pose Transferrable Person Re-identification就嘗試用訓練好的re-id模型去引導生成器恢復re-id模型需要提取的特征信息,感覺這個也比較可行知牌。