FD-GAN: Pose-guided Feature Distilling GAN forRobust Person Re-identification(NIPS 2018)
設(shè)計了特征提取生成對抗網(wǎng)絡(luò)(FD-GAN)用于學(xué)習(xí)與身份相關(guān)和姿勢無關(guān)的表示,即在設(shè)計網(wǎng)絡(luò)使得在行人重識別的時候不去考慮姿勢妙痹。
Introduction
行人重識別(reID)目的是在多個攝像機上匹配具有相同身份的行人圖像频轿。姿勢變化潜沦,模糊和遮擋是行人重識別的一個重大挑戰(zhàn)洪乍。有使用GAN進行行人重識別算法的研究。zheng 等人提出半監(jiān)督結(jié)構(gòu),利用標記平滑正則化生成圖像党窜,用于異常值正則化。PTGAN被提出用于彌補不同數(shù)據(jù)集之間的域差距借宵。GAN還能用于表示學(xué)習(xí)幌衣。
提出的FD-GAN(特征提煉生成對抗網(wǎng)絡(luò))嘗試在姿勢發(fā)生變化的同時保持身份信息的一致性。
特征學(xué)習(xí)過程中應(yīng)用連體結(jié)構(gòu)壤玫,每個分支都包含一個編碼器和圖像生成器豁护,圖像編碼器嵌入了輸入圖像中的人的特征。圖像生成器通過編碼生成以姿勢信息和輸入人物特征為條件的新的圖像欲间〕铮框架中繼承了多個鑒別器,用于區(qū)分兩個分支生成的圖像之間的分支間和分支內(nèi)的關(guān)系猎贴。
所提出的身份鑒別器班缎,姿勢鑒別器和驗證分類器以及重建損失和新穎的相同姿勢損失共同規(guī)范了用于實現(xiàn)健壯的人reID的特征學(xué)習(xí)過程。
總的貢獻:
- 提出新的FD-GAN她渴,用于姿勢發(fā)生變化的行人重識別达址。在推理期間不在需要額外的輔助姿勢信息或增加計算復(fù)雜度。
- 人圖像生成作為輔助任務(wù)趁耗,但是仍然生成了質(zhì)量比較好的圖像沉唠。
Feature Distilling Generative Adversarial Network
特征提取生成性對抗網(wǎng)絡(luò)(FDGAN)旨在學(xué)習(xí)和身份相關(guān),姿勢無關(guān)的任務(wù)表示苛败。
方法總體框架如下所示:
![所提出的FD-GAN采用了暹羅結(jié)構(gòu)(連體結(jié)構(gòu))满葛,包括圖像編碼器E,圖像生成器G罢屈,身份驗證分類器V和兩個鑒別器(身份鑒別器和姿勢鑒別器)嘀韧。網(wǎng)絡(luò)的每個分支將人的圖像和生成圖像的姿勢標記圖作為輸入。圖像編碼器首先將每個分支的輸入的任務(wù)圖像轉(zhuǎn)換為特征表示儡遮,身份驗證分類器用于監(jiān)督行人reID的特征學(xué)習(xí)乳蛾。圖像生成器G通過給定輸出圖像姿勢和輸入圖像生成使得學(xué)習(xí)特征魯棒并且和姿勢無關(guān)的圖像。身份鑒別器和姿勢鑒別器
用于規(guī)范圖像生成過程鄙币,促進生成器生成圖像肃叶。這兩個判別器都是條件判別器,用于根據(jù)輸入標識符姿勢對輸入圖像是真是假進行分類十嘿。同時鼓勵圖像生成器和圖像編碼器共同用偽造的圖像欺騙鑒別器因惭。還增加了同一個人的不同圖像生成姿勢應(yīng)當(dāng)一致的損失(圖中的Same-pose loss)。整個框架是端到端的方式進行訓(xùn)練绩衷。在推斷階段蹦魔,僅使用了圖像編碼器沒有使用輔助姿勢信息激率。
以上所提到的結(jié)構(gòu)如上圖所示。
Image encoder and image generator
圖像編碼器和圖像生成器的結(jié)構(gòu)如上圖中a所示勿决,給定一個輸入圖像乒躺,圖像編碼器利用ResNet-50將其輸入圖像編碼為2048維的特征向量。圖像生成器將編碼的人物特征和目標姿勢圖作為輸入低缩,旨在生成目標姿勢指定的同一人的另一幅圖像嘉冒。然后將視覺特征,目標姿勢特征和標準高斯分布采樣的附加的256維噪聲矢量連接并輸入到一系列采樣快中輸出生成的人圖像咆繁。
Identity verification classifier
給定來自圖像編碼器的兩個輸入圖像讳推,身份驗證分類器V確定兩個圖像是不是同一個人。結(jié)構(gòu)如上圖中b所示玩般。分類器使用二進制交叉熵損失訓(xùn)練银觅。表示sigmoid函數(shù)輸出的可信度分數(shù)坏为。該部分損失函數(shù)為:
其中的是置信度標簽究驴。
Image generation with identity and pose discriminators
使用生成對抗網(wǎng)絡(luò)規(guī)范圖像編碼器E,使他只學(xué)習(xí)身份相關(guān)的信息久脯。
Identity discriminator
區(qū)分生成的圖像和同一分支輸入人的圖像是不是屬于同一個人纳胧。身份鑒別器網(wǎng)絡(luò)和上面的身份驗證分類網(wǎng)絡(luò)是相同的镰吆。但是不和圖像編碼器E共享權(quán)重帘撰。
Pose discriminator
區(qū)分生成圖片
和目標姿態(tài)是否匹配。如圖中d所示万皿,使用了PatchGAN的結(jié)構(gòu)摧找。對抗損失如下:
實驗中觀察到,姿態(tài)判別器會出現(xiàn)過擬合姿態(tài)信息牢硅,它會記住特定姿態(tài)和行人外觀之間的相似性蹬耘,因此提出了在線姿勢圖增強方案,在訓(xùn)練期間减余,對于每個姿勢界標综苔,其在一些特定范圍內(nèi)的隨機高斯帶寬獲得其1通道高斯類熱圖。
Reconstruction loss
單獨的鑒別器不能保證產(chǎn)生人類能看懂的圖像位岔,因此引入重建損失如筛,最小化生成圖像和對應(yīng)的真實圖像之間的差距。
其中是圖像的像素值抒抬。當(dāng)沒有對應(yīng)的真實圖像的時候杨刨,不適用這個損失。
Same-pose loss
輸入同一個人的兩張不同的圖像應(yīng)該會得到近似相同的外觀擦剑。因此引入這個相同的姿勢損失最小化同一個人的兩個生成圖像和目標姿勢之間的差異妖胀。這也鼓勵了兩個輸入圖像中的學(xué)習(xí)視覺特征僅僅和身份相關(guān)芥颈,忽略其他因素。
Over all training objective
Trianing scheme
共分為三個階段赚抡。第一階段預(yù)訓(xùn)練編碼器E和身份驗證分類器V爬坑。預(yù)訓(xùn)練的權(quán)重用于初始化第二階段中的E,V和身份鑒別器涂臣。第二階段固定E和V妇垢,訓(xùn)練G,
肉康。第三階段將整個網(wǎng)絡(luò)以端到端的方式微調(diào)闯估。