Abstract
現(xiàn)在行人重識(shí)別(Person ReID)越來(lái)越火,一個(gè)比較大的挑戰(zhàn)是首先跨攝像頭目標(biāo)重識(shí)別殷勘,其次是每一個(gè)行人patch中背景復(fù)雜此再、人體姿態(tài)不一和遮擋等情況增加了特征提取并學(xué)習(xí)的難度。目前有很多工作已經(jīng)開(kāi)始引入了額外的監(jiān)督信息比如行人的關(guān)鍵點(diǎn)玲销,通過(guò)一種part-base的方法去強(qiáng)約束模型對(duì)于行人特征的學(xué)習(xí)能力输拇。關(guān)鍵點(diǎn)的引入可以使得行人的一些局部特征提取變得更加準(zhǔn)確,過(guò)往有很多工作證明了這種工作的有效性贤斜。
作者在本篇文章主要提出了一種Person ReID的架構(gòu)叫做Attention-Aware Compositional Network (AACN)策吠,這種結(jié)構(gòu)主要由兩個(gè)子結(jié)構(gòu)構(gòu)成。
- Pose-guided Part Attention (PPA)
- Attention-aware Feature Composition (AFC)
前者用于學(xué)習(xí)特征預(yù)測(cè)人體關(guān)鍵點(diǎn)瘩绒、剛性結(jié)構(gòu)和非剛性結(jié)構(gòu)的特征圖猴抹,同時(shí)對(duì)于不同結(jié)構(gòu)所預(yù)測(cè)出來(lái)的特征圖,還引入了一個(gè)概念叫做 pose-guided visibility scores锁荔,主要是用來(lái)對(duì)每個(gè)人體部件的可視程度進(jìn)行打分加權(quán)蟀给。AFC結(jié)構(gòu)用于將PPA得到的attention信息與全局的特征組合在一起,然后通過(guò)行人的ID作為標(biāo)簽進(jìn)行分類訓(xùn)練(reid loss)阳堕。作者的這個(gè)方法在目前主流的Person ReID數(shù)據(jù)集比如Market-1501, CUHK03, CUHK01, SenseReID,CUHK03-NP and DukeMTMC-reID上都取得了最好的結(jié)果跋理。
Introduction
近幾年研究Person ReID的文章很多,這主要得益于其具備廣泛而重要的應(yīng)用恬总,最常見(jiàn)的一個(gè)需求就是老人前普、小孩走丟了之后能快速分析將其找回。但是由于人體姿態(tài)越驻、光照汁政、背景和不同攝像機(jī)成像之間存在差異道偷。跨攝像頭的Person ReID即行人檢索有較高的難度记劈。part-base的方法可以使得CNN模型提取特征的過(guò)程中更加關(guān)心與重要人體區(qū)域的特征勺鸦,但目前仍存在一定的問(wèn)題。如下圖(a)目木,(b)换途,(c)所示,畫(huà)框類型的人體部件標(biāo)注引入了額外的背景信息和其他部件的區(qū)域刽射,在提取的特征中真正關(guān)心的部件特征只占了一部分军拟。
同時(shí)觀察上圖的(d),(e)誓禁,(f)懈息,交叉的部件和背包都會(huì)讓目標(biāo)人體部件的特征提取出現(xiàn)不準(zhǔn)確的情況。所以在這篇文章中摹恰,作者引入了姿態(tài)也就是關(guān)鍵點(diǎn)來(lái)精細(xì)化行人部件的特征提取辫继,稱之為Pose-guided的方法。在說(shuō)這部分之前作者對(duì)比了過(guò)往part-based方法中常用的手段俗慈,如下圖所示姑宽。
RoI是我們剛才所說(shuō)的對(duì)不同的部件使用box畫(huà)框標(biāo)注的方法,Patch和Strip分別設(shè)計(jì)了網(wǎng)格和橫條去拆分一幅圖闺阱,然后針對(duì)每一個(gè)part都提取特征進(jìn)行學(xué)習(xí)炮车。從圖中可以很直觀的看出,作者使用的這種Pose-guided的方法能更準(zhǔn)確的學(xué)習(xí)人體部件區(qū)域的Attention Map酣溃。對(duì)于本文的貢獻(xiàn)點(diǎn)總結(jié)如下:
- 提出了一個(gè)叫做Attention-Aware Compositional Network (AACN)的結(jié)構(gòu)用來(lái)解決行人不對(duì)齊和遮擋的問(wèn)題瘦穆。
- Pose-guided的方法能更準(zhǔn)確的排除掉背景等區(qū)域的干擾信息,并且基于該方法得到的行人剛性和非剛性Attention Map能被用于大部分基于Attention的方法中救拉。
- 對(duì)于不同部件的Attention Map引入了visibility score主要解決了行人中一些部件出現(xiàn)遮擋的問(wèn)題难审。
- 在目前的主流Person ReID數(shù)據(jù)集上取得了最好的性能結(jié)果。
Related Work
這部分感興趣可以查看論文了解亿絮。
Attention-Aware Compositional Network
如同前文提到的一樣告喊,作者的AACN框架包含兩個(gè)結(jié)構(gòu),分別是Pose-guided Part Attention(PPA)和Attention-aware Feature Composition (AFC)派昧。前者對(duì)一張輸入圖像處理之后輸出attention map和visibility scores黔姜,然后這部分的輸出和AFC的第一個(gè)stage輸出也就是Global Feature相結(jié)合之后作為AFC模塊的后端輸入〉傥總體結(jié)構(gòu)圖如下圖所示:
PPA結(jié)構(gòu)主要包含了兩個(gè)stage秆吵,每一個(gè)stage分別對(duì)應(yīng)三個(gè)輸出,為關(guān)鍵點(diǎn)的特征圖五慈、剛性結(jié)構(gòu)的特征圖和非剛性結(jié)構(gòu)的特征圖纳寂。使用2 stage級(jí)聯(lián)的方式可以使得網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中對(duì)于特征圖的生成更為準(zhǔn)確主穗。結(jié)構(gòu)如上圖中(a)的上半部分。AFC模塊主要是用GoogleNet作為stage1的backbone用于圖像全局特征圖的生成毙芜,然后在stage2和stage3中分別于PPA的attention map和visibility scores相結(jié)合計(jì)算忽媒。如上圖中的(b)下半部分所示。
Pose-guided Part Attention
類似于下圖(a)腋粥,人的結(jié)構(gòu)可以按照關(guān)鍵點(diǎn)的分布而分為剛性結(jié)構(gòu)和非剛性結(jié)構(gòu)晦雨。
剛性結(jié)構(gòu)主要是人體的軀干,分別頭部隘冲、上半身軀干和下半身軀干闹瞧,非剛性結(jié)構(gòu)的話主要是腿、胳膊等人體部件展辞。PPA結(jié)構(gòu)中使用了一個(gè)2stage的CNN模型奥邮,最終輸出關(guān)鍵點(diǎn)K、剛性結(jié)構(gòu)R和非剛性結(jié)構(gòu)N三種attention map罗珍。這一部分對(duì)三種attention map分別計(jì)算loss漠烧,公式如下所示:
Loss for Keypoint Confidence Map
對(duì)于人體關(guān)鍵點(diǎn)的attention map,作者定義loss表達(dá)為靡砌,人體總共在這篇文章中歸結(jié)為14個(gè)關(guān)鍵點(diǎn),所以最終輸出的attention map總共有14個(gè)珊楼,每一個(gè)attention map分別對(duì)應(yīng)一個(gè)關(guān)鍵點(diǎn)的回歸結(jié)果通殃。在真值標(biāo)簽中,對(duì)于某個(gè)坐標(biāo)位置上的關(guān)鍵點(diǎn)需要使用Gaussian kernel(高斯核函數(shù))中心展開(kāi)得到其對(duì)應(yīng)的heatmap真值標(biāo)簽厕宗。然后計(jì)算損失的時(shí)候使用MSE Loss來(lái)衡量真值heatmap和預(yù)測(cè)出來(lái)的attention map之間的差異画舌。公式如下:
Loss for Non-Rigid Part Attention
對(duì)于人體的非剛性結(jié)構(gòu),之前的方法都是使用box作為框定的標(biāo)簽已慢,本文受 Part Affinity Field (PAF)方法的啟發(fā)曲聂,對(duì)于某一個(gè)非剛性結(jié)構(gòu),使用兩個(gè)關(guān)鍵點(diǎn)定位到這個(gè)結(jié)構(gòu)的兩端佑惠,然后連線以后以一定的寬度外擴(kuò)得到一個(gè)矩形區(qū)域
表示非剛性結(jié)構(gòu)的attention map真值朋腋。最終使用MSE Loss來(lái)計(jì)算真值和預(yù)測(cè)值之間的差異:
Loss for Rigid Part Attention
上文提到的三個(gè)人體剛性部件,同樣使用了關(guān)鍵點(diǎn)作為引導(dǎo)然后勾勒出幾何區(qū)域來(lái)表示真值的heatmap膜楷,對(duì)于頭肩部分選擇關(guān)鍵點(diǎn)的組合為旭咽,對(duì)于上半身選擇
,對(duì)于下半身選擇
赌厅。同樣的該部分也使用了MSE Loss穷绵,如下所示:
Part Visibility Score
attention map中attention區(qū)域的大小能直觀的表示出一個(gè)部件在一幅圖像中的成像大小,受這個(gè)思想的啟發(fā)特愿,作者對(duì)于每個(gè)attention map做一個(gè)累加計(jì)算仲墨,得到的值定義為visibility scores勾缭,如果這個(gè)值越大,那么就說(shuō)明人體該部分的部件遮擋情況不是特別嚴(yán)重目养。公式如下所示:
分別表示了作者對(duì)人體的所有剛性結(jié)構(gòu)和非剛性部件的在PPA結(jié)構(gòu)的輸出特征圖中做了特征累加俩由。
Attention-aware Feature Composition
如上面的結(jié)構(gòu)圖所示,AFC結(jié)構(gòu)包含了三個(gè)stage混稽,分別是一個(gè)Global Context Network(GCN)用于提取圖像的全局特征采驻, Attention-Aware Feature Alignment和 Weighted Feature Composition。后兩個(gè)結(jié)構(gòu)分別利用了PPA輸出的attention map和visibility scores與全局的圖像feature map結(jié)合計(jì)算匈勋。
Stage 1: Global Context Network (GCN)
GCN結(jié)構(gòu)使用了GoogleNet作為backbone輸出圖像的全局特征礼旅,與原本的CNN結(jié)構(gòu)不一樣的是,作者將inception 5b/output部分后面的模塊替換為了一個(gè)3x3洽洁,卷積核個(gè)數(shù)為256的卷積層痘系,其中一個(gè)作用是降低了網(wǎng)絡(luò)的性能開(kāi)銷,同時(shí)使用了這個(gè)結(jié)構(gòu)結(jié)合448x192的輸入(原版CNN輸入為224x224)饿自,最終GCN的輸出特征圖從7x7變?yōu)?4x6汰翠。對(duì)于這一部分,作者修改網(wǎng)絡(luò)結(jié)構(gòu)之后將改過(guò)的GCN模型在ImageNet網(wǎng)絡(luò)上做了預(yù)訓(xùn)練昭雌。
Stage 2: Attention-Aware Feature Alignment
對(duì)比上述結(jié)構(gòu)圖中(a)的下半部分复唤,AFC的stage2首先第一個(gè)輸入時(shí)GCN的global feature,其次是PPA結(jié)構(gòu)輸出來(lái)的剛性結(jié)構(gòu)和非剛性結(jié)構(gòu)的attention map(假如有N個(gè))烛卧。每一個(gè)attention map使用哈達(dá)瑪乘積依次與global feature進(jìn)行計(jì)算佛纫,最終可以得到N個(gè)global feature。對(duì)于每一個(gè)global feature首先使用GAP(global average pooling)計(jì)算之后將所有的feature vector拼接起來(lái)总放〕视睿基本上可以用以下公式表示這個(gè)過(guò)程。
表示所有從PPA結(jié)構(gòu)中輸出的人體部件attention map局雄,
是對(duì)
做了一個(gè)減最小值除最大值的歸一化操作結(jié)果甥啄。
是GCN結(jié)構(gòu)輸出的256維的global feature,
表示的是global feature和PPA的輸出attention map做了點(diǎn)積之后的attention feature map炬搭,
是GAP操作蜈漓,得到feature vector。最后將所有的feature vector拼接到一起尚蝌。得到P個(gè)1xN大小的vector迎变,P是attention map的個(gè)數(shù),N是feature vector的長(zhǎng)度飘言。
Stage 3: Weighted Feature Composition
PPA結(jié)構(gòu)中的visibility score總共有P個(gè)衣形,等于人體剛性和非剛性部件的總數(shù)。對(duì)于這個(gè)Px1的feature vector,在AFC的第三個(gè)stage中谆吴,首先將其與stage2中的輸出feature vector拼接得到P個(gè)1x(N+1)的vector倒源,然后使用1x1的卷積計(jì)算得到P個(gè)權(quán)值,將這個(gè)權(quán)值向量Px1與stage2中的輸出feature vector(大小為P個(gè)1xN)做點(diǎn)積計(jì)算之后輸出feature vector句狼,同樣再使用1x1的卷積核進(jìn)行計(jì)算得到最終輸出的人體特征笋熬,然后使用reid loss(其實(shí)就是ID的softmax loss)約束學(xué)習(xí)。
Experiments
這一部分主要是對(duì)主流Person ReID數(shù)據(jù)集做了測(cè)試腻菇,對(duì)于 CUHK03胳螟,CUHK01和SenseReID數(shù)據(jù)集使用CMC指標(biāo), Market-1501筹吐,CUHK03-NP和DukeMTMC-reID使用了rank-1和mAP作為檢索指標(biāo)糖耸。這里貼幾個(gè)主要的實(shí)驗(yàn)結(jié)果,如下所示:
可以看出論文方法比目前的SOTA方法都有一定程度的提升丘薛,是個(gè)很有創(chuàng)新性和實(shí)用性的工作嘉竟。
Ablation Analysis
在這一部分中作者闡述了一些能對(duì)AACN結(jié)構(gòu)產(chǎn)生性能影響或者改進(jìn)的方向,比如說(shuō)base network洋侨,比如文中的GCN是GoogleNet舍扰,如果調(diào)整為其余網(wǎng)絡(luò)涣仿,也是有效的贮庞,并且檢索性能會(huì)因?yàn)镃NN模型的特征學(xué)習(xí)能力而發(fā)生改變。如下圖所示杜顺。
可以看出換了不同的base network之后AACN方法對(duì)比之前采用同樣base network的Person ReID方法還是有比較顯著的優(yōu)越性裁僧,并且能夠在檢索性能上做到更少的參數(shù)勾给。
Pose-guided Part Attention
下圖的結(jié)果表示了使用PPA結(jié)構(gòu)的attention map對(duì)比其他幾種attention map生成方式比如RoI和Parsing方法的結(jié)果。同樣體現(xiàn)了PPA結(jié)構(gòu)的優(yōu)越性锅知。
Attention-aware Feature Composition
文章也討論了在結(jié)合人體部件attention map和global feature過(guò)程中的定量分析,結(jié)果如下圖所示脓钾。使用所有的剛性結(jié)構(gòu)和非剛性結(jié)構(gòu)可以取得最好的結(jié)果售睹。
Visibility Score
Visibility Score同樣能對(duì)最終的結(jié)果帶來(lái)一定改進(jìn),因?yàn)閺睦碚撋蟻?lái)講可训,這部分對(duì)于人體部件是否出現(xiàn)遮擋問(wèn)題有較高的敏感性昌妹。結(jié)果如下所示。
Conclusion
總的來(lái)說(shuō)握截,這篇文章提供了一個(gè)很好的思路飞崖,將attention機(jī)制應(yīng)用于行人重識(shí)別任務(wù)中,摒除了背景等干擾因素帶來(lái)的特征學(xué)習(xí)問(wèn)題谨胞,對(duì)解決不同姿態(tài)固歪、不同背景下的Person ReID問(wèn)題提出了新的思路。PPA結(jié)構(gòu)負(fù)責(zé)學(xué)習(xí)并輸出人體部件的attention map,然后AFC結(jié)構(gòu)負(fù)責(zé)將attention map和global feature相結(jié)合然后進(jìn)行行人特征學(xué)習(xí)牢裳,最后逢防,attention map強(qiáng)相關(guān)的visibility scores能對(duì)遮擋的部件進(jìn)行最大程度的兼容。