論文地址:https://arxiv.org/pdf/1812.11703.pdf
源碼地址:https://lb1100.github.io/SiamRPN++
SiamRPN++源于2018年收錄于cs.CV上的論文《SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks》,基于深度網(wǎng)絡(luò)的孿生視覺(jué)跟蹤的發(fā)展顾翼。
孿生網(wǎng)絡(luò)算法使用的互相關(guān)層在視頻幀(搜索區(qū)域search region)中搜索范例物體(目標(biāo)模板target template)刻炒,盡管它非成撩剩快速,但相對(duì)于目標(biāo)跟蹤領(lǐng)域最優(yōu)的算法(如ECO沐兵、MDNet)刃唐,在準(zhǔn)確度上還有很大差異。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展塘淑,當(dāng)前更深層的網(wǎng)絡(luò)能更好地描述圖片特征萝招,但作者使用ResNet替代之前類似AlexNet的網(wǎng)絡(luò)收效甚微蚂斤,后來(lái)發(fā)現(xiàn)這是由于較新的網(wǎng)絡(luò)中都使用了填充padding損失了平移不變性造成的,本文中使用空間感知采樣算法槐沼,解決了這一問(wèn)題曙蒸,使孿生網(wǎng)絡(luò)能使用更深層的底層網(wǎng)絡(luò)。同時(shí)提出了層聚合和深度聚合的方案岗钩,使SiamRPN++模型效果明顯提升纽窟,且有效地減少了模型參數(shù)。
論文主要貢獻(xiàn)有幾下幾點(diǎn):
- 通過(guò)研究證明增加網(wǎng)絡(luò)深度時(shí)模型效果變差的原因是破壞了平移不變性兼吓。
- 用簡(jiǎn)單有效的方法打破了平移不變性的限制臂港,使Siamese網(wǎng)絡(luò)可使用ResNet基礎(chǔ)網(wǎng)絡(luò)。
- 利用互相關(guān)的分層結(jié)構(gòu)视搏,使模型從多個(gè)層次學(xué)習(xí)的相似特征(layer-wise)审孽。
- 用深度結(jié)構(gòu)增強(qiáng)互相關(guān)性,產(chǎn)生多個(gè)語(yǔ)義相關(guān)的相似圖(depth-wise)浑娜。
最終實(shí)現(xiàn)的模型可達(dá)35 fps(幀每秒)的速度佑力,并在五種評(píng)測(cè)中超越之前最佳模型效果,基于MobileNet的模型可達(dá)70fps筋遭,
深層孿生網(wǎng)絡(luò)
在跟蹤任務(wù)中使用比較深層的卷積網(wǎng)絡(luò)提取特征時(shí)打颤,模型效果反而變差暴拄,先來(lái)看看該問(wèn)題的原因。
用于跟蹤的孿生網(wǎng)絡(luò)
孿生網(wǎng)絡(luò)是一個(gè)Y型網(wǎng)絡(luò)编饺,它的兩個(gè)分枝分別用于獲取目標(biāo)模板的特征和獲取搜索區(qū)域的特征乖篷。目標(biāo)模板一般是視頻第一幀中的一個(gè)區(qū)域用z表示,目標(biāo)是找到每幀中與其最相似的區(qū)域x:
其中f計(jì)算二者相似性透且,φ用于提取特征那伐,b為偏移參數(shù)。孿生網(wǎng)絡(luò)需要滿足以下兩個(gè)約束條件:第一區(qū)域需要嚴(yán)格的平移不變性石蔗,它保證了訓(xùn)練和預(yù)測(cè)的有效性罕邀。
中括號(hào)中表示子窗口的平移操作。第二需要服從對(duì)稱性:
無(wú)法在孿生網(wǎng)絡(luò)中使用更深層網(wǎng)絡(luò)的原因與上述兩點(diǎn)有關(guān)养距,深度網(wǎng)絡(luò)中的填充padding破壞了嚴(yán)格的平移不變性诉探,SiamRPN需要計(jì)算分類與回歸又影響了對(duì)稱性。
之前SiamFC孿生網(wǎng)絡(luò)基于的底層網(wǎng)絡(luò)AlexNet不需要填充padding棍厌,因此沒(méi)有遇到平移不變性的問(wèn)題肾胯,在更深層的網(wǎng)絡(luò)中無(wú)法避免padding,異致了空間偏見耘纱。論文中用模擬實(shí)驗(yàn)驗(yàn)證了這一點(diǎn)敬肚,將目標(biāo)設(shè)置為分別與圖像中心偏移(0,16束析,32)分別實(shí)驗(yàn)艳馒,測(cè)試集中產(chǎn)生如下熱點(diǎn):
顏色表示正例的概率,左圖中偏移為0员寇,它展示了嚴(yán)重的中心偏見弄慰,邊緣的概率快速衰減為0,右邊當(dāng)偏移變大時(shí)蝶锋,更近似于測(cè)試集中實(shí)際分布陆爽。空間感知采樣(spatial aware sampling)可以有效地解決了這一問(wèn)題扳缕。
簡(jiǎn)單地說(shuō)慌闭,如果把目標(biāo)放在圖像的正中心,模型就很難檢測(cè)到位置不太正的備選區(qū)域躯舔,若在訓(xùn)練時(shí)將目標(biāo)相對(duì)于圖片中心位置隨機(jī)偏移一些(空間感知采樣)驴剔,就可以解決該問(wèn)題。下圖展示了使用ResNet-50提取特征時(shí)庸毫,偏移帶來(lái)的模型效果提升:
基于ResNet的孿生跟蹤網(wǎng)絡(luò)
普通的ResNet的步長(zhǎng)是32仔拟,也就是說(shuō)輸入是224x224像素的圖片經(jīng)過(guò)多層網(wǎng)絡(luò)處理后,最后空間被壓縮到7x7飒赃,這樣的分辨率用于孿生網(wǎng)絡(luò)比較圖片相似度太低了利花,于是修改了其conv4和conv5層科侈,將它們的空間步長(zhǎng)變?yōu)?,這樣原來(lái)縮小32和16就變成了8炒事,提升了輸出層卷積的分辨率臀栈,在每個(gè)模塊后面又加了一層卷積層,將輸出通道大小轉(zhuǎn)換為256挠乳。
然后权薯,結(jié)合了互相關(guān)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)實(shí)現(xiàn)了頭部模塊(Head),用于計(jì)算分類得分(是否為前景)睡扬、精調(diào)邊框盟蚣、和SiaemeseRPN模型。
另外卖怜,在精調(diào)模型時(shí)屎开,將ResNet特征提取部分的學(xué)習(xí)率設(shè)為RPN部分的十分之一,以適應(yīng)跟蹤任務(wù)马靠,參數(shù)在端到端的網(wǎng)絡(luò)中統(tǒng)一訓(xùn)練奄抽。
分層聚合
使用更深層次的網(wǎng)絡(luò)可提取到更多層面的特征,可為跟蹤任務(wù)提取從高到低的抽象甩鳄、各種不同的大小逞度,以及從精細(xì)到粗糙的分辨率。ResNet相對(duì)于之前的模型妙啃,層次更加明確档泽,比如低層能提取到顏色、形狀彬祖、位置等信息茁瘦,高層測(cè)包含更抽象的語(yǔ)義信息品抽,它們?cè)谀:⑿Α⑿巫兊膱?chǎng)景中發(fā)揮了更大作用。
在ResNet網(wǎng)絡(luò)中使用最后三個(gè)殘差模型的輸出作為特征圆恤,分別代入三個(gè)RPN模塊突倍,如下圖所示:
三個(gè)RPN層的輸出具有相同的空間分辨率,可以直接相加:
其中S表示RPN的類別評(píng)分盆昙,B表示位置框評(píng)分羽历,α和B是對(duì)不同層的權(quán)重。由于分類和回歸的領(lǐng)域不同淡喜,因而分別計(jì)算秕磷。
深度互相關(guān)
互相關(guān)模塊是網(wǎng)絡(luò)的核心,SiamFC算法使用一個(gè)互相關(guān)層計(jì)算單通道互的相關(guān)性炼团,并且返回目標(biāo)位置的映射表(矩陣)澎嚣;SiamRPN將互相關(guān)擴(kuò)展成更高層次信息(像Anchors一樣)疏尿,它加入了龐大的卷積層用于升通道(維度),名為UP-XCorr易桃,升通道模型造成了參數(shù)不平衡褥琐,如ResNet網(wǎng)絡(luò)中升通道有20M參數(shù),而特征提取只有4M參數(shù)晤郑,加大了模型訓(xùn)練的難度敌呈。
文中提取了一個(gè)輕量級(jí)的互相關(guān)模塊,名為Depthwise Cross Correlation (DW- XCorr)造寝,它的參數(shù)是UP-Xcorr的十分之一磕洪,并實(shí)現(xiàn)了與之相似的效果。
與SiamFC框架不同的是诫龙,在使用了SiamRPN之后褐鸥,最后的分類模塊和回歸模型使用網(wǎng)絡(luò)不再具有對(duì)稱性,為了處理差異赐稽,目標(biāo)分枝和搜索分枝使用了不同的卷積模塊(不共享參數(shù))叫榕,兩個(gè)特征具有同樣的通道數(shù),并計(jì)算每一通道的相關(guān)性姊舵,另一個(gè)卷積模塊用于融合不同通道的輸出晰绎,最后將卷積后的結(jié)果送入了分類和回歸層。這樣就節(jié)約了大量的算力和空間括丁,使得模型參數(shù)達(dá)到平衡荞下,訓(xùn)練過(guò)程更加穩(wěn)定。
另外史飞,一個(gè)有趣的現(xiàn)象是同種類的目標(biāo)在相同的通道中得到更高的響應(yīng)尖昏,而其它通道的響應(yīng)被抑制,如下圖所示构资,這可以被解釋成depth-wise方法產(chǎn)生的通道特征近似正交抽诉,每個(gè)通道都表示了一定的語(yǔ)義信息,相對(duì)來(lái)說(shuō)Up-Channel方法得到的結(jié)果可解釋性就比較差吐绵。
實(shí)驗(yàn)
訓(xùn)練基于ImageNet預(yù)測(cè)訓(xùn)練的卷積網(wǎng)絡(luò)迹淌,目標(biāo)分辨率為127像素,搜索區(qū)域255像素己单。評(píng)測(cè)時(shí)使用了OTB2015, VOT2018和UAV123唉窃,其中VOT2018-LT評(píng)測(cè)了長(zhǎng)時(shí)跟蹤:目標(biāo)有時(shí)在視頻之外,有時(shí)被完全遮擋纹笼,難度大于短時(shí)跟蹤纹份。
消融實(shí)驗(yàn)
下圖對(duì)比了使用不同基礎(chǔ)網(wǎng)絡(luò)的模型效果:
下表中展示了更加詳細(xì)的消融實(shí)驗(yàn)結(jié)果:
下表中展示了文中模型與當(dāng)前流行的其它模型的效果對(duì)比: