論文閱讀_目標(biāo)跟蹤SiamRPN++

論文地址:https://arxiv.org/pdf/1812.11703.pdf
源碼地址:https://lb1100.github.io/SiamRPN++

SiamRPN++源于2018年收錄于cs.CV上的論文《SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks》,基于深度網(wǎng)絡(luò)的孿生視覺(jué)跟蹤的發(fā)展顾翼。

孿生網(wǎng)絡(luò)算法使用的互相關(guān)層在視頻幀(搜索區(qū)域search region)中搜索范例物體(目標(biāo)模板target template)刻炒,盡管它非成撩剩快速,但相對(duì)于目標(biāo)跟蹤領(lǐng)域最優(yōu)的算法(如ECO沐兵、MDNet)刃唐,在準(zhǔn)確度上還有很大差異。

隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展塘淑,當(dāng)前更深層的網(wǎng)絡(luò)能更好地描述圖片特征萝招,但作者使用ResNet替代之前類似AlexNet的網(wǎng)絡(luò)收效甚微蚂斤,后來(lái)發(fā)現(xiàn)這是由于較新的網(wǎng)絡(luò)中都使用了填充padding損失了平移不變性造成的,本文中使用空間感知采樣算法槐沼,解決了這一問(wèn)題曙蒸,使孿生網(wǎng)絡(luò)能使用更深層的底層網(wǎng)絡(luò)。同時(shí)提出了層聚合和深度聚合的方案岗钩,使SiamRPN++模型效果明顯提升纽窟,且有效地減少了模型參數(shù)。

論文主要貢獻(xiàn)有幾下幾點(diǎn):

  • 通過(guò)研究證明增加網(wǎng)絡(luò)深度時(shí)模型效果變差的原因是破壞了平移不變性兼吓。
  • 用簡(jiǎn)單有效的方法打破了平移不變性的限制臂港,使Siamese網(wǎng)絡(luò)可使用ResNet基礎(chǔ)網(wǎng)絡(luò)。
  • 利用互相關(guān)的分層結(jié)構(gòu)视搏,使模型從多個(gè)層次學(xué)習(xí)的相似特征(layer-wise)审孽。
  • 用深度結(jié)構(gòu)增強(qiáng)互相關(guān)性,產(chǎn)生多個(gè)語(yǔ)義相關(guān)的相似圖(depth-wise)浑娜。

最終實(shí)現(xiàn)的模型可達(dá)35 fps(幀每秒)的速度佑力,并在五種評(píng)測(cè)中超越之前最佳模型效果,基于MobileNet的模型可達(dá)70fps筋遭,

深層孿生網(wǎng)絡(luò)

在跟蹤任務(wù)中使用比較深層的卷積網(wǎng)絡(luò)提取特征時(shí)打颤,模型效果反而變差暴拄,先來(lái)看看該問(wèn)題的原因。

用于跟蹤的孿生網(wǎng)絡(luò)

孿生網(wǎng)絡(luò)是一個(gè)Y型網(wǎng)絡(luò)编饺,它的兩個(gè)分枝分別用于獲取目標(biāo)模板的特征和獲取搜索區(qū)域的特征乖篷。目標(biāo)模板一般是視頻第一幀中的一個(gè)區(qū)域用z表示,目標(biāo)是找到每幀中與其最相似的區(qū)域x:

其中f計(jì)算二者相似性透且,φ用于提取特征那伐,b為偏移參數(shù)。孿生網(wǎng)絡(luò)需要滿足以下兩個(gè)約束條件:第一區(qū)域需要嚴(yán)格的平移不變性石蔗,它保證了訓(xùn)練和預(yù)測(cè)的有效性罕邀。

中括號(hào)中表示子窗口的平移操作。第二需要服從對(duì)稱性:

無(wú)法在孿生網(wǎng)絡(luò)中使用更深層網(wǎng)絡(luò)的原因與上述兩點(diǎn)有關(guān)养距,深度網(wǎng)絡(luò)中的填充padding破壞了嚴(yán)格的平移不變性诉探,SiamRPN需要計(jì)算分類與回歸又影響了對(duì)稱性。

之前SiamFC孿生網(wǎng)絡(luò)基于的底層網(wǎng)絡(luò)AlexNet不需要填充padding棍厌,因此沒(méi)有遇到平移不變性的問(wèn)題肾胯,在更深層的網(wǎng)絡(luò)中無(wú)法避免padding,異致了空間偏見耘纱。論文中用模擬實(shí)驗(yàn)驗(yàn)證了這一點(diǎn)敬肚,將目標(biāo)設(shè)置為分別與圖像中心偏移(0,16束析,32)分別實(shí)驗(yàn)艳馒,測(cè)試集中產(chǎn)生如下熱點(diǎn):

顏色表示正例的概率,左圖中偏移為0员寇,它展示了嚴(yán)重的中心偏見弄慰,邊緣的概率快速衰減為0,右邊當(dāng)偏移變大時(shí)蝶锋,更近似于測(cè)試集中實(shí)際分布陆爽。空間感知采樣(spatial aware sampling)可以有效地解決了這一問(wèn)題扳缕。

簡(jiǎn)單地說(shuō)慌闭,如果把目標(biāo)放在圖像的正中心,模型就很難檢測(cè)到位置不太正的備選區(qū)域躯舔,若在訓(xùn)練時(shí)將目標(biāo)相對(duì)于圖片中心位置隨機(jī)偏移一些(空間感知采樣)驴剔,就可以解決該問(wèn)題。下圖展示了使用ResNet-50提取特征時(shí)庸毫,偏移帶來(lái)的模型效果提升:

基于ResNet的孿生跟蹤網(wǎng)絡(luò)

普通的ResNet的步長(zhǎng)是32仔拟,也就是說(shuō)輸入是224x224像素的圖片經(jīng)過(guò)多層網(wǎng)絡(luò)處理后,最后空間被壓縮到7x7飒赃,這樣的分辨率用于孿生網(wǎng)絡(luò)比較圖片相似度太低了利花,于是修改了其conv4和conv5層科侈,將它們的空間步長(zhǎng)變?yōu)?,這樣原來(lái)縮小32和16就變成了8炒事,提升了輸出層卷積的分辨率臀栈,在每個(gè)模塊后面又加了一層卷積層,將輸出通道大小轉(zhuǎn)換為256挠乳。

然后权薯,結(jié)合了互相關(guān)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)實(shí)現(xiàn)了頭部模塊(Head),用于計(jì)算分類得分(是否為前景)睡扬、精調(diào)邊框盟蚣、和SiaemeseRPN模型。

另外卖怜,在精調(diào)模型時(shí)屎开,將ResNet特征提取部分的學(xué)習(xí)率設(shè)為RPN部分的十分之一,以適應(yīng)跟蹤任務(wù)马靠,參數(shù)在端到端的網(wǎng)絡(luò)中統(tǒng)一訓(xùn)練奄抽。

分層聚合

使用更深層次的網(wǎng)絡(luò)可提取到更多層面的特征,可為跟蹤任務(wù)提取從高到低的抽象甩鳄、各種不同的大小逞度,以及從精細(xì)到粗糙的分辨率。ResNet相對(duì)于之前的模型妙啃,層次更加明確档泽,比如低層能提取到顏色、形狀彬祖、位置等信息茁瘦,高層測(cè)包含更抽象的語(yǔ)義信息品抽,它們?cè)谀:⑿Α⑿巫兊膱?chǎng)景中發(fā)揮了更大作用。

在ResNet網(wǎng)絡(luò)中使用最后三個(gè)殘差模型的輸出作為特征圆恤,分別代入三個(gè)RPN模塊突倍,如下圖所示:

三個(gè)RPN層的輸出具有相同的空間分辨率,可以直接相加:

其中S表示RPN的類別評(píng)分盆昙,B表示位置框評(píng)分羽历,α和B是對(duì)不同層的權(quán)重。由于分類和回歸的領(lǐng)域不同淡喜,因而分別計(jì)算秕磷。

深度互相關(guān)

互相關(guān)模塊是網(wǎng)絡(luò)的核心,SiamFC算法使用一個(gè)互相關(guān)層計(jì)算單通道互的相關(guān)性炼团,并且返回目標(biāo)位置的映射表(矩陣)澎嚣;SiamRPN將互相關(guān)擴(kuò)展成更高層次信息(像Anchors一樣)疏尿,它加入了龐大的卷積層用于升通道(維度),名為UP-XCorr易桃,升通道模型造成了參數(shù)不平衡褥琐,如ResNet網(wǎng)絡(luò)中升通道有20M參數(shù),而特征提取只有4M參數(shù)晤郑,加大了模型訓(xùn)練的難度敌呈。

文中提取了一個(gè)輕量級(jí)的互相關(guān)模塊,名為Depthwise Cross Correlation (DW- XCorr)造寝,它的參數(shù)是UP-Xcorr的十分之一磕洪,并實(shí)現(xiàn)了與之相似的效果。

與SiamFC框架不同的是诫龙,在使用了SiamRPN之后褐鸥,最后的分類模塊和回歸模型使用網(wǎng)絡(luò)不再具有對(duì)稱性,為了處理差異赐稽,目標(biāo)分枝和搜索分枝使用了不同的卷積模塊(不共享參數(shù))叫榕,兩個(gè)特征具有同樣的通道數(shù),并計(jì)算每一通道的相關(guān)性姊舵,另一個(gè)卷積模塊用于融合不同通道的輸出晰绎,最后將卷積后的結(jié)果送入了分類和回歸層。這樣就節(jié)約了大量的算力和空間括丁,使得模型參數(shù)達(dá)到平衡荞下,訓(xùn)練過(guò)程更加穩(wěn)定。

另外史飞,一個(gè)有趣的現(xiàn)象是同種類的目標(biāo)在相同的通道中得到更高的響應(yīng)尖昏,而其它通道的響應(yīng)被抑制,如下圖所示构资,這可以被解釋成depth-wise方法產(chǎn)生的通道特征近似正交抽诉,每個(gè)通道都表示了一定的語(yǔ)義信息,相對(duì)來(lái)說(shuō)Up-Channel方法得到的結(jié)果可解釋性就比較差吐绵。

實(shí)驗(yàn)

訓(xùn)練基于ImageNet預(yù)測(cè)訓(xùn)練的卷積網(wǎng)絡(luò)迹淌,目標(biāo)分辨率為127像素,搜索區(qū)域255像素己单。評(píng)測(cè)時(shí)使用了OTB2015, VOT2018和UAV123唉窃,其中VOT2018-LT評(píng)測(cè)了長(zhǎng)時(shí)跟蹤:目標(biāo)有時(shí)在視頻之外,有時(shí)被完全遮擋纹笼,難度大于短時(shí)跟蹤纹份。

消融實(shí)驗(yàn)

下圖對(duì)比了使用不同基礎(chǔ)網(wǎng)絡(luò)的模型效果:

下表中展示了更加詳細(xì)的消融實(shí)驗(yàn)結(jié)果:

下表中展示了文中模型與當(dāng)前流行的其它模型的效果對(duì)比:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市廷痘,隨后出現(xiàn)的幾起案子蔓涧,更是在濱河造成了極大的恐慌削咆,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蠢笋,死亡現(xiàn)場(chǎng)離奇詭異拨齐,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)昨寞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門瞻惋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人援岩,你說(shuō)我怎么就攤上這事歼狼。” “怎么了享怀?”我有些...
    開封第一講書人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵羽峰,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我添瓷,道長(zhǎng)梅屉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任鳞贷,我火速辦了婚禮坯汤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘搀愧。我一直安慰自己惰聂,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開白布咱筛。 她就那樣靜靜地躺著搓幌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪迅箩。 梳的紋絲不亂的頭發(fā)上溉愁,一...
    開封第一講書人閱讀 51,301評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音沙热,去河邊找鬼叉钥。 笑死,一個(gè)胖子當(dāng)著我的面吹牛篙贸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播枫疆,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼爵川,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了息楔?” 一聲冷哼從身側(cè)響起寝贡,我...
    開封第一講書人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤扒披,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后圃泡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體碟案,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年颇蜡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了价说。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡风秤,死狀恐怖鳖目,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情缤弦,我是刑警寧澤领迈,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站碍沐,受9級(jí)特大地震影響狸捅,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜累提,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一薪贫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧刻恭,春花似錦瞧省、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至骑科,卻和暖如春橡淑,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背咆爽。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工梁棠, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人斗埂。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓符糊,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親呛凶。 傳聞我的和親對(duì)象是個(gè)殘疾皇子男娄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354