摘要
基于判別相關(guān)濾波器(DCF)的方法現(xiàn)在成為在線對(duì)象跟蹤的主要方法泊藕。
在本文工作中盗冷,提出一個(gè)輕量級(jí)的端到端訓(xùn)練的網(wǎng)絡(luò),DCFnet得封,同時(shí)學(xué)習(xí)深度特征和執(zhí)行濾波過(guò)程埋心。體來(lái)說(shuō),作者將DCF視為在Siamese網(wǎng)絡(luò)中添加的特殊相關(guān)濾波器層忙上,并通過(guò)將網(wǎng)絡(luò)輸出定義為對(duì)象位置的概率熱圖來(lái)仔細(xì)地通過(guò)它來(lái)推導(dǎo)反向傳播拷呆。
因?yàn)橥茖?dǎo)仍然在傅里葉域內(nèi)進(jìn)行,所以保留了DCF高效的特性疫粥。
在測(cè)試時(shí)茬斧,文中的tracker能達(dá)到60FPS。
1. 引入
在不知道目標(biāo)類別的情況下梗逮,跟蹤任意對(duì)象需要在線學(xué)習(xí)判別信息以實(shí)現(xiàn)高性能项秉。盡管在跟蹤檢測(cè)范例[TLD[1],Stuck[2]]中成功解決了問題慷彤,但由于物體變形娄蔼,外觀變化和嚴(yán)重遮擋等因素怖喻,它仍然是一個(gè)具有挑戰(zhàn)性的問題。
利用多層手工特征 岁诉,使用DCF的跟蹤有了很大突破锚沸。在這個(gè)方向的trackers特征提取器和相關(guān)濾波器都是分離的。這證明了號(hào)的特征能夠?qū)ο逻^(guò)起到作用涕癣。這之后的方法關(guān)注多層深度特征的的融合哗蜈。盡管提高了跟蹤性能,這些卷積網(wǎng)絡(luò)通常是為了圖像分類任務(wù)或者是目標(biāo)檢測(cè)預(yù)訓(xùn)練的網(wǎng)絡(luò)坠韩,不僅是手工選擇的距潘,而且負(fù)擔(dān)重。
因?yàn)橹疤岬降姆椒ㄖ胁捎玫奶卣骱拖嚓P(guān)濾波過(guò)程是獨(dú)立的只搁,跟蹤效果可能不是最優(yōu)的音比。
在本文中,作者重新審視了基于DCF的跟蹤器的特征提取须蜗。與采用現(xiàn)有特點(diǎn)的常見DCF方法不同硅确,我們剖析了DCF的封閉形式解,發(fā)現(xiàn)很容易得到一個(gè)最適應(yīng)DCF跟蹤的學(xué)習(xí)特征的網(wǎng)絡(luò)明肮,并且是用端到端的方式菱农,不需要手工干擾。這是通過(guò)將DCF作為一個(gè)特殊相關(guān)濾波層加入到孿生網(wǎng)絡(luò)中柿估,并且通過(guò)DCF推導(dǎo)向后傳播實(shí)現(xiàn)循未。
提出的網(wǎng)絡(luò)中包括一些卷積層,用來(lái)在離線訓(xùn)練過(guò)程中編碼先驗(yàn)跟蹤信息秫舌,并構(gòu)造一個(gè)專屬的特征提取器的妖。在這之后是一個(gè)相關(guān)濾波層,通過(guò)將網(wǎng)絡(luò)輸出定義為目標(biāo)位置的概率熱圖足陨,它能完成在線學(xué)習(xí)和跟蹤嫂粟。
為了降低計(jì)算成本,需要將卷積層設(shè)置為輕量級(jí)墨缘。
2. 相關(guān)工作
用于DCF跟蹤的特征表示星虹。不同于使用手工干擾的方法,本文的目標(biāo)自動(dòng)學(xué)習(xí)最適合DCF的特征镊讼。
基于DCF的trackers宽涌。本文的目標(biāo)在于減小特征提取器和相關(guān)濾波器之間的差距。
基于CNN的tackers蝶棋。一些工作實(shí)現(xiàn)的是離線訓(xùn)練和在線微調(diào)的模式卸亮,這樣做不到實(shí)時(shí)。本文網(wǎng)絡(luò)中的相關(guān)濾波也需要在線更新玩裙。但是因?yàn)樗耐茖?dǎo)實(shí)在傅里葉頻域進(jìn)行兼贸,仍然保留了DCF高效的特性段直。SiamFC[3]也使用Siamese網(wǎng)絡(luò)構(gòu)建基于模板匹配的跟蹤器而無(wú)需在線更新,并實(shí)現(xiàn)高跟蹤速度寝受。
與之不同的是坷牛,我們的網(wǎng)絡(luò)可以漸進(jìn)地更新罕偎,因此可以把它看作是一個(gè)RNN網(wǎng)絡(luò)(see Sec. 3.3)很澄。
3. 提出的網(wǎng)絡(luò)
在本節(jié)中,作者(1)首先介紹了鑒別相關(guān)濾波器的基本原理颜及。(2)其次甩苛,詳細(xì)介紹了反向傳播的推導(dǎo)過(guò)程。(3)最后俏站,我們介紹了在線跟蹤的過(guò)程讯蒲,并基于RNN做出了解釋。
3.1 判別式相關(guān)濾波器
使用傳統(tǒng)判別式濾波器肄扎,在目標(biāo)塊特征上訓(xùn)練了有區(qū)別的回歸墨林,理想輸出
,是在中心位置突起的高斯函數(shù)犯祠。
理想濾波器可以通過(guò)最小化輸出嶺回歸得到:
其中是濾波器
的通道
旭等。
指的是circular correlation。解為(2)[4]:
這里表示離散傅里葉轉(zhuǎn)換
衡载,
表示復(fù)數(shù)值
的共軛值搔耕,
表示點(diǎn)積。
對(duì)于檢測(cè)過(guò)程痰娱,裁剪一個(gè)搜索區(qū)域弃榨,然后在新的一幀中獲得特征,通過(guò)搜索相關(guān)響應(yīng)值
的最大值來(lái)估計(jì)位移梨睁。參考[4][4]獲得更多細(xì)節(jié)鲸睛。
傅里葉逆轉(zhuǎn)換到空間域,得到坐標(biāo)位置坡贺。
3.2 DCF推導(dǎo):反向傳播
傳統(tǒng)的DCF只能啟發(fā)式的調(diào)超參官辈,文中犯法可以同步的調(diào)整濾波器參數(shù)和特征提取器的參數(shù)。如圖1所示拴念,網(wǎng)絡(luò)通過(guò)級(jí)聯(lián)特征提取器和DCF模塊來(lái)獲得目標(biāo)位置響應(yīng)钧萍。給定搜索區(qū)域特征,目標(biāo)響應(yīng)
需要在真實(shí)位置有一個(gè)高值政鼠。目標(biāo)函數(shù)可以定義為:
正則化:權(quán)重衰減(weight decay)风瘦。
在卷積層最后添加LRN層,來(lái)限制特征圖大小公般,并增加訓(xùn)練過(guò)程中的穩(wěn)定性万搔。
根據(jù)【5】[5]胡桨,傅里葉轉(zhuǎn)換和你傅里葉轉(zhuǎn)換的梯度可以定義為:
因?yàn)橄蚯皞鞑ミ^(guò)程中只包含點(diǎn)積和除法,所以可以對(duì)每個(gè)元素進(jìn)行求導(dǎo)瞬雹。
檢測(cè)分支的后向傳播:
學(xué)習(xí)分支的后向傳播:
一旦誤差向后傳播到實(shí)值特征圖昧谊,其余的反向傳播可以作為傳統(tǒng)的CNN優(yōu)化進(jìn)行。
離線訓(xùn)練結(jié)束后酗捌,將為在線DCF跟蹤制定一個(gè)專屬的特征提取器呢诬。
3.3 在線模型更新
在線跟蹤期間,隨著時(shí)間的推移更新濾波器
等式(1)的優(yōu)化問題可以以增量模式定義為下式[6]:
參數(shù)是樣本
影響因子胖缤。
與此同時(shí)尚镰,等式(2)的封閉式解可以擴(kuò)展到時(shí)間序列。
這種增量更新的優(yōu)點(diǎn)是哪廓,我們不需要保留大量的樣本狗唉,只需要占用很小的空間。另外涡真,DCFNet在線學(xué)習(xí)過(guò)程可以看做RNN網(wǎng)絡(luò)分俯,如圖2所示。
圖2中缸剪,的分子和分母循環(huán)的用
等式(13)
的方式向前傳播和更新。
4. 實(shí)驗(yàn)
DCFNet可以做到速度和準(zhǔn)確度的平衡剧劝。
4.1 實(shí)驗(yàn)細(xì)節(jié)
這個(gè)輕量級(jí)網(wǎng)路的卷積層包括VGG的conv1橄登,并去除池化層,強(qiáng)制輸出俄日32個(gè)通道讥此。訓(xùn)練視頻來(lái)自 NUS-PRO [7], TempleColor128 [8]and UAV123 [9]拢锹,去處于測(cè)試集重疊的視頻。裁剪后的輸入大小設(shè)置為125x125萄喳。使用隨機(jī)梯度下降開始來(lái)訓(xùn)練網(wǎng)絡(luò)卒稳,動(dòng)量設(shè)置為從零到0.9動(dòng)量。
對(duì)于相關(guān)濾波器中的參數(shù)他巨,固定在線學(xué)習(xí)率為0.008.
DCFNet使用MatConvNEt在Matlab 中實(shí)現(xiàn)充坑。所有的實(shí)驗(yàn)在工作站上進(jìn)行,配置為Intel Xeon 2630 染突,2.4GHz捻爷;一個(gè)NVIDIA GeForce GTX 1080 GPU。
-
Zdenek Kalal, Krystian Mikolajczyk, and Jiri Matas,
“Trackinglearning-detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 34, no. 7, pp. 1409–1422, 2012 ? -
Sam Hare, Stuart Golodetz, Amir Saffari, Vibhav Vineet, Ming-Ming Cheng, Stephen L Hicks, and Philip HS Torr, “Struck: Structured output tracking with kernels,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 10, pp. 2096–2109, 2016 ?
-
Luca Bertinetto, Jack Valmadre, Joao F Henriques, Andrea Vedaldi, ? and Philip HS Torr,
“Fully-convolutional siamese networks for object tracking,” in proceedings of the European Conference on Computer Vision. Springer, 2016 ? -
Martin Danelljan, Gustav Hager, Fahad Khan, and Michael Felsberg, ¨
“Accurate scale estimation for robust visual tracking,” in British Machine Vision Conference, Nottingham, September 1-5, 2014, 2014. ? ? -
Christoph Boeddeker, Patrick Hanebrink, Lukas Drude, Jahn Heymann, and Reinhold Haeb-Umbach,
“On the computation of complexvalued gradients with application to statistically optimum beamforming,” arXiv preprint arXiv:1701.00392, 2017. ? -
Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg, and Joost Van de Weijer,
“Adaptive color attributes for real-time visual tracking,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014. ? -
Annan Li, Min Lin, Yi Wu, Ming-Hsuan Yang, and Shuicheng Yan,
“Nus-pro: A new visual tracking challenge,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 2, pp. 335–349, 2016 ? -
Pengpeng Liang, Erik Blasch, and Haibin Ling,
“Encoding color information for visual tracking: algorithms and benchmark,” IEEE Transactions on Image Processing, vol. 24, no. 12, pp. 5630–5644, 2015. ? -
Matthias Mueller, Neil Smith, and Bernard Ghanem,
“A benchmark and simulator for uav tracking,” in proceedings of the European Conference on Computer Vision, 2016. ?