摘要:
傳統(tǒng)的解決任意目標跟蹤的方法是,使用單個視頻數(shù)據(jù)本身蛮艰,在線學習目標外觀特征。這樣的方法限制了模型的豐富度。有些方法探索深度卷積網(wǎng)絡(luò)的特征表達能力,但是需要使用SGD在線調(diào)整參數(shù),限制了系統(tǒng)的速度。
本文中作者提出將全卷積Siamese網(wǎng)絡(luò)用于跟蹤谭溉,在目標檢測數(shù)據(jù)集ILSVRC15上訓練,速度超過實時幀率橡卤。
1. Introduction
場景:跟蹤視頻中的任意目標扮念。
問題:沒有足夠的數(shù)據(jù)集訓練一個檢測器。
現(xiàn)有成功做法:使用來自視頻中的樣例蒜魄,在線提取目標的外觀特征扔亥。
缺陷:1. 使用外觀特征的方式,從當前視頻里抽取的唯一數(shù)據(jù)谈为,只能學習到相對簡單的模型旅挤。2. 深度卷積網(wǎng)絡(luò)需要大量的數(shù)據(jù),并且做不到實時性操作伞鲫,所以通過深度學習學習每一個視頻的到檢測器這種方法難以應(yīng)用粘茄。
解決上述問題:有些方法使用預(yù)訓練的的網(wǎng)絡(luò),用SGD進行微調(diào)秕脓,效果好但是不能做到實時檢測柒瓣;有的方法使用相關(guān)濾波這種比較淺層的方法,沒有利用端到端學習的優(yōu)勢吠架。
基于以上討論芙贫,作者提出了一種方法,在最初的離線階段傍药,使用訓練好的深度卷積網(wǎng)絡(luò)解決相似度學習問題磺平,在跟蹤階段在線對這個功能作出評估。
貢獻:
- 提倡一種新的方法拐辽,有突出的表現(xiàn)拣挪,速度在benchmark中超過幀率要求。
- 訓練了一個Siamese網(wǎng)絡(luò)俱诸,在一個較大的搜索圖像中定位模版菠劝。
- 通過計算輸入的的交叉相關(guān)性,來對滑動窗口做評估睁搭,應(yīng)用到整張圖片赶诊。
作者使用了ILSVRC目標檢測數(shù)據(jù)集來進行相似度學習的訓練笼平,在ALOV/OTB/VOT等跟蹤數(shù)據(jù)集上驗證了該模型有較好泛化能力。
2. 用于跟蹤的相似度學習
作者提出使用相似度學習來解決任意目標追蹤問題甫何。
函數(shù)將模版圖像
和相同大小的候選圖像
中做比較出吹,如果兩張圖像描繪的是一個目標,就得到高分辙喂,否則就是低分。測試新圖像中目標所有可能的位置鸠珠,選擇與目標過去外觀有最大相似度的候選區(qū)域巍耗,作為新圖像中的目標位置。
通過一組帶標簽的視頻數(shù)據(jù)訓練渐排。
基于深度卷積網(wǎng)絡(luò)的相似度學習通過孿生結(jié)構(gòu)實現(xiàn)炬太。這種結(jié)構(gòu)對于兩個輸入都有相同的轉(zhuǎn)換,再通過函數(shù)
將兩個輸出結(jié)合驯耻。
亲族。當函數(shù)
是簡單的距離或者相似度度量時,
可以認為是一個嵌入式可缚,理解為特征提取霎迫,一種數(shù)據(jù)轉(zhuǎn)換。
2.1 全卷積孿生結(jié)構(gòu)
作者提出的孿生結(jié)構(gòu)帘靡,對與候選圖像是全卷積的知给。
全卷積網(wǎng)絡(luò)的優(yōu)點是,輸入中的搜索圖像大小可以是任意的描姚,我們可以使用更大的搜索圖像涩赢,即圖像。它可以用滑動窗口再一次評估中計算出相似度矩陣轩勘。為了實現(xiàn)這個目標筒扒,使用嵌入式函數(shù)
,和互相關(guān)操作結(jié)合特征圖绊寻。
是一個信號花墩,表示了每個位置取
。
這個網(wǎng)絡(luò)的輸出不是一個信號得分榛斯,而是一張定義在有限網(wǎng)格上的得分圖观游。嵌入函數(shù)的輸出是一張帶有空間支持的特征圖。
一張Exemplar image和 一張candidate image
驮俗,在embedding space 網(wǎng)絡(luò)的輸出是一個分數(shù)圖懂缕,用有限的網(wǎng)格表示。維度取決于搜索圖像的大小王凑。在一次評估中計算搜索圖中所有轉(zhuǎn)換子窗口的相似性搪柑。輸出圖中聋丝,紅點對應(yīng)紅色區(qū)域的相似性。
跟蹤:作者使用以目標的前一個位置為中心的搜索圖像工碾。最大分數(shù)相對于分數(shù)圖中心的位置乘以網(wǎng)絡(luò)的步幅弱睦,得出目標在幀與幀之間的位移。
互相關(guān)操作渊额,在數(shù)學上就是內(nèi)積運算况木。每一個窗口都是獨立評估。
2.2 Training with large search images
使用判別式方法旬迹,用正負樣本對來訓練網(wǎng)絡(luò)火惊,使用邏輯損失函數(shù):
-
是樣本–搜索圖像的實際得分;
-
表示真值
在訓練時這樣樣本對由搜索圖像和模版圖像組成奔垦,這會產(chǎn)生一張分數(shù)圖屹耐,每一對會有很多個實例(因為一張搜索圖有很多次比較)。定義一張得分圖的損失椿猎,是所有個體的平均損失惶岭。
- 真實標簽
;
-
代表得分圖中每一個位置犯眠;
- 使用隨機梯度下降法得到卷積網(wǎng)絡(luò)中的參數(shù)
按灶。
優(yōu)化目標:
樣本對來自帶有標注的視頻視頻數(shù)據(jù),以目標為中心提取模版和搜索圖像嗜浮,如圖2羡亩。
訓練數(shù)據(jù):從視頻的兩個幀中提取圖像,這兩個幀都包含對象并且最多相隔T幀危融。訓練時忽略目標的類別畏铆。在不破壞圖像的縱橫比的情況下對每個圖像內(nèi)的對象的比例進行歸一化。
如果得分圖中的元素距離中心半徑在(根據(jù)網(wǎng)絡(luò)步長
決定)以內(nèi)吉殃,就認為是正樣本辞居。
-
是網(wǎng)絡(luò)的步長;
-
是目標中心蛋勺;
-
是分數(shù)圖中的位置瓦灶;
-
是設(shè)定的半徑,用來確定正負樣本抱完。
作者認為考慮以目標為中心的搜索圖像是有效的贼陶,因為最困難的子窗口以及對跟蹤器性能影響最大的子窗口可能是與目標相鄰的子窗口。
2.4 Practical considerations
數(shù)據(jù)策劃:
- 輸入模版大小:127 x 127
- 輸入搜索圖像大械镎:255 x 255
- 圖像縮放:
烘贴,
是bounding box 大小。
跟蹤算法:跟蹤算法簡單撮胧。因為本文的目的是證明全卷積孿生網(wǎng)絡(luò)的有效性和在ImagetNet video上訓練的泛化能力桨踪。
- 沒有更新模型
- 沒有維護過去的外觀特征
- 沒有加入光流或者顏色直方圖等特征
在線跟蹤: - 只搜索比原來大四倍的區(qū)域中的對象,并且給得分圖增加一個余弦窗口對較大位移做出懲罰芹啥。
- 通過處理多個尺度的搜索圖像锻离,來實現(xiàn)尺度空間的跟蹤。
3. Experiment
3.1 Implementation details
Training:
- 梯度下降采用SGD
- 用高斯分布初始化參數(shù)
- 訓練50個epoch叁征,每個epoch有50,000個樣本對
- mini-batch等于8
- 學習率從
衰減到
Tracking:
- 初始目標的特征提取
,
只計算一次
- 用雙三次插值將score map從17×17 上采樣到 272×272
- 對目標進行5種尺度來搜索
- 目標圖像在線不更新纳账,因為對于CNN提取的是高層語義特征,不會像HOG或CN這些淺層特征苛求紋理相似度捺疼。(如跟蹤目標是人,不論躺著或站著永罚,CNN都能“認出來”這是人啤呼,而紋理特征如HOG或conv1可能完全無法匹配)
- 跟蹤效率:3尺度86fps,5尺度58fps (NVIDIA GeForce GTX Titan X and an Intel Core i7-4790K at 4.0GHz)
參考文獻:[1]SiamFC:基于全卷積孿生網(wǎng)絡(luò)的目標跟蹤算法
[2]SiamFC:Fully-Convolutional Siamese Networks for Object Tracking
[3]Paper:http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/bertinetto16fully.pdf%C2%A0%C2%A0
Code:http://www.cnblogs.com/%C2%A0https://github.com/rafellerc/Pytorch-SiamFC