SiamFC閱讀理解

摘要:

傳統(tǒng)的解決任意目標跟蹤的方法是,使用單個視頻數(shù)據(jù)本身蛮艰,在線學習目標外觀特征。這樣的方法限制了模型的豐富度。有些方法探索深度卷積網(wǎng)絡(luò)的特征表達能力,但是需要使用SGD在線調(diào)整參數(shù),限制了系統(tǒng)的速度。
本文中作者提出將全卷積Siamese網(wǎng)絡(luò)用于跟蹤谭溉,在目標檢測數(shù)據(jù)集ILSVRC15上訓練,速度超過實時幀率橡卤。

1. Introduction

場景:跟蹤視頻中的任意目標扮念。
問題:沒有足夠的數(shù)據(jù)集訓練一個檢測器。
現(xiàn)有成功做法:使用來自視頻中的樣例蒜魄,在線提取目標的外觀特征扔亥。

缺陷:1. 使用外觀特征的方式,從當前視頻里抽取的唯一數(shù)據(jù)谈为,只能學習到相對簡單的模型旅挤。2. 深度卷積網(wǎng)絡(luò)需要大量的數(shù)據(jù),并且做不到實時性操作伞鲫,所以通過深度學習學習每一個視頻的到檢測器這種方法難以應(yīng)用粘茄。

解決上述問題:有些方法使用預(yù)訓練的的網(wǎng)絡(luò),用SGD進行微調(diào)秕脓,效果好但是不能做到實時檢測柒瓣;有的方法使用相關(guān)濾波這種比較淺層的方法,沒有利用端到端學習的優(yōu)勢吠架。

基于以上討論芙贫,作者提出了一種方法,在最初的離線階段傍药,使用訓練好的深度卷積網(wǎng)絡(luò)解決相似度學習問題磺平,在跟蹤階段在線對這個功能作出評估。

貢獻:
  1. 提倡一種新的方法拐辽,有突出的表現(xiàn)拣挪,速度在benchmark中超過幀率要求。
  2. 訓練了一個Siamese網(wǎng)絡(luò)俱诸,在一個較大的搜索圖像中定位模版菠劝。
  3. 通過計算輸入的的交叉相關(guān)性,來對滑動窗口做評估睁搭,應(yīng)用到整張圖片赶诊。

作者使用了ILSVRC目標檢測數(shù)據(jù)集來進行相似度學習的訓練笼平,在ALOV/OTB/VOT等跟蹤數(shù)據(jù)集上驗證了該模型有較好泛化能力。

2. 用于跟蹤的相似度學習

作者提出使用相似度學習來解決任意目標追蹤問題甫何。

函數(shù)f(z,x)將模版圖像z和相同大小的候選圖像x中做比較出吹,如果兩張圖像描繪的是一個目標,就得到高分辙喂,否則就是低分。測試新圖像中目標所有可能的位置鸠珠,選擇與目標過去外觀有最大相似度的候選區(qū)域巍耗,作為新圖像中的目標位置。
f通過一組帶標簽的視頻數(shù)據(jù)訓練渐排。

基于深度卷積網(wǎng)絡(luò)的相似度學習通過孿生結(jié)構(gòu)實現(xiàn)炬太。這種結(jié)構(gòu)對于兩個輸入都有相同的轉(zhuǎn)換\psi,再通過函數(shù)g將兩個輸出結(jié)合驯耻。f(z,x)=g(\varphi (z), \varphi (x))亲族。當函數(shù)g是簡單的距離或者相似度度量時,\varphi可以認為是一個嵌入式可缚,理解為特征提取霎迫,一種數(shù)據(jù)轉(zhuǎn)換。

2.1 全卷積孿生結(jié)構(gòu)

作者提出的孿生結(jié)構(gòu)帘靡,對與候選圖像x是全卷積的知给。
全卷積網(wǎng)絡(luò)的優(yōu)點是,輸入中的搜索圖像大小可以是任意的描姚,我們可以使用更大的搜索圖像涩赢,即圖像x。它可以用滑動窗口再一次評估中計算出相似度矩陣轩勘。為了實現(xiàn)這個目標筒扒,使用嵌入式函數(shù)\varphi\,和互相關(guān)操作結(jié)合特征圖绊寻。
f(z,x) = \varphi(z) \ast \varphi(x) +b 1
b1是一個信號花墩,表示了每個位置取b\in R

網(wǎng)絡(luò)架構(gòu)

這個網(wǎng)絡(luò)的輸出不是一個信號得分榛斯,而是一張定義在有限網(wǎng)格D \subset Z^2上的得分圖观游。嵌入函數(shù)的輸出是一張帶有空間支持的特征圖。

一張Exemplar imagez和 一張candidate image x驮俗,在embedding space 網(wǎng)絡(luò)的輸出是一個分數(shù)圖懂缕,用有限的網(wǎng)格表示。維度取決于搜索圖像的大小王凑。在一次評估中計算搜索圖中所有轉(zhuǎn)換子窗口的相似性搪柑。輸出圖中聋丝,紅點對應(yīng)紅色區(qū)域的相似性。

跟蹤:作者使用以目標的前一個位置為中心的搜索圖像工碾。最大分數(shù)相對于分數(shù)圖中心的位置乘以網(wǎng)絡(luò)的步幅弱睦,得出目標在幀與幀之間的位移。

互相關(guān)操作渊额,在數(shù)學上就是內(nèi)積運算况木。每一個窗口都是獨立評估。

2.2 Training with large search images

使用判別式方法旬迹,用正負樣本對來訓練網(wǎng)絡(luò)火惊,使用邏輯損失函數(shù):
\rho(y,v) = log(1+exp(-yv))

  • v是樣本–搜索圖像的實際得分;
  • y\in(-1,1)表示真值

在訓練時這樣樣本對由搜索圖像和模版圖像組成奔垦,這會產(chǎn)生一張分數(shù)圖v:D屹耐,每一對會有很多個實例(因為一張搜索圖有很多次比較)。定義一張得分圖的損失椿猎,是所有個體的平均損失惶岭。
L(y,v)=\frac{1}{|D|} \sum_{u \in D} \rho (y[u],v[u])

  • 真實標簽y[u] \in \{+1,-1\}
  • u \in D代表得分圖中每一個位置犯眠;
  • 使用隨機梯度下降法得到卷積網(wǎng)絡(luò)中的參數(shù)\theta按灶。
    優(yōu)化目標:
    arg\min_{\theta} E_{(z,x,y)}L(y,f(z,x;\theta))

訓練樣本對模版圖像和搜索圖像來自同一個視頻。當子窗口延伸超出圖像范圍時阔逼,缺失部分用平均RGB值填充兆衅。

樣本對來自帶有標注的視頻視頻數(shù)據(jù),以目標為中心提取模版和搜索圖像嗜浮,如圖2羡亩。
訓練數(shù)據(jù):從視頻的兩個幀中提取圖像,這兩個幀都包含對象并且最多相隔T幀危融。訓練時忽略目標的類別畏铆。在不破壞圖像的縱橫比的情況下對每個圖像內(nèi)的對象的比例進行歸一化。

如果得分圖中的元素距離中心半徑在R(根據(jù)網(wǎng)絡(luò)步長k決定)以內(nèi)吉殃,就認為是正樣本辞居。
y[u]=\begin{cases} +1 & \mbox{if} & k||u-c|| \le R\\ -1 & otherwise. \end{cases}

  • k是網(wǎng)絡(luò)的步長;
  • c是目標中心蛋勺;
  • u是分數(shù)圖中的位置瓦灶;
  • R是設(shè)定的半徑,用來確定正負樣本抱完。

作者認為考慮以目標為中心的搜索圖像是有效的贼陶,因為最困難的子窗口以及對跟蹤器性能影響最大的子窗口可能是與目標相鄰的子窗口。

2.4 Practical considerations

數(shù)據(jù)策劃:

  • 輸入模版大小:127 x 127
  • 輸入搜索圖像大械镎:255 x 255
  • 圖像縮放:s(w+2p) \times s(h+2p)=A, A = 127^2, p = (w+h)/4烘贴,(w,h)是bounding box 大小。

跟蹤算法:跟蹤算法簡單撮胧。因為本文的目的是證明全卷積孿生網(wǎng)絡(luò)的有效性和在ImagetNet video上訓練的泛化能力桨踪。

  • 沒有更新模型
  • 沒有維護過去的外觀特征
  • 沒有加入光流或者顏色直方圖等特征
    在線跟蹤:
  • 只搜索比原來大四倍的區(qū)域中的對象,并且給得分圖增加一個余弦窗口對較大位移做出懲罰芹啥。
  • 通過處理多個尺度的搜索圖像锻离,來實現(xiàn)尺度空間的跟蹤。

3. Experiment

3.1 Implementation details

Training:
  1. 梯度下降采用SGD
  2. 用高斯分布初始化參數(shù)
  3. 訓練50個epoch叁征,每個epoch有50,000個樣本對
  4. mini-batch等于8
  5. 學習率從10^{-2}衰減到10^{-8}

Tracking:

  1. 初始目標的特征提取φ(z),φ(z) 只計算一次
  2. 用雙三次插值將score map從17×17 上采樣到 272×272
  3. 對目標進行5種尺度來搜索(1.025^{(?2,?1,0,1,2)})
  4. 目標圖像在線不更新纳账,因為對于CNN提取的是高層語義特征,不會像HOG或CN這些淺層特征苛求紋理相似度捺疼。(如跟蹤目標是人,不論躺著或站著永罚,CNN都能“認出來”這是人啤呼,而紋理特征如HOG或conv1可能完全無法匹配)
  5. 跟蹤效率:3尺度86fps,5尺度58fps (NVIDIA GeForce GTX Titan X and an Intel Core i7-4790K at 4.0GHz)

參考文獻:[1]SiamFC:基于全卷積孿生網(wǎng)絡(luò)的目標跟蹤算法
[2]SiamFC:Fully-Convolutional Siamese Networks for Object Tracking
[3]Paper:http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/bertinetto16fully.pdf%C2%A0%C2%A0
Code:http://www.cnblogs.com/%C2%A0https://github.com/rafellerc/Pytorch-SiamFC

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末呢袱,一起剝皮案震驚了整個濱河市官扣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌羞福,老刑警劉巖惕蹄,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異治专,居然都是意外死亡卖陵,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門张峰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來泪蔫,“玉大人,你說我怎么就攤上這事喘批×萌伲” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵饶深,是天一觀的道長餐曹。 經(jīng)常有香客問我,道長敌厘,這世上最難降的妖魔是什么台猴? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上卿吐,老公的妹妹穿的比我還像新娘旁舰。我一直安慰自己,他們只是感情好嗡官,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布箭窜。 她就那樣靜靜地躺著,像睡著了一般衍腥。 火紅的嫁衣襯著肌膚如雪磺樱。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天婆咸,我揣著相機與錄音竹捉,去河邊找鬼。 笑死尚骄,一個胖子當著我的面吹牛块差,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播倔丈,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼憨闰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了需五?” 一聲冷哼從身側(cè)響起鹉动,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎宏邮,沒想到半個月后泽示,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡蜜氨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年械筛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片记劝。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡变姨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出厌丑,到底是詐尸還是另有隱情定欧,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布怒竿,位于F島的核電站砍鸠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏耕驰。R本人自食惡果不足惜爷辱,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧饭弓,春花似錦双饥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至阀趴,卻和暖如春昏翰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背刘急。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工棚菊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人叔汁。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓统求,卻偏偏與公主長得像,于是被迫代替她去往敵國和親据块。 傳聞我的和親對象是個殘疾皇子球订,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容