Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking 筆記

2017 IEEE ISCS

摘要

發(fā)明一種新方法,將空間監(jiān)督的遞歸卷積神經(jīng)網(wǎng)絡(luò)(RNN)用于跟蹤韭脊。
受到邊框回歸的啟發(fā)童谒,研究LSTM,建議將卷積網(wǎng)絡(luò)產(chǎn)生的高級(jí)視覺(jué)特征與區(qū)域信息相結(jié)合乾蓬。目標(biāo)位置預(yù)測(cè)使用回歸得出惠啄。

1、引入

解決問(wèn)題:目標(biāo)跟蹤中的大多數(shù)挑戰(zhàn)任内。
我們發(fā)現(xiàn)大多數(shù)算法主要關(guān)注提高深度特征的魯棒性和表現(xiàn)撵渡,來(lái)對(duì)抗手工特征。對(duì)于目標(biāo)跟蹤如何擴(kuò)展深度神經(jīng)網(wǎng)絡(luò)分析到時(shí)空域卻沒(méi)有充分的研究死嗦。

我們方法最大的動(dòng)機(jī)是趋距,跟蹤失敗可以有效地恢復(fù),通過(guò)歷史視覺(jué)語(yǔ)義和跟蹤建議越除。我們的遞歸神經(jīng)網(wǎng)絡(luò)是“雙倍深的”节腐,不僅檢查位置的歷史信息,還檢查過(guò)去幀的魯棒性的視覺(jué)特征摘盆。

別人:有兩個(gè)方法與本篇很相關(guān)翼雀。用RNN解決跟蹤中相同的問(wèn)題。但是他們關(guān)注人工產(chǎn)生的序列和合成的數(shù)據(jù)孩擂,沒(méi)有解決現(xiàn)實(shí)世界視頻中目標(biāo)跟蹤的挑戰(zhàn)狼渊。他們使用傳統(tǒng)的RNN和局部區(qū)域的二分類(lèi)。
我們:直接回歸坐標(biāo)和熱圖而不是用子區(qū)域分類(lèi)类垦。使用LSTM用單獨(dú)的一個(gè)估計(jì)來(lái)實(shí)現(xiàn)端到端的時(shí)空域回歸狈邑。
我們的跟蹤器更準(zhǔn)確和魯棒,而且計(jì)算成本低蚤认。

主要貢獻(xiàn)

  1. 模型化的神經(jīng)網(wǎng)絡(luò)米苹,可以用基于梯度的學(xué)習(xí)方法端到端訓(xùn)練。并給出LSTM的解釋和高層視覺(jué)特征的回歸能力砰琢。
  2. 對(duì)比基于卷積神經(jīng)網(wǎng)絡(luò)的trackers蘸嘶,我們的框架擴(kuò)展到了時(shí)空域做跟蹤良瞧。
  3. 網(wǎng)絡(luò)準(zhǔn)確高效且低復(fù)雜度。

2亏较、系統(tǒng)綜述

圖1.png

YOLO提取特征莺褒,和初步的位置判斷;在下一階段雪情,使用LSTM,因?yàn)樗哂锌臻g深度而且適合序列處理你辣。
網(wǎng)絡(luò)輸入是原生時(shí)頻幀巡通,輸出是在每一幀中目標(biāo)回歸框的坐標(biāo)。數(shù)學(xué)上舍哄,提出的模型因式將整個(gè)跟蹤概率分解為:

跟蹤概率分解.png

其中B_t是時(shí)間t之前的所有位置的歷史記錄宴凉,X_t是時(shí)間t之前的所有輸入幀的歷史記錄。

2.1 Long Short Term Memory(LSTM)

由于反向傳播的誤差隨著時(shí)間的推移而膨脹或衰減表悬,傳統(tǒng)的RNN無(wú)法訪(fǎng)問(wèn)遠(yuǎn)程上下文弥锄,這被稱(chēng)為消失梯度問(wèn)題。LSTM可以克服這個(gè)問(wèn)題蟆沫,并能夠模擬自學(xué)習(xí)的上下文信息籽暇。LSTM的主要?jiǎng)?chuàng)新是其存儲(chǔ)單元c_t,它基本上充當(dāng)狀態(tài)信息的累加器饭庞。通過(guò)幾個(gè)自參數(shù)化控制門(mén)(self-parameterized controlling gates)戒悠,這些單元可以讀取、寫(xiě)入和清除舟山。每當(dāng)有新輸入時(shí)绸狐,如果輸入門(mén)i_t被激活,它的信息將被累積到儲(chǔ)存單元累盗。我們使用LSTM來(lái)作為跟蹤模型寒矿。LSTM使用記憶細(xì)胞來(lái)存儲(chǔ)和輸出信息,能夠發(fā)現(xiàn)長(zhǎng)范圍時(shí)間信息若债。σ = (1 + e^{-x})^{-1}是非線(xiàn)性回歸函數(shù)符相,將實(shí)數(shù)值壓縮到[0,1],\phi(x)=\frac{e^x-e{-x}}{e^x+e{-x}}拆座,給定輸入x_t主巍,h_{t-1}和c_{t-1}的時(shí)間戳t的LSTM更新是:

LSTM更新

2.2 使用YOLO進(jìn)行目標(biāo)檢測(cè)

YOLO模型以45 fps實(shí)時(shí)處理圖像。

3挪凑、我們提出的系統(tǒng)

受到基于回歸的目標(biāo)檢測(cè)器的啟發(fā)孕索,我們提出新的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來(lái)處理(1)時(shí)空信息,(2)推斷區(qū)域位置躏碳。我們使用遞歸神經(jīng)網(wǎng)絡(luò)將YOLO可擴(kuò)展到時(shí)空域搞旭。本文的方法稱(chēng)為ROLO(recurrent YOLO)。
(1)使用YOLO收集視覺(jué)特征,然后使用LSTM肄渗;
(2)將卷積網(wǎng)絡(luò)產(chǎn)生的高層特征與區(qū)域信息結(jié)合镇眷。

本文提出的框架

ROLO模型端到端訓(xùn)練有三個(gè)階段:

  1. 特征學(xué)習(xí)卷積層的預(yù)訓(xùn)練;
  2. 用于object proposal的傳統(tǒng)YOLO訓(xùn)練翎嫡;
  3. 用于目標(biāo)跟蹤的LSTM訓(xùn)練欠动。

3.1 檢測(cè)模塊的網(wǎng)絡(luò)訓(xùn)練

首先預(yù)訓(xùn)練一個(gè)傳統(tǒng)的CNN網(wǎng)絡(luò)用來(lái)一般的特征學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)輸入一個(gè)視頻幀惑申,輸出整張圖像的feature map具伍。權(quán)重使用有1000個(gè)分類(lèi)的ImageNet數(shù)據(jù)學(xué)習(xí)得到。在預(yù)訓(xùn)練中圈驼,第一層全連接層產(chǎn)生一個(gè)4096大小的特征向量人芽,理論上可以輸入到任何分類(lèi)工具(SVM或者CNN)產(chǎn)生好的分類(lèi)結(jié)果。

一旦通過(guò)預(yù)訓(xùn)練參數(shù)得到了特征绩脆,就采用YOLO做檢測(cè)模塊萤厅。在卷積層之上,YOLO采用全連接層回歸特征表達(dá)到區(qū)域預(yù)測(cè)靴迫。結(jié)構(gòu)參考YOLO惕味。

3.2 跟蹤模塊的網(wǎng)絡(luò)訓(xùn)練

LSTM RNNs增加到跟蹤模塊的訓(xùn)練中。有兩條數(shù)據(jù)流進(jìn)入到LSTM矢劲,來(lái)自卷積層的特征表示和來(lái)自全連接層的監(jiān)測(cè)信息B_{t,i}赦拘。在每個(gè)時(shí)間t步,都提取一個(gè)4096長(zhǎng)度的特征向量芬沉,稱(chēng)這些特征向量為X_t躺同。除了B_{t,i}X_t,還有上一個(gè)時(shí)間的狀態(tài)輸出S_{t-1}丸逸。
使用Mean Squared Error (MSE)做訓(xùn)練:
L_{MSE}=\frac{1}{n}\sum_{i=1}^n ||B_{target}-B_{pred}||_{2}^2
n是一個(gè)batch的樣本數(shù)蹋艺。

3.3 Alternative Heatmap

作者將ROLO預(yù)測(cè)位置轉(zhuǎn)換為長(zhǎng)度為1024的特征向量,可以將其轉(zhuǎn)換為32乘32的heatmap黄刚。在輸入到LSTM之前捎谨,將它和4096的特征向量連接。heatmap的優(yōu)點(diǎn):在多個(gè)空間位置有置信度憔维,而且可以可視化中間結(jié)果涛救。
所以,heatmap為L(zhǎng)STM輸入业扒。

在訓(xùn)練期間检吆,將區(qū)域信息從檢測(cè)框傳輸?shù)綗釄D,方法是將值1分配給相應(yīng)的區(qū)域程储,而將0分配給其他區(qū)域蹭沛。
目標(biāo)函數(shù)為:
L_{MSE}=\frac{1}{n}\sum_{i=1}^n ||H_{target}-H_{pred}||_{2}^2
H_{target}表示groundtruth的heatmap向量臂寝;H_{pred}表示在LSTM輸出中預(yù)測(cè)的heatmap。

3.4 Spatio-temporal Regression and Spatial Supervision by Region Proposals

LSTM不僅能做序列處理摊灭,而且能處理時(shí)空回歸咆贬。這種回歸是雙重的:

  1. 在一個(gè)unit中回歸:當(dāng)LSTM連接成一個(gè)單元時(shí),LSTM能夠從視覺(jué)特征推斷區(qū)域位置帚呼。
  2. 對(duì)序列單元的回歸掏缎,即在一系列幀上的級(jí)聯(lián)特征之間的回歸。 LSTM能夠?qū)⑻卣餍蛄谢貧w到下一幀中的預(yù)測(cè)特征向量中萝挤。

4御毅、實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)環(huán)境:
Python,Tensorflow怜珍。20/60fps分別對(duì)應(yīng)YOLO和LSTM。使用八核處理器3.4GHz Intel Core i7-3770凤粗,NVIDIA TITAN X GPU酥泛。

工程主頁(yè)包含跟蹤器,預(yù)訓(xùn)練模型和結(jié)果嫌拣。
由于ROLO的性能取決于YOLO部分柔袁,作者選擇默認(rèn)的YOLO模型進(jìn)行公平比較。模型基于ImageNet數(shù)據(jù)預(yù)訓(xùn)練异逐,可以識(shí)別20類(lèi)對(duì)象捶索。

圖4,未見(jiàn)過(guò)序列的跟蹤結(jié)果灰瞻。紅色:groundtruth腥例。藍(lán)色:YOLO。綠色:ROLO

圖4(a)(b)中的groundtruth是faces酝润,不存在于YOLO預(yù)訓(xùn)練的類(lèi)中燎竖。對(duì)于運(yùn)動(dòng)模糊的情況,ROLO更穩(wěn)定要销。
圖4(c)中构回,對(duì)象類(lèi)確實(shí)屬于預(yù)先訓(xùn)練的YOLO類(lèi),但在任何訓(xùn)練序列中都未曾見(jiàn)過(guò)疏咐。這種情況下ROLO仍然跟蹤它纤掸。
這證明了,(1)跟蹤可以推廣到?jīng)]見(jiàn)過(guò)的對(duì)象浑塞。(2)LSTM可以推斷視覺(jué)特征借跪。(3)LSTM能夠通過(guò)空間監(jiān)督將視覺(jué)特征回歸到區(qū)域推斷。
傳統(tǒng)方法(例如卡爾曼濾波)缩举,預(yù)測(cè)僅基于先前的位置垦梆,ROLO還利用了視覺(jué)線(xiàn)索的歷史信息匹颤。
在ROLO中的位置歷史信息扮演者空間監(jiān)督的角色,是雙重的:

  1. 當(dāng)LSTM解釋高層視覺(jué)特征時(shí)托猩,先前的位置信息推斷幫助回歸特征到一個(gè)確定的視覺(jué)元素位置印蓖。空間監(jiān)督回歸作為在線(xiàn)外觀(guān)模型京腥。
  2. 在時(shí)間上赦肃,LSTM學(xué)習(xí)序列單元以將位置預(yù)測(cè)限制到空間范圍。

4.2 處理遮擋

圖5公浪,在未看見(jiàn)幀中面對(duì)遮擋的時(shí)空魯棒性

圖5 展示了ROLO成功跟蹤未見(jiàn)過(guò)幀中遮擋下的對(duì)象他宛。77-783幀中,即使檢測(cè)模塊失敗欠气,ROLO繼續(xù)跟蹤對(duì)象厅各。

圖6.在看不見(jiàn)的視頻剪輯中面對(duì)遮擋的魯棒性。藍(lán)色:YOLO檢測(cè)的回歸框预柒,紅色:Groundtruth队塘。

作者還使用熱圖而不是位置坐標(biāo)訓(xùn)練替代ROLO模型(離線(xiàn)訓(xùn)練),以便在遮擋條件下分析LSTM宜鸯。ROLO結(jié)果用heatmap展示憔古。圖6 顯示,即使有兩個(gè)相似的對(duì)象同時(shí)出現(xiàn)在視頻里淋袖,ROLO也能跟蹤正確的對(duì)象鸿市,因?yàn)闄z測(cè)模塊為L(zhǎng)STM單元提供空間約束。

因?yàn)閹讉€(gè)原因即碗,ROLO被證明是高效的:

  1. 來(lái)自卷積網(wǎng)絡(luò)高層特征的表示能力焰情;
  2. LSTM能夠做特征分析,所以能夠檢測(cè)對(duì)象拜姿,受到位置和熱圖矢量在空間上的監(jiān)督烙样。
  3. 利用時(shí)空信息有效回歸的能力。

4.3 結(jié)果

在OTB-30上測(cè)試結(jié)果蕊肥。


表1. Summary of Average Overlap Scores (AOS) results for all 12 trackers. The best :綠色谒获, second best:紅色。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末壁却,一起剝皮案震驚了整個(gè)濱河市批狱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌展东,老刑警劉巖赔硫,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異盐肃,居然都是意外死亡爪膊,警方通過(guò)查閱死者的電腦和手機(jī)权悟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)推盛,“玉大人峦阁,你說(shuō)我怎么就攤上這事≡懦桑” “怎么了榔昔?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)瘪菌。 經(jīng)常有香客問(wèn)我撒会,道長(zhǎng),這世上最難降的妖魔是什么师妙? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任诵肛,我火速辦了婚禮,結(jié)果婚禮上默穴,老公的妹妹穿的比我還像新娘曾掂。我一直安慰自己,他們只是感情好壁顶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著溜歪,像睡著了一般若专。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蝴猪,一...
    開(kāi)封第一講書(shū)人閱讀 51,708評(píng)論 1 305
  • 那天调衰,我揣著相機(jī)與錄音,去河邊找鬼自阱。 笑死嚎莉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的沛豌。 我是一名探鬼主播趋箩,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼加派!你這毒婦竟也來(lái)了叫确?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤芍锦,失蹤者是張志新(化名)和其女友劉穎竹勉,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體娄琉,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡次乓,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年吓歇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了涩澡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片苛秕。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖际长,靈堂內(nèi)的尸體忽然破棺而出丧慈,到底是詐尸還是另有隱情析命,我是刑警寧澤,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布逃默,位于F島的核電站鹃愤,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏完域。R本人自食惡果不足惜软吐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吟税。 院中可真熱鬧凹耙,春花似錦、人聲如沸肠仪。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)异旧。三九已至意述,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間吮蛹,已是汗流浹背荤崇。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留潮针,地道東北人术荤。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像每篷,于是被迫代替她去往敵國(guó)和親瓣戚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容