2017 IEEE ISCS
摘要
發(fā)明一種新方法,將空間監(jiān)督的遞歸卷積神經(jīng)網(wǎng)絡(luò)(RNN)用于跟蹤韭脊。
受到邊框回歸的啟發(fā)童谒,研究LSTM,建議將卷積網(wǎng)絡(luò)產(chǎn)生的高級(jí)視覺(jué)特征與區(qū)域信息相結(jié)合乾蓬。目標(biāo)位置預(yù)測(cè)使用回歸得出惠啄。
1、引入
解決問(wèn)題:目標(biāo)跟蹤中的大多數(shù)挑戰(zhàn)任内。
我們發(fā)現(xiàn)大多數(shù)算法主要關(guān)注提高深度特征的魯棒性和表現(xiàn)撵渡,來(lái)對(duì)抗手工特征。對(duì)于目標(biāo)跟蹤如何擴(kuò)展深度神經(jīng)網(wǎng)絡(luò)分析到時(shí)空域卻沒(méi)有充分的研究死嗦。
我們方法最大的動(dòng)機(jī)是趋距,跟蹤失敗可以有效地恢復(fù),通過(guò)歷史視覺(jué)語(yǔ)義和跟蹤建議越除。我們的遞歸神經(jīng)網(wǎng)絡(luò)是“雙倍深的”节腐,不僅檢查位置的歷史信息,還檢查過(guò)去幀的魯棒性的視覺(jué)特征摘盆。
別人:有兩個(gè)方法與本篇很相關(guān)翼雀。用RNN
解決跟蹤中相同的問(wèn)題。但是他們關(guān)注人工產(chǎn)生的序列和合成的數(shù)據(jù)孩擂,沒(méi)有解決現(xiàn)實(shí)世界視頻中目標(biāo)跟蹤的挑戰(zhàn)狼渊。他們使用傳統(tǒng)的RNN和局部區(qū)域的二分類(lèi)。
我們:直接回歸
坐標(biāo)和熱圖而不是用子區(qū)域分類(lèi)类垦。使用LSTM用單獨(dú)的一個(gè)估計(jì)來(lái)實(shí)現(xiàn)端到端的時(shí)空域回歸狈邑。
我們的跟蹤器更準(zhǔn)確和魯棒,而且計(jì)算成本低蚤认。
主要貢獻(xiàn):
- 模型化的神經(jīng)網(wǎng)絡(luò)米苹,可以用基于梯度的學(xué)習(xí)方法端到端訓(xùn)練。并給出LSTM的解釋和高層視覺(jué)特征的回歸能力砰琢。
- 對(duì)比基于卷積神經(jīng)網(wǎng)絡(luò)的trackers蘸嘶,我們的框架擴(kuò)展到了時(shí)空域做跟蹤良瞧。
- 網(wǎng)絡(luò)準(zhǔn)確高效且低復(fù)雜度。
2亏较、系統(tǒng)綜述
用YOLO
提取特征莺褒,和初步的位置判斷;在下一階段雪情,使用LSTM
,因?yàn)樗哂锌臻g深度而且適合序列處理你辣。
網(wǎng)絡(luò)輸入是原生時(shí)頻幀巡通,輸出是在每一幀中目標(biāo)回歸框的坐標(biāo)。數(shù)學(xué)上舍哄,提出的模型因式將整個(gè)跟蹤概率分解為:
其中是時(shí)間
之前的所有位置的歷史記錄宴凉,
是時(shí)間
之前的所有輸入幀的歷史記錄。
2.1 Long Short Term Memory(LSTM)
由于反向傳播的誤差隨著時(shí)間的推移而膨脹或衰減表悬,傳統(tǒng)的RNN無(wú)法訪(fǎng)問(wèn)遠(yuǎn)程上下文弥锄,這被稱(chēng)為消失梯度問(wèn)題。LSTM可以克服這個(gè)問(wèn)題蟆沫,并能夠模擬自學(xué)習(xí)的上下文信息籽暇。LSTM的主要?jiǎng)?chuàng)新是其存儲(chǔ)單元,它基本上充當(dāng)狀態(tài)信息的累加器饭庞。通過(guò)幾個(gè)自參數(shù)化控制門(mén)(self-parameterized controlling gates)戒悠,這些單元可以讀取、寫(xiě)入和清除舟山。每當(dāng)有新輸入時(shí)绸狐,如果輸入門(mén)
被激活,它的信息將被累積到儲(chǔ)存單元累盗。我們使用LSTM來(lái)作為跟蹤模型寒矿。LSTM使用記憶細(xì)胞來(lái)存儲(chǔ)和輸出信息,能夠發(fā)現(xiàn)長(zhǎng)范圍時(shí)間信息若债。
是非線(xiàn)性回歸函數(shù)符相,將實(shí)數(shù)值壓縮到[0,1],
拆座,給定輸入
的時(shí)間戳t的LSTM更新是:
2.2 使用YOLO進(jìn)行目標(biāo)檢測(cè)
YOLO模型以45 fps
實(shí)時(shí)處理圖像。
3挪凑、我們提出的系統(tǒng)
受到基于回歸的目標(biāo)檢測(cè)器的啟發(fā)孕索,我們提出新的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來(lái)處理(1)時(shí)空信息,(2)推斷區(qū)域位置躏碳。我們使用遞歸神經(jīng)網(wǎng)絡(luò)將YOLO可擴(kuò)展到時(shí)空域搞旭。本文的方法稱(chēng)為ROLO(recurrent YOLO)。
(1)使用YOLO收集視覺(jué)特征,然后使用LSTM肄渗;
(2)將卷積網(wǎng)絡(luò)產(chǎn)生的高層特征與區(qū)域信息結(jié)合镇眷。
ROLO模型端到端訓(xùn)練有三個(gè)階段:
- 特征學(xué)習(xí)卷積層的預(yù)訓(xùn)練;
- 用于object proposal的傳統(tǒng)YOLO訓(xùn)練翎嫡;
- 用于目標(biāo)跟蹤的LSTM訓(xùn)練欠动。
3.1 檢測(cè)模塊的網(wǎng)絡(luò)訓(xùn)練
首先預(yù)訓(xùn)練一個(gè)傳統(tǒng)的CNN網(wǎng)絡(luò)用來(lái)一般的特征學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)輸入一個(gè)視頻幀惑申,輸出整張圖像的feature map具伍。權(quán)重使用有1000個(gè)分類(lèi)的ImageNet數(shù)據(jù)學(xué)習(xí)得到。在預(yù)訓(xùn)練中圈驼,第一層全連接層產(chǎn)生一個(gè)4096大小的特征向量人芽,理論上可以輸入到任何分類(lèi)工具(SVM或者CNN)產(chǎn)生好的分類(lèi)結(jié)果。
一旦通過(guò)預(yù)訓(xùn)練參數(shù)得到了特征绩脆,就采用YOLO做檢測(cè)模塊萤厅。在卷積層之上,YOLO采用全連接層回歸特征表達(dá)到區(qū)域預(yù)測(cè)靴迫。結(jié)構(gòu)參考YOLO惕味。
3.2 跟蹤模塊的網(wǎng)絡(luò)訓(xùn)練
將LSTM RNNs增加到跟蹤模塊的訓(xùn)練中。有兩條數(shù)據(jù)流進(jìn)入到LSTM矢劲,來(lái)自卷積層的特征表示和來(lái)自全連接層的監(jiān)測(cè)信息赦拘。在每個(gè)時(shí)間t步,都提取一個(gè)4096長(zhǎng)度的特征向量芬沉,稱(chēng)這些特征向量為
躺同。除了
和
,還有上一個(gè)時(shí)間的狀態(tài)輸出
丸逸。
使用Mean Squared Error (MSE)做訓(xùn)練:
是一個(gè)batch的樣本數(shù)蹋艺。
3.3 Alternative Heatmap
作者將ROLO預(yù)測(cè)位置轉(zhuǎn)換為長(zhǎng)度為1024的特征向量,可以將其轉(zhuǎn)換為32乘32的heatmap黄刚。在輸入到LSTM之前捎谨,將它和4096的特征向量連接。heatmap的優(yōu)點(diǎn):在多個(gè)空間位置有置信度憔维,而且可以可視化中間結(jié)果涛救。
所以,heatmap為L(zhǎng)STM輸入业扒。
在訓(xùn)練期間检吆,將區(qū)域信息從檢測(cè)框傳輸?shù)綗釄D,方法是將值1分配給相應(yīng)的區(qū)域程储,而將0分配給其他區(qū)域蹭沛。
目標(biāo)函數(shù)為:
表示groundtruth的heatmap向量臂寝;
表示在LSTM輸出中預(yù)測(cè)的heatmap。
3.4 Spatio-temporal Regression and Spatial Supervision by Region Proposals
LSTM不僅能做序列處理摊灭,而且能處理時(shí)空回歸咆贬。這種回歸是雙重的:
- 在一個(gè)unit中回歸:當(dāng)LSTM連接成一個(gè)單元時(shí),LSTM能夠從視覺(jué)特征推斷區(qū)域位置帚呼。
- 對(duì)序列單元的回歸掏缎,即在一系列幀上的級(jí)聯(lián)特征之間的回歸。 LSTM能夠?qū)⑻卣餍蛄谢貧w到下一幀中的預(yù)測(cè)特征向量中萝挤。
4御毅、實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)環(huán)境:
Python,Tensorflow怜珍。20/60fps分別對(duì)應(yīng)YOLO和LSTM。使用八核處理器3.4GHz Intel Core i7-3770凤粗,NVIDIA TITAN X GPU酥泛。
工程主頁(yè)包含跟蹤器,預(yù)訓(xùn)練模型和結(jié)果嫌拣。
由于ROLO的性能取決于YOLO部分柔袁,作者選擇默認(rèn)的YOLO模型進(jìn)行公平比較。模型基于ImageNet數(shù)據(jù)預(yù)訓(xùn)練异逐,可以識(shí)別20類(lèi)對(duì)象捶索。
圖4(a)(b)中的groundtruth是faces酝润,不存在于YOLO預(yù)訓(xùn)練的類(lèi)中燎竖。對(duì)于運(yùn)動(dòng)模糊的情況,ROLO更穩(wěn)定要销。
圖4(c)中构回,對(duì)象類(lèi)確實(shí)屬于預(yù)先訓(xùn)練的YOLO類(lèi),但在任何訓(xùn)練序列中都未曾見(jiàn)過(guò)疏咐。這種情況下ROLO仍然跟蹤它纤掸。
這證明了,(1)跟蹤可以推廣到?jīng)]見(jiàn)過(guò)的對(duì)象浑塞。(2)LSTM可以推斷視覺(jué)特征借跪。(3)LSTM能夠通過(guò)空間監(jiān)督將視覺(jué)特征回歸到區(qū)域推斷。
傳統(tǒng)方法(例如卡爾曼濾波)缩举,預(yù)測(cè)僅基于先前的位置垦梆,ROLO還利用了視覺(jué)線(xiàn)索的歷史信息匹颤。
在ROLO中的位置歷史信息扮演者空間監(jiān)督的角色,是雙重的:
- 當(dāng)LSTM解釋高層視覺(jué)特征時(shí)托猩,先前的位置信息推斷幫助回歸特征到一個(gè)確定的視覺(jué)元素位置印蓖。空間監(jiān)督回歸作為在線(xiàn)外觀(guān)模型京腥。
- 在時(shí)間上赦肃,LSTM學(xué)習(xí)序列單元以將位置預(yù)測(cè)限制到空間范圍。
4.2 處理遮擋
圖5 展示了ROLO成功跟蹤未見(jiàn)過(guò)幀中遮擋下的對(duì)象他宛。77-783幀中,即使檢測(cè)模塊失敗欠气,ROLO繼續(xù)跟蹤對(duì)象厅各。
作者還使用熱圖而不是位置坐標(biāo)訓(xùn)練替代ROLO模型(離線(xiàn)訓(xùn)練),以便在遮擋條件下分析LSTM宜鸯。ROLO結(jié)果用heatmap展示憔古。圖6 顯示,即使有兩個(gè)相似的對(duì)象同時(shí)出現(xiàn)在視頻里淋袖,ROLO也能跟蹤正確的對(duì)象鸿市,因?yàn)闄z測(cè)模塊為L(zhǎng)STM單元提供空間約束。
因?yàn)閹讉€(gè)原因即碗,ROLO被證明是高效的:
- 來(lái)自卷積網(wǎng)絡(luò)高層特征的表示能力焰情;
- LSTM能夠做特征分析,所以能夠檢測(cè)對(duì)象拜姿,受到位置和熱圖矢量在空間上的監(jiān)督烙样。
- 利用時(shí)空信息有效回歸的能力。
4.3 結(jié)果
在OTB-30上測(cè)試結(jié)果蕊肥。