原文鏈接 參考博文
每年都會更新信粮,最新版本是v4(2017年5月)壶冒,文章中介紹的方法都是2017年以前的方法
摘要
目標(biāo)重疊螃成、外觀劇變等問題仍然是它所面臨的重大挑戰(zhàn)。[^1]
本文的主要貢獻(xiàn)點(diǎn)如下四條:
1)多目標(biāo)跟蹤系統(tǒng)的關(guān)鍵方向拾稳,包括公式(formulation),分類(categorization)腊脱,關(guān)鍵原則(key principles)访得,以及測評(evaluation);
2)根據(jù)現(xiàn)有技術(shù)所屬的不同方向來進(jìn)行討論陕凹,再將每個(gè)方向的方法劃分為成組悍抑,然后對組內(nèi)方法的原則、優(yōu)缺點(diǎn)進(jìn)行討論杜耙;
3)檢驗(yàn)現(xiàn)有公開的實(shí)驗(yàn)并且總結(jié)在主流數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果搜骡,再進(jìn)行量化地對比,與此同時(shí)指出分析中發(fā)現(xiàn)的幾個(gè)有趣的問題佑女;
4)提供在MOT研究中會遇到的問題的討論浆兰,以及可能在以后的工作中會出現(xiàn)的潛在可研究方向磕仅。
1.介紹
MOT or MTT主要任務(wù)是在給定視頻中同時(shí)對多個(gè)感興趣的目標(biāo)進(jìn)行定位,并且維持他們的ID簸呈、記錄他們的軌跡榕订。
單目標(biāo)跟蹤(Single Object Tracking, SOT)主要集中在設(shè)計(jì)復(fù)雜的外觀模型和/或運(yùn)動(dòng)模式,解決具有挑戰(zhàn)性的問題如尺度變化蜕便,出平面旋轉(zhuǎn)和光照變化劫恒,而多目標(biāo)跟蹤還有額外的兩個(gè)任務(wù)需要解決:確定目標(biāo)的數(shù)量(通常隨時(shí)間變化),和維持各自的ID
轿腺。
除了SOT和MOT的共同問題外两嘴,MOT還需要處理更復(fù)雜的關(guān)鍵問題包括:1)頻繁遮擋;2)軌道初始化和終止族壳;3)相似的外觀憔辫;4)多目標(biāo)間的相互影響。
2.MOT 問題
2.1 公式
多目標(biāo)跟蹤可以認(rèn)為是多變量估計(jì)問題
多目標(biāo)跟蹤的目的是找到所有目標(biāo)“最好的”狀態(tài)序列
基于概率預(yù)測方面的仿荆,基于決策優(yōu)化方面的
2.2 分類
2.2.1 初始化方法
- DBT(Detection-Based Tracking):首先檢測目標(biāo)贰您,然后鏈接到軌跡中÷2伲可以自動(dòng)發(fā)現(xiàn)新目標(biāo)锦亦、自動(dòng)終止消失的目標(biāo)
有兩個(gè)問題值得注意:
第一,由于提前訓(xùn)練目標(biāo)檢測器令境,DBT大部分關(guān)注特定的目標(biāo)類型杠园,如行人、車輛或人臉舔庶。
第二抛蚁,DBT的性能非常依賴于所采用的目標(biāo)檢測器的性能。
-
DFT(Detection-Free Tracking):需要在第一幀手動(dòng)初始化一定數(shù)量的目標(biāo)惕橙,然后在后續(xù)幀定位這些物體瞧甩。
2.2.2 處理模式
- Online跟蹤:圖像序列是一步步處理的因此該跟蹤方式也稱序列跟蹤。
-
Offline跟蹤:利用一組幀來處理數(shù)據(jù)吕漂。由于計(jì)算復(fù)雜度和內(nèi)存限制亲配,不總是一次性處理所有幀,而是考慮將數(shù)據(jù)分成幾個(gè)短一點(diǎn)的視頻惶凝,對于每組分層或順序處理得到結(jié)果吼虎。
2.2.3 輸出類型
這個(gè)標(biāo)準(zhǔn)根據(jù)輸出的隨機(jī)性將MOT方法分成基于決策的和基于概率的
3.MOT 組成
在設(shè)計(jì)MOT算法的時(shí)候有兩個(gè)問題需要考慮:一個(gè)是怎樣測量幀內(nèi)目標(biāo)的相似性,另一個(gè)是基于這個(gè)相似性怎樣判斷幀間目標(biāo)是否相同苍鲜。前者主要包括外觀思灰,運(yùn)動(dòng),交叉混滔,排斥和碰撞的建模問題洒疚,后者主要和數(shù)據(jù)關(guān)聯(lián)有關(guān)歹颓。
3.1 外觀模型
3.2 運(yùn)動(dòng)模型
3.3 交互模型
3.4 排斥模型
3.5 遮擋處理
3.6 預(yù)測
4. MOT評估
4.1 指標(biāo)
- 檢測指標(biāo)
精準(zhǔn)度(Accuracy)、精度(Precision) - 跟蹤指標(biāo)
精準(zhǔn)度(Accuracy)油湖、精度(Precision)巍扛、完整性(Completeness)、魯棒性(Robustness)
4.2 數(shù)據(jù)集
4.3 公開算法
4.4 基準(zhǔn)結(jié)果
5. 總結(jié)
5.1 存在的問題
- MOT方法的性能在很大程度上取決于目標(biāo)檢測器
某些方法在特定視頻序列中表現(xiàn)良好乏德,然而當(dāng)在應(yīng)用于其他視頻下時(shí)撤奸,它們可能不會產(chǎn)生令人滿意的結(jié)果,這可能是因?yàn)樵摲椒ㄋ褂玫哪繕?biāo)檢測器是在特定的視頻中被訓(xùn)練的喊括,因此不能很好地泛化使用在其他視頻序列中胧瓜。 - 在提出MOT解決方法時(shí),一個(gè)算法越復(fù)雜郑什,就有越多的參數(shù)府喳,這就使調(diào)參非常困難。其他人也很難實(shí)現(xiàn)這種方法并且重現(xiàn)結(jié)果蘑拯。
5.2 未來的方向
MOT under multiple cameras:多攝像頭的配置有兩類:第一個(gè)是多攝像頭記錄同一個(gè)場景钝满,即多視角。然而强胰,這個(gè)設(shè)置的關(guān)鍵問題是如何融合來自多個(gè)攝像機(jī)的信息舱沧。第二個(gè)是每個(gè)攝像機(jī)記錄一個(gè)不同的場景妹沙,即一個(gè)不重疊的多攝像機(jī)網(wǎng)絡(luò)偶洋。在這時(shí),多攝像頭間的數(shù)據(jù)關(guān)聯(lián)就成為了一個(gè)再識別(reidentification)問題距糖。
MOT with scene understanding:擁擠場景下玄窝,例如在高峰時(shí)期的地鐵車站和公共場所的游行示威。在這種情況下悍引,大多數(shù)目標(biāo)是小的和/或被大面積遮擋的恩脂,因此很難進(jìn)行跟蹤。場景理解的分析結(jié)果可以提供上下文信息和場景結(jié)構(gòu)趣斤,如果將其更好地融入到MOT算法中俩块,將有助于跟蹤問題的解決。
MOT with deep learning:深度學(xué)習(xí)模型已成為處理各種視覺問題的非常強(qiáng)大的框架浓领,包括圖像分類(如:CNN圖像分類)玉凯,目標(biāo)檢測(如:Faster R-CNN、Yolo联贩、SSD)漫仆,單目標(biāo)跟蹤(SOT)。對于MOT問題泪幌,深度學(xué)習(xí)模型提供的強(qiáng)大的目標(biāo)檢測模型可以顯著提高跟蹤性能盲厌。盡管最近已經(jīng)開始嘗試使用連續(xù)神經(jīng)網(wǎng)絡(luò)進(jìn)行在線MOT署照,但關(guān)于使用深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行目標(biāo)關(guān)聯(lián)問題的formulation和建模仍需要投入更多的研究。
MOT with other computer vision tasks :雖然多目標(biāo)跟蹤是服務(wù)于其他高層次的計(jì)算機(jī)視覺任務(wù)吗浩,但也存在這樣的趨勢:將一些彼此能優(yōu)勢互補(bǔ)的計(jì)算機(jī)視覺任務(wù)結(jié)合起來以解決MOT問題建芙。可能的組合包括目標(biāo)分割懂扼,行人再識別岁钓,行人姿態(tài)估計(jì)和動(dòng)作識別。