在博客園 “一只有恒心的小菜鳥(niǎo)” 找來(lái)多目標(biāo)跟蹤的綜述蒲牧,很棒,太受用了赌莺,學(xué)習(xí)一下冰抢!
其他blog
多目標(biāo)跟蹤的評(píng)價(jià)指標(biāo)
http://blog.csdn.net/syoung9029/article/details/57101687
多目標(biāo)跟蹤
http://blog.csdn.net/syoung9029/article/details/57101125
多目標(biāo)跟蹤 綜述(一)
http://www.cnblogs.com/YiXiaoZhou/p/6013360.html?
多目標(biāo)跟蹤 綜述(二)
http://www.cnblogs.com/YiXiaoZhou/p/6016759.html?
多目標(biāo)跟蹤 綜述(三)
http://www.cnblogs.com/YiXiaoZhou/p/6018855.html
下面就我所看的上述內(nèi)容,再總結(jié)一下艘狭。
目標(biāo)跟蹤又包括單目標(biāo)跟蹤和多目標(biāo)跟蹤挎扰。
單目標(biāo)跟蹤:通過(guò)目標(biāo)的表觀建模或者運(yùn)動(dòng)建模巢音,以處理光照遵倦、形變、遮擋等問(wèn)題官撼。
多目標(biāo)跟蹤梧躺,即Multiple Object Tracking(MOT),也稱(chēng)為Multiple Target Tracking(MTT)。
多目標(biāo)跟蹤問(wèn)題較單目標(biāo)跟蹤要復(fù)雜的多傲绣,除了單目標(biāo)跟蹤遇到的問(wèn)題外掠哥,還需要目標(biāo)間的關(guān)聯(lián)匹配巩踏。另外在多目標(biāo)跟蹤任務(wù)中經(jīng)常會(huì)碰到 目標(biāo)的頻繁遮擋、軌跡開(kāi)始終止時(shí)刻未知续搀、目標(biāo)太小塞琼、表觀相似、目標(biāo)間交互目代、低幀率等等問(wèn)題屈梁。
多目標(biāo)跟蹤的主要任務(wù):給定一個(gè)圖像序列,找到圖像序列中運(yùn)動(dòng)的物體榛了,并將不同幀中的運(yùn)動(dòng)物體一一對(duì)應(yīng)(Identity),然后給出不同物體的運(yùn)動(dòng)軌跡在讶。
研究的物體種類(lèi):任意,但研究最多的是“行人跟蹤”霜大。
了解一些基本術(shù)語(yǔ)
了解以下的基本術(shù)語(yǔ)對(duì)于理解相關(guān)的目標(biāo)跟蹤論文是有很大的幫助的构哺。
目標(biāo):在一幅圖像中,明顯區(qū)別于周?chē)h(huán)境的閉合區(qū)域
檢測(cè):給出目標(biāo)在圖像中的位置的過(guò)程
檢測(cè)方法:檢測(cè)方法很多战坤,比如模板匹配曙强。而對(duì)于視頻中運(yùn)動(dòng)目標(biāo)的檢測(cè),可以通過(guò)幀間差分法途茫、背景減除法碟嘴、光流法等實(shí)現(xiàn)。
跟蹤:在連續(xù)圖像序列中完成對(duì)目標(biāo)的檢測(cè)囊卜,并把物理意義下的同一目標(biāo)相關(guān)聯(lián)的過(guò)程
檢測(cè)響應(yīng)(detection response):檢測(cè)過(guò)程的輸出量娜扇。又名檢測(cè)假設(shè)(detection hypotheses)、檢測(cè)觀測(cè)量(detection observations)
軌跡(Trajectory):MOT系統(tǒng)的輸出量栅组,一條軌跡對(duì)應(yīng)這一個(gè)目標(biāo)在一個(gè)時(shí)間段內(nèi)的位置序列
小段軌跡(Tracklet):形成Trajectory過(guò)程中的軌跡片段雀瓢。完整的Trajectory是由屬于同一物理目標(biāo)的Tracklets構(gòu)成的。
數(shù)據(jù)關(guān)聯(lián):數(shù)據(jù)關(guān)聯(lián)是多目標(biāo)跟蹤任務(wù)中經(jīng)常使用的典型的處理方法玉掸,用于解決目標(biāo)間的匹配問(wèn)題刃麸,這里的目標(biāo)可以是detection responses,也可以是tracklets司浪。
注:所謂的“物理目標(biāo)”泊业,就是具有相同物理意義的目標(biāo),比如兩幅圖像都出現(xiàn)了“張三”啊易、“李四”脱吱,那么兩個(gè)“張三”就是同一物理目標(biāo),雖然有可能兩幅圖像中“張三”的形狀认罩、表觀都發(fā)生了很大的變化箱蝠。
MTT的形式化表達(dá)
具體的形式化描述如下:
MTT的任務(wù)是一個(gè)后驗(yàn)概率問(wèn)題,根據(jù)檢測(cè)響應(yīng)結(jié)果找到目標(biāo)的軌跡。有2種實(shí)現(xiàn)方法宦搬。
probabilistic inference:方法適合online tracking牙瓢,每一幅圖像的處理僅和之前的結(jié)果有關(guān),類(lèi)似于Hidden Markov Model间校,操作分為兩個(gè)步驟:預(yù)測(cè)和更新矾克。這類(lèi)方法有粒子濾波(Praticle Filter)、蒙特卡洛模擬退火(MCMC)等憔足。
deterministic optimization:利用了當(dāng)前幀的前后幀信息進(jìn)行最優(yōu)化求解胁附,具體的方法包括二分圖匹配、動(dòng)態(tài)規(guī)劃滓彰、最小流\最大割方法和最大權(quán)重獨(dú)立集等方法控妻。
MTT方法的分類(lèi)
不同的分類(lèi)角度對(duì)應(yīng)著不同的分類(lèi)結(jié)果。
1揭绑、初始化的角度/數(shù)學(xué)的角度
主要強(qiáng)調(diào)的是目標(biāo)是如何獲得的弓候,可以分為:
Detection Based Tracking (DBT)
Detection Free Tracking (DFT)
區(qū)別:
DBT是指在跟蹤之前每一幅圖像中目標(biāo)都是detected,也就是說(shuō)MOT過(guò)程包含一個(gè)獨(dú)立的detection過(guò)程他匪。這種方法性能比較依賴(lài)于detectors的好壞菇存。
DFT需要人工標(biāo)定第一幀圖像中的目標(biāo),之后的過(guò)程中邊檢測(cè)目標(biāo)邦蜜,邊跟蹤目標(biāo)依鸥。
二者的優(yōu)缺點(diǎn)比較:
DFT和DBT相比較,DBT使用的更多悼沈。主要原因在于DFT需要人工標(biāo)定目標(biāo)贱迟,對(duì)于非第一幀出現(xiàn)的目標(biāo)或者中間幀消失的目標(biāo)沒(méi)辦法處理。而DFT相對(duì)于DBT的優(yōu)點(diǎn)在于對(duì)目標(biāo)類(lèi)型事先要求不高井辆,由人工指定,而DBT的目標(biāo)類(lèi)型則由分類(lèi)器決定溶握。
2杯缺、處理過(guò)程的角度
數(shù)據(jù)的處理方式可以分為Online tracking和offline tracking。
online tracking:更適用于實(shí)際情況睡榆,視頻一般是序列化得到的萍肆。
offline tracking:更可能得到全局最優(yōu)解。
所以許多方法采用的是在較小的時(shí)間片段內(nèi)使用offline tracking的方法進(jìn)行折衷胀屿。
總結(jié):起始可以發(fā)現(xiàn)不同的分類(lèi)之間是存在交叉的塘揣,比如DFT就是online tracking的過(guò)程。當(dāng)然DBT也存在online tracking方式宿崭,比如兩幀關(guān)聯(lián)亲铡。另外,實(shí)際應(yīng)用中奖蔓,一般大多數(shù)online tracking方法都是probability inference方法赞草,而deterministinc optimization對(duì)應(yīng)著offline tracking。
Note:在實(shí)際應(yīng)用時(shí)沾凄,泛化的MTT牙肝,一般DBT方法要求預(yù)先訓(xùn)練好的detector敦姻,這就導(dǎo)致跟蹤目標(biāo)的類(lèi)型時(shí)確定的茵瘾。而最近有學(xué)者研究針對(duì)于任意類(lèi)型目標(biāo)的MTT方法,比如在第一幀中人工標(biāo)定一個(gè)目標(biāo)祈惶,然后在前幾幀中檢測(cè)出了該目標(biāo)類(lèi)似的所有目標(biāo)雕旨,使用這些目標(biāo)訓(xùn)練分類(lèi)器扮匠,后續(xù)類(lèi)似于DBT過(guò)程,這樣MTT方法就可以針對(duì)于不同的視頻數(shù)據(jù)處理了奸腺。
好了餐禁,前面介紹了什么是MTT問(wèn)題,MTT問(wèn)題面臨的難點(diǎn)突照,以及MTT的一般形式化表達(dá)和方法的分類(lèi)帮非。接下來(lái),介紹一下一般的MTT方法都包含哪些component讹蘑,以保證提出模型末盔、考慮問(wèn)題更加全面。
一般MTT方法都會(huì)包含5個(gè)components座慰,分別是:
Appearance Model(外觀模型)陨舱,Motion Model(運(yùn)動(dòng)模型),Interaction Model(交互模型), Exclusion Model (排除模型)和Occlusion Mode(遮擋模型)版仔。
注意:在這里與我之前寫(xiě)的論文筆記- Understanding and Diagnosing Visual Tracking Systems一文中所提出來(lái)的model不同哦游盲!那篇筆記涉及的是單目標(biāo)跟蹤,提出的component有:
Motion Model蛮粮、Feature Extractor益缎、Observation Mode(觀察模型)l、Model Updater然想、Ensemble Post-processor等5個(gè)莺奔。哈哈,都是5個(gè)喲变泄!
下面分別對(duì)MTT方法中所涉及的5大模型做解釋令哟。
Appearance Model
即表觀模型,這里既包含目標(biāo)的視覺(jué)表示妨蛹,也包括目標(biāo)間相似性屏富、相異性的度量。
視覺(jué)表示肯定是基于圖像特征了蛙卤。這里先介紹一些特征狠半。
point feature, 比如Harris角點(diǎn)、SIFT角點(diǎn)表窘、SURF角點(diǎn)等等
Color/intensity(強(qiáng)度) features, 比如最簡(jiǎn)單的模板典予、顏色直方圖等甜滨。(補(bǔ)充:顏色直方圖為常用的顏色特征乐严,通過(guò)計(jì)算每種顏色在圖像顏色空間中的比例從而代替了計(jì)算每種顏色在圖像空間中的位置,對(duì)于在空間中沒(méi)有清晰邊緣的目標(biāo)描述性較強(qiáng)衣摩。)
Optical flow, 光流特征昂验,蘊(yùn)含了時(shí)域信息
Gradient/pixel-comparison features, 基于梯度的特征捂敌,典型的如HOG特征
Region covariance matrix features, 該特征對(duì)于光照和尺度變換相對(duì)魯棒
Depth, 即深度信息,對(duì)于視頻這種3D數(shù)據(jù)作用還是蠻大的
others既琴,針對(duì)于具體應(yīng)用的特征占婉,比如對(duì)于行人的步態(tài)特征等
總之呢,每個(gè)特征都不是萬(wàn)能的甫恩,有優(yōu)點(diǎn)也有缺點(diǎn)逆济,比如:
Color histogram簡(jiǎn)單,容易計(jì)算相似性磺箕,但其僅僅是統(tǒng)計(jì)信息奖慌,丟失了區(qū)域像素的位置信息。 Points features對(duì)于平面內(nèi)變換非常有效松靡,但對(duì)于遮擋和out-of-plane變化就無(wú)能無(wú)力了简僧。
HOG等梯度特征顯然對(duì)光照比較魯棒,但對(duì)于遮擋和形變效果很差雕欺。
Region covariance matrix鑒別能力很強(qiáng)岛马,但計(jì)算太復(fù)雜。
Depth則很難獲得精確值屠列。等等啦逆。
其實(shí)呢,SIFT脸哀,Haar蹦浦,HOG特征屬于紋理特征。紋理特征對(duì)于目標(biāo)的描述具有很強(qiáng)的描述能力和光照不變性撞蜂。然而,在目標(biāo)跟蹤過(guò)程中,被跟蹤目標(biāo)跟可能發(fā)生紋理的改變,能否選擇合適的紋理特征則是跟蹤效果好壞的關(guān)鍵盲镶。而近來(lái)很火的CNN特征屬于結(jié)構(gòu)性特征。結(jié)構(gòu)性特征是通過(guò)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的從簡(jiǎn)單到復(fù)雜具有結(jié)構(gòu)性的特征,深度神經(jīng)網(wǎng)絡(luò)就是借鑒了動(dòng)物視覺(jué)皮層的構(gòu)造,以人為例,人的視覺(jué)系統(tǒng)的信息處理是分級(jí)的蝌诡。從低級(jí)的 V1 區(qū)提取較底層類(lèi)似于邊緣特征,到 V2 區(qū)的產(chǎn)生由邊角等特征組合而成的形狀等特征,再到更高層,以致整個(gè)目標(biāo)溉贿。可以說(shuō)視知覺(jué)的過(guò)程是一個(gè)由底層基礎(chǔ)特征到高層結(jié)構(gòu)性特征抽象的過(guò)程,隨著抽象的層級(jí)越來(lái)越高,展現(xiàn)出來(lái)的特征越具有高層次的表示,面對(duì)跟蹤任務(wù)中變化的目標(biāo)可以用底層到高層的特征就行描述浦旱。
接下來(lái)介紹一些目標(biāo)表示方法宇色。
此外,還有一些其他的方法颁湖。比如協(xié)方差矩陣表示宣蠕、基于梯度的表示方法和詞袋表示方法等。
上圖的部分單詞釋義:Concatenating(連接)甥捺、Summation(求和)抢蚀、Cascading(級(jí)聯(lián))。
Motion Model
該成分主要考慮時(shí)域上的運(yùn)動(dòng)特性镰禾,比如速度的漸變等皿曲。
該模型主要采用的方式有兩種:勻變速模型和變速模型唱逢。
勻變速模型
該模型認(rèn)為速度除了噪聲干擾,應(yīng)該是保持均勻變化的屋休,比如加速度為0坞古。除了加速度為0,還可以考慮加速度非零情況劫樟。
非勻變速模型
有些獲取的視頻并不能保證每幀之間的速度是漸變的痪枫,比如低幀高速運(yùn)動(dòng)的物體中速度突然發(fā)生改變,那么顯然勻變速假設(shè)就不合理了叠艳,所以也有非勻變速模型的提出听怕。
Interaction Model
同一運(yùn)動(dòng)場(chǎng)景中的目標(biāo),往往運(yùn)動(dòng)軌跡會(huì)相互影響虑绵,比如晨跑中跑步的人往往傾向于扎堆尿瞭,但又保持距離,隨著跑步過(guò)程翅睛,相距很近的人慢慢的節(jié)奏就調(diào)整一致等等声搁。
interaction Model包括兩種典型的模型: social force model和crowd motion pattern model。
這兩種模型介紹如下:
social force model:
該模型認(rèn)為每個(gè)個(gè)體受到兩部分作用:自身作用和外部作用捕发。
自身作用:1. fidelity疏旨,首先目標(biāo)的目的地不會(huì)發(fā)生改變;2. constancy扎酷,其次個(gè)體的速度一般不會(huì)發(fā)生跳變檐涝,包括大小和方向
環(huán)境作用:1. attraction,首先同一類(lèi)的個(gè)體往往距離很近法挨;2. repulsion谁榜,其次每個(gè)目標(biāo)都會(huì)有相應(yīng)的舒適距離,不能太近凡纳;3. coherence窃植,靠近的目標(biāo)往往速度會(huì)比較相近。
這幾個(gè)fidelity荐糜、constancy巷怜、attraction、repulsion暴氏、coherence都可以用相應(yīng)的數(shù)學(xué)公式描述延塑,而這些個(gè)公式的算術(shù)組合就可以構(gòu)成interaction model。
crowd motion pattern models:
該模型一般適用于過(guò)擁擠的環(huán)境答渔,這種情況下关带,目標(biāo)往往非常集中以至目標(biāo)太小,表觀等特征根本起不到作用研儒,這時(shí)候就場(chǎng)景中特有的運(yùn)動(dòng)模式就起到了關(guān)鍵作用了豫缨。如果目標(biāo)受到多方作用的話,可以將多方加權(quán)進(jìn)行綜合考慮端朵。
Exclusion Model
這部分主要是指:
1好芭、一個(gè)目標(biāo)只能出現(xiàn)在一條軌跡上
2、 一條軌跡只能對(duì)應(yīng)一個(gè)目標(biāo)冲呢,也就是說(shuō)多個(gè)目標(biāo)不能出現(xiàn)在同一段軌跡上
Occlusion Handling
遮擋問(wèn)題是多目標(biāo)跟蹤中的難點(diǎn)舍败。處理遮擋問(wèn)題的方法包括:
1、Part-to-whole,即將目標(biāo)分解成若干個(gè)部件敬拓,當(dāng)目標(biāo)被部分遮擋時(shí)邻薯,還可以通過(guò)部件的匹配來(lái)推測(cè)整體目標(biāo)的匹配
2、Hypothesize-and-test,假設(shè)檢驗(yàn)的方法根據(jù)觀測(cè)值去估計(jì)目標(biāo)在其他未被檢測(cè)區(qū)域是否會(huì)發(fā)生遮擋的概率乘凸,可以說(shuō)是一種MAP方法
3厕诡、Detection-of-occlusion, 有些學(xué)者通過(guò)直接對(duì)遮擋的樣本進(jìn)行訓(xùn)練营勤,然后使用分類(lèi)器去檢測(cè)并判斷遮擋區(qū)域灵嫌。
上述4點(diǎn)是最常用的處理遮擋問(wèn)題的方法,當(dāng)然還有其他的一些方法葛作,比如在實(shí)際應(yīng)用中也會(huì)根據(jù)相機(jī)位置和區(qū)域中心坐標(biāo)來(lái)判斷誰(shuí)被遮擋了寿羞,有時(shí)這些策略也會(huì)聯(lián)合使用。
多目標(biāo)跟蹤的評(píng)價(jià)指標(biāo)
http://www.cnblogs.com/YiXiaoZhou/p/5937980.html
這個(gè)網(wǎng)址的內(nèi)容是根據(jù)論文:Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics寫(xiě)的筆記赂蠢。2008年的绪穆,文章還是蠻舊的啦。
對(duì)于多目標(biāo)追蹤問(wèn)題虱岂,我們認(rèn)為一個(gè)理想的評(píng)價(jià)指標(biāo)應(yīng)該滿足下述三點(diǎn)要求:
1玖院、所有出現(xiàn)的目標(biāo)都要能夠及時(shí)找到
2、找到的目標(biāo)位置要盡可能可真實(shí)目標(biāo)位置一致
3第岖、保持追蹤一致性司恳,避免跟蹤目標(biāo)的跳變 each object should be assigned a unique track ID which stays constant throughout the sequence.
這三點(diǎn)要求給了設(shè)計(jì)MOT評(píng)價(jià)metric的啟發(fā):
1、metrics應(yīng)該能夠評(píng)價(jià)tracker輸出結(jié)果和真實(shí)結(jié)果location上的誤差精度
2绍傲、metrics應(yīng)該要能夠反映出tracker長(zhǎng)時(shí)間持續(xù)追蹤目標(biāo)結(jié)構(gòu)的能力扔傅,即追蹤到正確的目標(biāo)軌跡的能力
另外,關(guān)于metric的一般要求:
1烫饼、metric參數(shù)(包括可調(diào)節(jié)的閾值等)要盡可能的少猎塞,才能使評(píng)估過(guò)程簡(jiǎn)單直接,實(shí)驗(yàn)結(jié)果可對(duì)比性較強(qiáng)
2杠纵、metric要盡可能的直觀荠耽,易理解,特別是要容易區(qū)分不同類(lèi)型的誤差
3比藻、metric應(yīng)具有較強(qiáng)的適應(yīng)性铝量,對(duì)于MOT的評(píng)價(jià)指標(biāo)而言要能夠適應(yīng)2D和3D的不同情況
4倘屹、metric的個(gè)數(shù)要盡可能的少,盡量少的指標(biāo)卻具有很高的表達(dá)能力
論文根據(jù)上述的criteria提出了一種MOT問(wèn)題系統(tǒng)慢叨、客觀的評(píng)價(jià)過(guò)程纽匙。
常用的數(shù)據(jù)集和已經(jīng)存在的公布代碼的方法
常用的數(shù)據(jù)集:MOTChallenge、KITTI拍谐、OTB烛缔、VOT等。使用公用的數(shù)據(jù)集比較好轩拨,這樣可以直接對(duì)比別人的實(shí)驗(yàn)結(jié)果践瓷,不用自己重復(fù)實(shí)驗(yàn)了。
公開(kāi)代碼的方法:
就目前來(lái)說(shuō)亡蓉,公布的跟蹤器代碼太多了晕翠,大部分可以通過(guò)github找到。
Future directions
1砍濒、MOT with video adaptation
大多數(shù)基于檢測(cè)的MOT方法崖面,往往適用范圍依賴(lài)于離線學(xué)習(xí)獲得的檢測(cè)器,所以找到一個(gè)通用性更好梯影,即適用于任何數(shù)據(jù)的MOT方法是一個(gè)研究熱點(diǎn)巫员。
2、Balance between crowd density and completeness of objection representation
往往在密集環(huán)境中目標(biāo)都很小甲棍,以至于傳統(tǒng)的表觀表示方法鑒別能力很弱简识,如何才能找到一個(gè)對(duì)于小目標(biāo)物體依然具有較強(qiáng)鑒別能力的表示方法仍是個(gè)研究方向。
3感猛、MOT under multiple cameras.
多視角的數(shù)據(jù)能夠恢復(fù)立體視覺(jué)七扰,更加符合生物視覺(jué)
4、Multiple 3D object tracking.
3D目標(biāo)追蹤陪白,多目視覺(jué)能構(gòu)建3D環(huán)境颈走,但構(gòu)建不了3D目標(biāo)。
5咱士、MOT with scene understanding
結(jié)合場(chǎng)景理解的目標(biāo)跟蹤問(wèn)題立由,比如場(chǎng)景的語(yǔ)義信息。個(gè)人感覺(jué)這個(gè)很有發(fā)展空間序厉。
6锐膜、MOT with other computer vision tasks.
多個(gè)視覺(jué)任務(wù)相互結(jié)合,相輔相成弛房。比如步態(tài)識(shí)別道盏,姿勢(shì)識(shí)別和目標(biāo)跟蹤放在一起處理,信息共享,效果可能也不錯(cuò)荷逞。當(dāng)然媒咳,這個(gè)結(jié)合性很強(qiáng)啦,因?yàn)橐讯鄠€(gè)視覺(jué)任務(wù)放在一起處理嘛种远!