首先,為了與refine部分配合层玲,detzero的track部分和傳統(tǒng)MOT方法有所不同盐须。
detzero的track將score低于閾值的框也保留下來,做二級(jí)的匹配和更新衔瓮,并且使用了immortal track的思想浊猾,盡量保留更多的框。
在track之后我們得到了點(diǎn)集, 框集和分?jǐn)?shù)集热鞍, j表示track id葫慎, i表示frame id。
概述
基于剛體不變性碍现、運(yùn)動(dòng)規(guī)律性幅疼,并與相鄰時(shí)刻具有較強(qiáng)的一致性,提出了將邊界框回歸分為了3個(gè)獨(dú)立模塊昼接,分別爽篷,預(yù)測(cè)對(duì)象的幾何、位置慢睡、置信度屬性逐工。
Geometry refining model (GRM)
- 一個(gè)對(duì)象j的track內(nèi)的所有成員box中點(diǎn),轉(zhuǎn)到box的局部坐標(biāo)系漂辐,并融合泪喊,忽略其來源。 從中隨機(jī)挑選4096個(gè)點(diǎn)記為點(diǎn)集 , 做后續(xù)處理髓涯。
- 對(duì)于點(diǎn)集中的每一個(gè)點(diǎn),計(jì)算其到所在框6個(gè)面的距離袒啼,那么這個(gè)點(diǎn)的特征就擴(kuò)充成了[, ,...,] 。
- 首先從一個(gè)對(duì)象的track中隨機(jī)選出t個(gè)成員纬纪,每個(gè)成員隨機(jī)選256個(gè)點(diǎn)蚓再,每個(gè)點(diǎn)用2的方法擴(kuò)充特征,并附帶相應(yīng)的置信度得分包各。然后用Pointnet結(jié)構(gòu)的編碼器ENC1來提取每個(gè)選定樣本的特征摘仅,用來初始化幾何查詢,接下來用另一個(gè)編碼器ENC2以作為輸入问畅,提取密集點(diǎn)的特征娃属,作為和。
- 首先輸入MSA中护姆,以編碼選定樣本之間的豐富上下文關(guān)系和特征依賴矾端,從而細(xì)化幾何信息。然后做交叉注意力卵皂,將上下文聚合到對(duì)象候選區(qū)域须床,通過推理成對(duì)差異來補(bǔ)償每個(gè)的視角的點(diǎn)特征。最后FFN將t個(gè)獨(dú)立解碼成t個(gè)幾何尺寸渐裂,取平均值作為最終預(yù)測(cè)尺寸豺旬。
- 網(wǎng)絡(luò)結(jié)構(gòu):encoder使用多層感知機(jī)MLP钠惩,Q編碼為tx256, K,V編碼為nx256。decoder使用transformer經(jīng)典的MSA+MCA+FFN族阅。
Position refining model(PRM)
- 一個(gè)對(duì)象j的track內(nèi)的所有成員box篓跛,隨機(jī)選其中一個(gè)box作為新坐標(biāo)系,然后把其他所有的和都轉(zhuǎn)到該坐標(biāo)系坦刀。然后每個(gè)frame的隨機(jī)選取固定數(shù)量的點(diǎn)愧沟,數(shù)量為。
- 對(duì)于每個(gè)點(diǎn)鲤遥,計(jì)算其到所在框的中心點(diǎn)和8個(gè)角點(diǎn)的距離沐寺,以擴(kuò)充該點(diǎn)的特征,即position-aware的點(diǎn)盖奈,最后以=[, ,,...,] 來表示混坞。將每個(gè)track用0 padding到一樣的長(zhǎng)度(即clip的長(zhǎng)度)。
- 用ENC1一樣的結(jié)構(gòu)編碼+置信度钢坦,生成position query ,L即clip長(zhǎng)度究孕。 同時(shí)用另一個(gè)編碼器以為輸入生成和。
- 首先將 輸入MSA爹凹,捕捉自身與其他位置的相對(duì)距離厨诸。此外,在每個(gè)查詢位置附近應(yīng)用1D掩碼來加權(quán)自注意力禾酱。 隨后將QKV輸入交叉注意力微酬。 最后,預(yù)測(cè)每個(gè)GT中心和對(duì)應(yīng)的初始中心在局部坐標(biāo)系下的偏移量以及航向角颤陶。
Confidence refining (CRM)
由于detzero的detection和tracking部分的策略是盡可能提高召回颗管,所以會(huì)產(chǎn)生數(shù)量可觀的false positive。所以confidence refining是必要的指郁,該模塊包含了兩個(gè)分支忙上。
- 分類分支:設(shè)定兩個(gè)閾值和拷呆,如果track boxes與gt的閾值低于則記為負(fù)樣本闲坎,如果高于則記為正樣本。介于兩者之間的則不參與該分支的計(jì)算茬斧。 (Question:如何計(jì)算兩個(gè)track的IOU腰懂?圖森的CTRL論文,提出了一個(gè)TIoU:tracking iou)
- IoU regression分支:以優(yōu)化經(jīng)過GRM和PRM的track boxes和GT的iou為回歸目標(biāo)项秉。
- 首先绣溜,用ENC1相同結(jié)構(gòu)的編碼器來處理track box中的點(diǎn)。提取的點(diǎn)云特征通過一個(gè)簡(jiǎn)單的MLP進(jìn)行融合娄蔼,然后輸入上述兩個(gè)分支預(yù)測(cè)得分怖喻。訓(xùn)練中底哗,正負(fù)樣本采樣比為1:1 。最終的得分是兩個(gè)分支得分的幾何平均數(shù)(平方和開根號(hào))锚沸。