文章開頭指出了ImageNet開始引入視頻作為數(shù)據(jù)集,意味著計(jì)算機(jī)視覺進(jìn)入了新的篇章——可以借鑒做文章的背景陳述
提出了兩個(gè)核心的點(diǎn)
比較算得上亮點(diǎn)的是將檢測(cè)和融合結(jié)合起來(也許隨便一個(gè)檢測(cè)都可以這么說?)
1稚新,A Spatio-Temporal Tubelets Proposal Module
Step 1. Image Object Proposal
The SS method outputs around 2000 object proposals on each video frame. The majority object proposals are negative samples and may not contain objects.
本方案使用了 pre-trained AlexNet model外潜,并且通過R-CNN去除簡(jiǎn)單得negative object proposals.
并具體提出了去除無用項(xiàng)設(shè)置的閾值
Step 2. Object Proposal Scoring
Our detector is a GoogLeNet pre-trained on ImageNet image classification data, and fine-tuned for the DET task.
文章在此處的針對(duì)性很強(qiáng),只針對(duì)了30個(gè)特定的類卿堂,所以使用的網(wǎng)絡(luò)的pre-train也是直接使用了針對(duì)特定任務(wù)的網(wǎng)絡(luò),對(duì)應(yīng)著30個(gè)SVM來進(jìn)行分類
這里也用到了 hard negative mining 這個(gè)trick
Step 3. High-confidence Proposal Tracking
使用特定的tracker來針對(duì)性的解決scale和pose的問題
小trick:
we early stop the tracking when the tracking confidence is below a threshold (probability of0.1in our experiments) to reduce false positive tracklets
2, ?A Tubelet Classification and re-scoring Module
一個(gè)很直接的方法就是對(duì) tubelet 中的每個(gè)矩形框進(jìn)行分類。這個(gè)方法和基于R-CNN靜態(tài)圖像目標(biāo)檢測(cè)效果差不多履澳。原因大致有4點(diǎn):
1) tubelets 中的矩形候選區(qū)域數(shù)量要比 Selective Search 少很多,這可能會(huì)讓我們漏掉一些目標(biāo)怀跛。
2) 針對(duì)靜態(tài)圖像訓(xùn)練的目標(biāo)檢測(cè)器 對(duì)于目標(biāo)位置的變化比較敏感距贷,如圖1(a)所示,所以tubelets 中的矩形候選區(qū)域的分?jǐn)?shù)比較低吻谋。
3) 在跟蹤過程中忠蝗,我們進(jìn)行了 proposal sup-pression,這也可能是我們丟失一些目標(biāo)漓拾。
4)我們應(yīng)該嵌入 temporal information是的檢測(cè)更穩(wěn)定阁最。
來自http://blog.csdn.net/cv_family_z/article/details/52873045
step 4. Tubelet box perturbation and max-pooling
提出了兩種方式
再次評(píng)估tubelet,只留下分?jǐn)?shù)高的框(并取代之前重疊的框)骇两,
最大池化則是提高控件上的robustness
step 5. Temporal convolution and re-scoring
這里我們提出了一個(gè) Temporal Convolutional Network (TCN) 來嵌入時(shí)序信息來提高tubelet 矩形框檢測(cè)分?jǐn)?shù)的穩(wěn)定性速种。