文章來源:ICCV 2017
下載鏈接:Paper Download
解決的問題:
(1) 在時(shí)間上對(duì)Faster R-CNN進(jìn)行了優(yōu)化,并且提高準(zhǔn)確度,最關(guān)鍵的是在像素級(jí)別進(jìn)行特征點(diǎn)定位狡刘,并達(dá)到了將各個(gè)對(duì)象的邊緣確定的效果褪子。
(2) 能夠有效地檢測(cè)圖像中的目標(biāo)存和,同時(shí)還能為每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩碼烟逊。
文章內(nèi)容:
Mask R-CNN是一個(gè)小巧、靈活的通用對(duì)象實(shí)例分割框架互广。它在Faster R-CNN基礎(chǔ)之上進(jìn)行擴(kuò)展敛腌,并行地在bounding box recognition分支上添加一個(gè)用于預(yù)測(cè)目標(biāo)掩模的新分支卧土。該網(wǎng)絡(luò)還很容易擴(kuò)展到其他任務(wù)中,比如關(guān)鍵點(diǎn)檢測(cè)像樊、實(shí)例分割尤莺。該文章主要包括以下三個(gè)創(chuàng)新點(diǎn)。
(1) 解決特征圖與原始圖像上的RoI不對(duì)準(zhǔn)問題生棍。由于RoIPool方法在量化過程中引入了RoI與提取的特征不對(duì)準(zhǔn)問題颤霎,作者提出RoIAlign層來解決這個(gè)問題,并且將提取到的特征與輸入對(duì)齊涂滴。避免了對(duì)RoI的邊界或者塊做任何量化友酱。
(2) 將掩模預(yù)測(cè)和分類預(yù)測(cè)拆解。該框架對(duì)每個(gè)類別獨(dú)立地預(yù)測(cè)一個(gè)二值掩模柔纵,沒有引入類間競(jìng)爭(zhēng)缔杉,每個(gè)二值掩模的類別依靠網(wǎng)絡(luò)RoI分類分支給出的分類預(yù)測(cè)結(jié)果。
(3) 掩模表示搁料。一個(gè)掩模編碼了一個(gè)輸入對(duì)象的空間布局或详。作者使用了一個(gè)FCN來對(duì)每個(gè)RoI預(yù)測(cè)一個(gè)掩模,這保留了空間結(jié)構(gòu)信息郭计。
該結(jié)構(gòu)主要包含兩個(gè)分支:
(1) 第一個(gè)分支為原始Faster R-CNN的結(jié)構(gòu)霸琴,它用于對(duì)候選窗口進(jìn)行分類和窗口坐標(biāo)回歸。
(2) 第二個(gè)分支對(duì)每一個(gè)感興趣區(qū)域預(yù)測(cè)分割掩模昭伸,它利用了一個(gè)小的全卷積網(wǎng)絡(luò)結(jié)構(gòu)梧乘。
另外,作者對(duì)ROI的損失函數(shù)進(jìn)行了重新定義庐杨,公式如下所示:
對(duì)每個(gè)RoI的mask分支选调,其輸出維度為Km*m。其中K表示對(duì)m*m的圖像編碼K個(gè)二分類mask灵份,每一個(gè)mask有K個(gè)類別学歧。所以需要應(yīng)用單像素的sigmoid進(jìn)行二分類,并定義Lmask為平均二分類cross-entropy loss各吨。對(duì)于類別為k的RoI,Lmask定義在第k個(gè)掩膜(其他掩膜輸出對(duì)loss沒貢獻(xiàn))袁铐。
文章特點(diǎn):
Mask R-CNN是一個(gè)小巧揭蜒、靈活的通用對(duì)象實(shí)例分割框架(object instance segmentation)。它不僅可對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)剔桨,還可以對(duì)每一個(gè)目標(biāo)給出一個(gè)高質(zhì)量的分割結(jié)果屉更。該框架在COCO的一些列挑戰(zhàn)任務(wù)重都取得了最好的結(jié)果,包括實(shí)例分割(instance segmentation)洒缀、候選框目標(biāo)檢測(cè)(bounding-box object detection)和人關(guān)鍵點(diǎn)檢測(cè)(person keypoint detection)瑰谜。
(1) 由于目前已有許多設(shè)計(jì)良好欺冀,可用于Faster R-CNN的構(gòu)架,因此萨脑,作為Faster R-CNN的擴(kuò)展隐轩,Mask R-CNN在應(yīng)用時(shí)也沒有阻礙;
(2) 由于掩碼層只給整個(gè)系統(tǒng)增加一小部分計(jì)算量渤早,所以該方法運(yùn)行起來非常高效职车;
(3) Mask R-CNN還可以很容易泛化到其它任務(wù)上。比如鹊杖,可以在同一個(gè)框架中估計(jì)人物的動(dòng)作悴灵。
存在的不足:
暫時(shí)沒發(fā)現(xiàn)。
相關(guān)參考:Mask R-CNN個(gè)人理解骂蓖、多位大神解讀积瞒、《Mask R-CNN》-2017
內(nèi)容說明:
上述內(nèi)容僅個(gè)人的點(diǎn)滴粗見,如有不當(dāng)之處登下,請(qǐng)同行批評(píng)指正茫孔。