1. 介紹
在機器視覺的問題中权旷,經(jīng)常要面對物體具有很大形變的情況。在可變形卷積v1中贯溅,引入了deformable conv和deformable RoIpooling來應對拄氯,它們對卷積和RoIpooling分布加入來offset,來使得神經(jīng)網(wǎng)絡關注真實的物體形狀它浅。
通過對引入offset后的感受野進行可視化译柏,作者發(fā)現(xiàn)卷積以及pooling的采樣點,采樣框姐霍,在特定的物體上進行了聚集鄙麦,但是這些感受野覆蓋的地方并不是特別的精確典唇,這可能導致引入了一些無關信息,作者發(fā)現(xiàn)這種問題在一些困難的任務中更加明顯胯府。
在這篇論文中介衔,作者提出了可變形卷積v2,DCNv2盟劫,它有更加強大的學習可變形卷積的能力。一是与纽,增加可變形卷積層數(shù)侣签,二是增加了調(diào)整模塊,也就是除了學習offset急迂,還學習了一個特征縮放(也就是權重)影所。
2. 可變形卷積分析
2.1 Spatial Support Visualization
為了更好地理解可變形卷積,作者可視化了神經(jīng)網(wǎng)絡中節(jié)點的有效感受野僚碎,有效采樣位置猴娩,以及error-bounded saliency regions。這三種形式反應了造成節(jié)點response的不同視角勺阐。
Effective receptive field 感受野里不同像素對于節(jié)點的貢獻是不同的卷中,它們貢獻的不同可以通過有效感受野來表示,有效感受野是通過節(jié)點的response對圖片每個像素點的intensity perturbations的梯度計算得到渊抽。
Effective sampling/bin locations 在可變形卷積v1中蟆豫,作者可視化了采樣點,或者采樣bin懒闷,但是它們的貢獻程度沒有刻畫出來十减,為此,作者在這里可視化了effective sampling/bin locations愤估,它通過節(jié)點對不同采樣點的梯度得到帮辟。
Error-bounded saliency regions 有時候直接去除圖片的一些沒有影響的區(qū)域,節(jié)點的值并不會改變玩焰。因此由驹,作者定義,一個節(jié)點的支持區(qū)域為圖片上能夠得到error-bounded的節(jié)點值的最小區(qū)域昔园。也就是error-bounded saliency region*荔棉。
2.2 Spatial Support of Deformable ConvNets
從左往右依次為小物體,大物體蒿赢,背景润樱。
從上往下依次為effective sampling locations, effective receptive field, and error-bounded saliency regions
普通卷積:
可變形卷積v1
可變形卷積v2(Effective sampling locations和v1類似,因此省略)
作者發(fā)現(xiàn):
- 普通的卷積有一定刻畫物體幾何形變的能力羡棵。
- 通過引入可變形卷積壹若,網(wǎng)絡刻畫幾何形變的能力得到了加強。spatial support區(qū)域擴展到了整個物體,對于背景店展,也變得更大了养篓。但是spatial support可能是不準確的
- 這三種可視化比deformable v1提出的可視化提供了更多的信息
論文中還展示了fc層的情況。
3. 更多的可變形卷積
3.1 堆疊更多的可變形卷積層
作者將resnet-50的conv3-5都的3*3卷積換成了可變形卷積
3.2 調(diào)整可變形卷積
作者在offset的基礎上加了調(diào)整模塊赂蕴,用于決定采樣點的權重柳弄,給定一個卷積的個采樣位置,
表示權重概说,
表示偏置碧注。因此,可變形卷積的結果可以表示為:
糖赔。
其中是學習到的偏置和權重萍丐。遇到小數(shù)作為偏置,采用bilinear插值放典。
因此逝变,輸出應該是個通道,前
個表示x和y的偏置奋构,最后
個表示的就是modulation scalars
壳影,它需要sigmoid來歸一化。
RoIpooling類似弥臼。
3.3 R-CNN Feature Mimicking
對于每個RoI分類節(jié)點來說态贤,它的error-bounded saliency region會超出這個RoI。這種多余的環(huán)境信息可能對結果有害醋火。
作者使用了feature mimicking來改善悠汽,讓可變形卷積關注更集中的部分,但是不應用于背景類別芥驳。如下圖
給定RoI柿冲,對應原圖的區(qū)域被crop并縮放成224*224大小。然后通過和R-CNN流程兆旬,區(qū)別是RoI是整個圖片假抄,最后的兩個FC得到這個patch的特征表示,用表示丽猬。用一個
維的softmax分類層宿饱,另一個Feature Mimicking,用于和左邊f(xié)aster 得到的特征進行對比得到一個loss脚祟。公式如下:
兩邊的參數(shù)是共享的谬以。