CVPR 2017 oral, 微軟亞洲研究院梅濤工作间螟,做細粒度分類肉迫。
就是網(wǎng)絡的疊加妓忍,從coarse to fine,三個scale網(wǎng)絡的疊加尝苇,前兩個scale多了APN去get感興趣區(qū)域铛只,輸入到后一個scale里面。
APN
attention proposal network:相較于RPN(object detection),用的是弱監(jiān)督的方式得到候選框糠溜。
實現(xiàn)方式:
在conv5之后淳玩,重接了兩個全連接,輸出三個值tx,ty,tl tx,ty為坐標非竿,tl為提取的候選框邊長的一半(那個框是個正方形)蜕着。
全連接后接的都是tanh
怎樣把crop的操作變成可以反向傳播呢?用boxcar functions(方脈沖函數(shù))去近似
crop之后,還有一個adaptively zooming 的過程
損失函數(shù)
有兩個部分承匣,scale的分類loss蓖乘,scale之間的 rank loss(為了保證finer scale的置信程度比caorser的高)
其中第一項就是普通的softmax loss,第二項的rank loss 計算如下:
Multi-scale Joint Representation
多尺度特征的一個融合: 把三個scale 的特征concat起來,然后再分類得到結果韧骗。
訓練細節(jié)
用imagenet初始化3個scale的classification 網(wǎng)絡嘉抒,2.找出響應最大的區(qū)域,預訓練apn. 3.交替訓練 classification 和APN(固定一個訓練另一個).