Feature Selective Anchor-Free Module for Single-Shot Object Detection

——FSAF,CVPR 2019

效果對(duì)比

摘要

本文提出feature selective anchor-free (FSAF) module斗躏,單階段檢測(cè)器的組成block,可以插入具有特征金字塔結(jié)構(gòu)的單階段檢測(cè)器。解決了基于anchor的檢測(cè)方法的兩個(gè)主要問題:1握联、啟發(fā)式的特征選擇(依賴于人為指定),2每瞒、基于IOU的特征采樣金闽。FSAF模塊進(jìn)行在線特征選擇,并且應(yīng)用于多級(jí)anchor-free分支的訓(xùn)練剿骨,每一分支來源于特征金字塔的每一層代芜,允許檢測(cè)框在任意層上進(jìn)行anchor-free的編碼和解碼。在訓(xùn)練過程中懦砂,動(dòng)態(tài)地將每個(gè)物體標(biāo)注分配至最合適的層蜒犯,在前向時(shí)组橄,F(xiàn)SAF可以通過并行或者聯(lián)合輸出預(yù)測(cè)與anchor-based分支一起完成檢測(cè),通過簡(jiǎn)單實(shí)現(xiàn)anchor-free分支和在線特征選擇策略來實(shí)現(xiàn)罚随。在COCO上的實(shí)驗(yàn)結(jié)果表明玉工,F(xiàn)SAF模塊相比anchor-based的對(duì)應(yīng)模型表現(xiàn)更好,同時(shí)更快淘菩。當(dāng)與anchor-based分支一起用時(shí)遵班,F(xiàn)SAF在不同設(shè)置下大幅度提升了RetinaNet的性能,而基本沒引入前向負(fù)擔(dān)潮改。(最優(yōu)模型44.6% mAP)

介紹

基于anchor的方法anchor-box的尺寸比例依賴于手工方法狭郑,但是特征與實(shí)例之間的匹配關(guān)系卻取決于實(shí)例的尺寸,這樣會(huì)帶來物體大小與特征層次不匹配的問題汇在。待檢測(cè)目標(biāo)通常存在尺度差異性翰萨,使用anchor boxes將所有的目標(biāo)離散化成不同尺寸、長(zhǎng)寬比的有限個(gè)boxes糕殉,因此將小的anchor boxes對(duì)應(yīng)到淺層特征亩鬼,大的anchor對(duì)應(yīng)到深層特征,ground truth boxes基于IoU匹配到不同的anchor boxes阿蝶。但是這樣做的缺陷在于可能gt匹配到的不是最接近的anchor boxes雳锋。

基于anchor的方法的特征選取

FSAF令每個(gè)物體自行選擇最合適的特征層次,因此就不應(yīng)該采用anchor-based的方式來限制特征選取羡洁,以anchor-free的方式對(duì)實(shí)例進(jìn)行編碼玷过,以學(xué)習(xí)分類和回歸的參數(shù)。FSAF模塊嵌入anchoer-based的網(wǎng)絡(luò)示意圖如下:

FSAF嵌入anchor-based方法

anchor-free分支與anchor-based分支并行筑煮,且同樣包含分類和回歸子網(wǎng)辛蚊,一個(gè)物體可以被分配到任一層特征的anchor-free分支,訓(xùn)練時(shí)咆瘟,為每個(gè)目標(biāo)動(dòng)態(tài)選擇最合適的特征層次嚼隘,被選擇的特征層次則學(xué)習(xí)檢測(cè)對(duì)應(yīng)的物體。FASF是back-bone無關(guān)的袒餐,能嵌入到任何一種包含特征金字塔的單階段檢測(cè)器中飞蛹,同時(shí)帶來較小的計(jì)算負(fù)擔(dān)。

與ResNeXt-101 based RetinaNet相比灸眼,精度提高1.8%卧檐,延遲只增加6ms。最好的模型44.6mAP焰宣。

以往的多層特征檢測(cè)的模型都采用了人為定義的anchor霉囚,如SSD,DSSD匕积,F(xiàn)PN盈罐,RetinaNet榜跌,DeNet等。

anchor-free的方法有:Dense-Box(全卷積直接預(yù)測(cè)檢測(cè)框)盅粪;UnitBox(IoU loss)

An anchor-free region proposal network for faster r-cnn based text detection approaches

基于關(guān)鍵點(diǎn)的檢測(cè):CornerNet钓葫,CenterNet,Object as Points

Feature Selective Anchor-Free Module

FSAF模塊

RetinaNet中FPN包含5層特征:P_3,P_4,P_5,P_6,P_7票顾,P_l的stride為2^l础浮,即相對(duì)原圖分辨率降低2^l,每層上都接一個(gè)分類和回歸子網(wǎng)奠骄,均為全卷積網(wǎng)絡(luò)豆同,預(yù)測(cè)anchor-box的類別和4個(gè)類別無關(guān)的位置偏移。

在RetinaNet的頂部含鳞,F(xiàn)SAF模塊在每個(gè)分支引入兩個(gè)額外的卷積層影锈,負(fù)責(zé)anchor-free分支的分類和回歸。具體而言民晒,K(類別)個(gè)3*3卷積+Sigmoid激活添加到分類分支精居,4個(gè)3*3卷積+ReLU添加到回歸分支。由此潜必,anchor free和anchor-based方法就能并行工作,同時(shí)共享特征沃但。

Ground-truth and Loss

ground truth box?b=[x,y,w,h](中心坐標(biāo)加寬高)磁滚,class?k,這個(gè)物體將被分配至第l層特征P_l

predicted box?b_p^l=[x_p^l,y_p^l,w_p^l,h_p^l]宵晚,有b_p^l = b/2^l

定義:

effective box?b_e^l=[x_e^l,y_e^l,w_e^l,h_e^l]垂攘,縮放比例系數(shù)為\epsilon _e = 0.2

ignoring box?b_i^l=[x_i^l,y_i^l,w_i^l,h_i^l],縮放比例系數(shù)為\epsilon_i = 0.5

分別作為predicted box的一部分淤刃,使得:

x_e^l=x_p^l,y_e^l=y_p^l,w_e^l=\epsilon_ew_p^l,h_e^l=\epsilon_eh_p^l

x_i^l=x_p^l,y_i^l=y_p^l,w_i^l=\epsilon_iw_p^l,h_i^l=\epsilon_ih_p^l

一個(gè)目標(biāo)的標(biāo)注產(chǎn)生如下圖:

focal loss forclassification and IoU loss for box regression

Classification Output:

分類輸出的標(biāo)注是K個(gè)圖晒他,每個(gè)圖對(duì)應(yīng)一個(gè)類。每個(gè)物體以三種方式影響第k個(gè)ground-truth map:

1逸贾、effective box?b_e^l表示是在某類標(biāo)注圖中顯示為白框的正樣本陨仅,表示實(shí)例的存在。

2铝侵、ignoring box?b_i^l減去effective box b_e^lb_i^l- b_e^l)表示上圖中灰色的區(qū)域灼伤,表示這部分區(qū)域的梯度不回傳;

3咪鲜、相鄰標(biāo)注圖中的ignoring boxes(b_i^{l-1},b_i^{l+1})同樣表示ignoring boxes狐赡,如果其存在的話。

如果兩個(gè)目標(biāo)的effective box在某一層特征圖上重疊疟丙,則較小的目標(biāo)具有較高的優(yōu)先級(jí)颖侄。剩下的區(qū)域?yàn)樨?fù)樣本(黑色的鸟雏,以0填充),表明沒有物體览祖。Focal loss用于分類網(wǎng)絡(luò)孝鹊,一張圖片的總分類損失來源于anchor-free分支的所有非ignoring box,并由所有effective boxes中的像素個(gè)數(shù)進(jìn)行正則化穴墅。

Box Regression Output:

回歸輸出的標(biāo)注是4個(gè)偏移圖(offset maps惶室,與類別無關(guān)),物體僅僅影響偏移圖中的effective box區(qū)域玄货,對(duì)于effective box中的每個(gè)像素位置(i,j)皇钞,將predicted box b_p^l表示為四維向量d_{i,j}^l=[d_{t_{i,j}}^l,d_{l_{i,j}}^l,d_{b_{i,j}}^l,d_{r_{i,j}}^l],其中松捉,d_t^l,d_l^l,d_b^l,d_r^l表示當(dāng)前像素位置與predicted box b_p^l的左夹界、上、底隘世、右邊的距離可柿。然后,將4個(gè)偏移圖上的(i,j)位置處的4維向量設(shè)置為d_{i,j}^l/S丙者,其中每個(gè)圖對(duì)應(yīng)于一個(gè)維度复斥,S是歸一化常數(shù),設(shè)為4.0械媒。IoU loss應(yīng)用于回歸分支目锭,總的回歸損失是所有effective box?b_e^l的IoU loss的平均值。

在前向時(shí)纷捞,直接由分類和回歸輸出編碼得到預(yù)測(cè)框痢虹,在每個(gè)像素位置(i,j),假設(shè)預(yù)測(cè)的偏移為

預(yù)測(cè)偏移

預(yù)測(cè)的距離為

預(yù)測(cè)距離

預(yù)測(cè)框的左上角和右下角為:

左上角
右下角

最后以2^l縮放預(yù)測(cè)框來得到原圖上的檢測(cè)框主儡〗蔽ǎ可以通過分類輸出圖上的位置(i,j)處的最大分?jǐn)?shù)和K維向量的對(duì)應(yīng)類來確定框的置信度得分和類別。

Online Feature Selection:

anchor free分支允許使用任意層的特征P_l進(jìn)行學(xué)習(xí)糜值,F(xiàn)SAF根據(jù)目標(biāo)的語義來選擇最合適的特征P_l丰捷,而不僅僅是根據(jù)目標(biāo)的尺寸(anchor-based)。

給定一個(gè)目標(biāo)I臀玄,定義在某層特征圖P_l上的分類損失和回歸損失為L_{FL}^I(l),L_{IoU}^L(l)瓢阴,計(jì)算方法為:


損失的計(jì)算

N(b_e^l)表示effective boxb_e^l中的像素個(gè)數(shù)。FL(l,i,j),IoU(l,i,j)表示在特征圖P_l上位置(i,j)處的focal loss和IoU loss健无。

在線特征選擇如圖:

在線特征選擇

一個(gè)目標(biāo)將經(jīng)過所有層上的anchor free分支荣恐,計(jì)算每層上的分類損失和回歸損失,并得到他們的和,然后叠穆,選擇使得損失和最小的特征層作為特征選取層

根據(jù)每層分類回歸損失和在線選擇特征

訓(xùn)練中少漆,對(duì)于一個(gè)batch,將更新其相應(yīng)分配的目標(biāo)的的特征硼被,因此所選特征目前是建模實(shí)例的最佳特征示损,它的損失形成了特征空間的下界,訓(xùn)練過程中嚷硫,將不斷降低這個(gè)下界检访。

在infer時(shí),我們不需要選擇特征仔掸,因?yàn)樽詈线m的特征金字塔層級(jí)將自然地輸出高置信度分?jǐn)?shù)脆贵。

為了驗(yàn)證這個(gè)在線特征選擇的重要性,同樣構(gòu)建一個(gè)啟發(fā)式的選擇方式(FPN起暮,僅僅根據(jù)尺度來選擇)卖氨,一個(gè)目標(biāo)I被分配的層級(jí)為:

特征層級(jí)選取

l_0是w×h = 224^2的目標(biāo)應(yīng)該映射到的特征層級(jí)。

此處负懦,l_0=5筒捺,表示ResNet使用第五組卷積特征進(jìn)行分類。

Joint Inference and Training

將FSAF嵌入到RetinaNet纸厉,能與anchor based的分支并行系吭,保持anchor based分支的參數(shù)不變(訓(xùn)練和前向都不變)

Inference:

FSAF僅僅增加了幾個(gè)卷積層,前向依然很簡(jiǎn)單颗品。對(duì)于anchor free分支村斟,在對(duì)置信度得分(confidence score)進(jìn)行閾值處理(閾值0.05)后,只解碼每個(gè)金字塔特征層級(jí)中最多1k個(gè)得分位置的邊框預(yù)測(cè)抛猫。來自所有層級(jí)的這些較好的預(yù)測(cè)與來自anchor based的分支的邊框預(yù)測(cè)合并,隨后是具有閾值0.5的非極大值抑制孩灯,從而產(chǎn)生最終檢測(cè)闺金。

Initialization:

ResNet在ImageNet 1k上預(yù)訓(xùn)練,遵循RetinaNet對(duì)其進(jìn)行初始化峰档,對(duì)于FSAF的幾個(gè)卷積败匹,以高斯分布進(jìn)行權(quán)重初始化(方差0.01),偏移為-1og((1-\pi )/\pi )讥巡,\pi = 0.01表明在訓(xùn)練的初始階段掀亩,每個(gè)位置產(chǎn)生objectness score在0.01周圍』肚辏回歸分支的權(quán)重初始化為方差為0.01的高斯分布槽棍,偏移為0.1,保證網(wǎng)絡(luò)初始訓(xùn)練階段穩(wěn)定,損失不會(huì)太大炼七。

Optimization:

網(wǎng)絡(luò)的整體損失為anchor free損失和anchor based損失缆巧,令L^{ab}表示RetinaNet的anchor based的總損失,L_{cls}^{af},L_{reg}^{af}分別為anchor free分支的總分類和總回歸損失豌拙,網(wǎng)絡(luò)的總損失為:\lambda  = 0.5

網(wǎng)絡(luò)總損失

網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié):

stochastic gradientdescent (SGD) on 8 GPUs with 2 images per GPU.

?如非說明陕悬,all models are trained for 90k iterationswith an initial learning rate of 0.01, which is divided by 10 at 60k and again at 80k iterations.?

Horizontal image flipping is the only applied data augmentation unless otherwise specified.?

Weight decay is 0.0001 and momentum is 0.9.

Experiments

為了驗(yàn)證anchor free 分支的作用,消融實(shí)驗(yàn)如下:

ResNet-50 on COCO minival
對(duì)比實(shí)驗(yàn)

AB:Anchor-based branches. R: ResNet. X: ResNeXt.

可視化:

結(jié)果對(duì)比
Visualization of online feature selection from anchor-free branches

數(shù)字表示選取的特征層級(jí)按傅。

與其他方法對(duì)比:

與其他方法對(duì)比
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末捉超,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子唯绍,更是在濱河造成了極大的恐慌拼岳,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件推捐,死亡現(xiàn)場(chǎng)離奇詭異裂问,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)牛柒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門堪簿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人皮壁,你說我怎么就攤上這事椭更。” “怎么了蛾魄?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵虑瀑,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我滴须,道長(zhǎng)舌狗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任扔水,我火速辦了婚禮痛侍,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘魔市。我一直安慰自己主届,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布待德。 她就那樣靜靜地躺著君丁,像睡著了一般。 火紅的嫁衣襯著肌膚如雪将宪。 梳的紋絲不亂的頭發(fā)上绘闷,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天橡庞,我揣著相機(jī)與錄音,去河邊找鬼簸喂。 笑死毙死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的喻鳄。 我是一名探鬼主播扼倘,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼除呵!你這毒婦竟也來了再菊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤颜曾,失蹤者是張志新(化名)和其女友劉穎纠拔,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泛豪,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡稠诲,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了诡曙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片臀叙。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖价卤,靈堂內(nèi)的尸體忽然破棺而出劝萤,到底是詐尸還是另有隱情,我是刑警寧澤慎璧,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布床嫌,位于F島的核電站,受9級(jí)特大地震影響胸私,放射性物質(zhì)發(fā)生泄漏厌处。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一岁疼、第九天 我趴在偏房一處隱蔽的房頂上張望嘱蛋。 院中可真熱鬧,春花似錦五续、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至郭毕,卻和暖如春它碎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來泰國打工扳肛, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留傻挂,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓挖息,卻偏偏與公主長(zhǎng)得像金拒,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子套腹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354