目標(biāo)檢測(cè)中的上下文信息

Attentive Contexts for Object Detection

論文地址:https://arxiv.org/pdf/1603.07415.pdf

研究動(dòng)機(jī)
現(xiàn)代目標(biāo)檢測(cè)器通常只利用建議目標(biāo)區(qū)域內(nèi)部的特征進(jìn)行分類很钓。
考慮以下兩個(gè)問題:
如何識(shí)別有用的全局上下文信息來檢測(cè)某個(gè)目標(biāo)炕置?
如何利用目標(biāo)周圍區(qū)域的信息更好地推斷其內(nèi)容?
直觀地說,圖像背景的全局視圖可以提供有用的上下文信息踩衩。例如责静,如果要在圖像中檢測(cè)特定的汽車墨缘,通常與目標(biāo)共存的對(duì)象(如人星虹、道路或其他汽車)可能會(huì)為目標(biāo)檢測(cè)提供有用的線索零抬。然而,并非所有的背景信息對(duì)提高目標(biāo)檢測(cè)性能都是有用的宽涌,加入無意義的背景噪聲甚至可能損害檢測(cè)性能平夜。因此,識(shí)別有用的上下文信息是必要的卸亮。除了這樣的“全局”環(huán)境外忽妒,還可以看到目標(biāo)周圍區(qū)域?yàn)橥茢嗄繕?biāo)的內(nèi)容提供一些有用的提示。例如嫡良,周圍環(huán)境(例如道路)和物體的部位(例如車輪)有助于檢測(cè)目標(biāo)(例如汽車)锰扶。

圖1. 結(jié)合局部和全局上下文信息指導(dǎo)目標(biāo)檢測(cè)的說明献酗。對(duì)于局部上下文寝受,在特定建議目標(biāo)框之外,使用內(nèi)部和外部上下文信息來增強(qiáng)特征表示罕偎。對(duì)于全局上下文很澄,使用基于注意的循環(huán)模型從全局視圖獲取上下文信息(高亮顯示的區(qū)域)。

作者主要貢獻(xiàn)
a. 提出Attention to Context CNN (AC-CNN)颜及,幫忙檢測(cè)器同時(shí)獲取全局和局部上下文特征甩苛。
b. 基于注意力的循環(huán)模型和局部上下文提取網(wǎng)絡(luò)。
c. 在公開數(shù)據(jù)PASCAL VOC 2007和VOC 2012分別由2.0%和2.2%的性能提升俏站。

下面開始分別介紹:
a. Attention to Context CNN (AC-CNN)


圖2. AC-CNN包括兩個(gè)主要的子網(wǎng)絡(luò)讯蒲,即基于注意力的全局上下文子網(wǎng)絡(luò)和多尺度局部上下文子網(wǎng)絡(luò)。圖像首先被送入卷積網(wǎng)絡(luò)以產(chǎn)生特征立方體肄扎。然后通過多尺度上下文子網(wǎng)絡(luò)對(duì)特征進(jìn)行局部上下文信息提取墨林。每個(gè)建議區(qū)域的邊界框用三個(gè)預(yù)定義的因子進(jìn)行縮放,邊界框中的特征表示由ROIPooling層提取犯祠。每個(gè)特征表示旭等,經(jīng)過L2歸一化、連接衡载、縮放搔耕、尺寸縮小,然后被送入兩個(gè)全連接的層痰娱。在基于注意的上下文子網(wǎng)絡(luò)中弃榨,特征立方體首先被集合成一個(gè)具有固定比例的立方體。然后梨睁,采用三個(gè)LSTM層的循環(huán)注意力模型惭墓,從全局角度對(duì)有用區(qū)域進(jìn)行循環(huán)檢測(cè)。最后而姐,基于計(jì)算出的注意圖腊凶,將全局上下文特征集合起來,并將其輸入到兩個(gè)全連接的層中。AC-CNN使用多尺度上下文子網(wǎng)絡(luò)的輸出特征進(jìn)行目標(biāo)邊界框回歸钧萍。兩個(gè)子網(wǎng)絡(luò)輸出的連接特征用于目標(biāo)分類褐缠。

b. 具體介紹下循環(huán)注意力模型吧,局部上下文網(wǎng)絡(luò)圖2已經(jīng)說的很明白了风瘦。
將特征立方體中的特征切片表示為X=[x_i,...,x_{K^2}]队魏,其中x_i(i=1,...,K^2)具有D維特征。將X輸入3層Long Short-Term Memory (LSTM)單元万搔。LSTM的實(shí)現(xiàn)可以參考[26]

\begin{pmatrix} i_t \\ f_t \\ o_t \\ g_t \end{pmatrix}= \begin{pmatrix} \sigma \\ \sigma \\ \sigma \\ tanh \end{pmatrix}M \begin{pmatrix} h_{t-1} \\ x_t \end{pmatrix}
c_t=f_t \odot c_{t-1}+i_t \odot g_t
h_t=o_t \odot tanh(c_t)

圖3. LSTM結(jié)構(gòu)

其中i_t,f_t,c_t,o_th_t分別為輸入門胡桨,遺忘門,細(xì)胞狀態(tài)瞬雹,輸出門和隱藏狀態(tài)昧谊。x_tt時(shí)刻的輸入。M \in R^{a \times b}是一個(gè)仿射變換矩陣酗捌,其中a=d+D, b=4d呢诬,di_t,f_t,c_t,o_th_t的維度。\sigma代表sigmoid激活函數(shù)胖缤,\odot表示逐元素相乘尚镰。
t時(shí)刻,注意力模型預(yù)測(cè)得到權(quán)重圖l_{t+1}哪廓,然后在K \times K位置上經(jīng)過激活函數(shù)softmax狗唉。這是從全局角度對(duì)輸入圖像中相應(yīng)區(qū)域是否有利于對(duì)象分類的概率估計(jì)。t時(shí)刻處的一個(gè)位置上的softmax計(jì)算如下
l_{t,i}=p(L_t=i|h_{t-1})=\frac{exp(W_i^\top h_{t-1})}{\sum_{j=1}^{K\times K}exp(W_j^\top h_t-1)}, i\in \{1...K^2\}
其中W_i是第i^{th}位置的元素的映射權(quán)重涡真,L_t是值為1-K^2中的隨機(jī)變量分俯。利用這些概率,可以根據(jù)軟注意機(jī)制综膀,通過對(duì)不同區(qū)域特征切片的期望值來計(jì)算有用特征[27]澳迫。得到的這一時(shí)刻的特征作為L(zhǎng)STM的輸入繼續(xù)計(jì)算下一時(shí)刻的特征:
x_t=\sum_{i=1}^{K^2}l_{t,i}X_{t,i}
其中,X_{t,i}t時(shí)刻特征立方體的i切片剧劝。

細(xì)胞狀態(tài)c_t和隱藏狀態(tài)h_t用[22]中的策略進(jìn)行初始化以加速網(wǎng)絡(luò)收斂
c_0=f_{init,c}(\frac{1}{K^2}\sum_{i=1}^{K^2}X_{t,i})
h_0=f_{init,h}(\frac{1}{K^2}\sum_{i=1}^{K^2}X_{t,i})
其中f_{init,c}f_{init,h}是2個(gè)多層感知機(jī)橄登。這些用來計(jì)算決定初始輸入x_1的第一個(gè)位置softmaxl_1

圖4說明了生成全局注意力特征的過程讥此÷G拢可以觀察到,根據(jù)注意力位置圖萄喳,將所有位置的特征結(jié)合起來卒稳,可以得到一個(gè)基于注意力的全局三維特征。最后他巨,該特征通過兩個(gè)全連接的層充坑,生成具有全局上下文信息的p的特征表示减江,可以表示為F_G

圖4. 演示如何生成全局注意力特征捻爷。利用基于注意力的上下文子網(wǎng)絡(luò)辈灼,計(jì)算出一個(gè)KxK注意力空間特征圖,將所有位置的特征選擇性地組合成一個(gè)1x1xD維的全局注意特征也榄。

實(shí)驗(yàn)在VOC2007和2012上的mAP分別是72.0和70.6巡莹。最后貼一個(gè)局部和全局子網(wǎng)絡(luò)的貢獻(xiàn)對(duì)比。


圖5. 局部和全局子網(wǎng)絡(luò)有效性對(duì)比甜紫。

[22] Xu, K., Ba, J., Kiros, R., Courville, A., Salakhutdinov, R., Zemel, R., Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention. arXiv preprint arXiv:1502.03044 (2015)
[26] Sharma, S., Kiros, R., Salakhutdinov, R.: Action recognition using visual attention. arXiv preprint arXiv:1511.04119 (2015)
[27] Bahdanau, D., Cho, K., Bengio, Y.: Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473 (2014)

Object detection via a multi-region & semantic segmentation-aware CNN model

論文地址:https://arxiv.org/pdf/1505.01749.pdf
代碼:https://github.com/gidariss/mrcnn-object-detection
論文提出一種基于多區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)器降宅,且能夠編碼基于分割的語義信息。其還包含囚霸,一個(gè)迭代定位機(jī)制腰根,交替地為目標(biāo)建議窗口打分,以及精確位置的回歸邮辽。

研究動(dòng)機(jī)
目標(biāo)表征是目標(biāo)檢測(cè)中的核心唠雕。目標(biāo)表征分為2個(gè)層級(jí)贸营。
(1)在第一個(gè)層次上吨述,我們希望我們的對(duì)象表示能夠捕獲對(duì)象的幾個(gè)不同方面,比如它的純粹外觀特征钞脂、不同區(qū)域(目標(biāo)的子區(qū)域)的明顯外觀揣云、上下文外觀、對(duì)象邊界兩側(cè)的聯(lián)合外觀和語義冰啃。如圖1所示邓夕。

圖1. 左圖:在這個(gè)場(chǎng)景中,如果不參考背景阎毅、山岳景觀焚刚,就很難發(fā)現(xiàn)綿羊。中間:相反扇调,圖中的上下文只能混淆對(duì)船只的檢測(cè)矿咕。在這種情況下,識(shí)別模型應(yīng)該關(guān)注純粹的目標(biāo)特性狼钮。右圖:該車實(shí)例右側(cè)被遮擋碳柱,識(shí)別模型應(yīng)集中在左側(cè),以增加檢測(cè)置信度熬芜。

(2)在第二個(gè)層次上莲镣,受分割與檢測(cè)之間并沒關(guān)聯(lián)的啟發(fā),我們希望能在提升檢測(cè)的表征涎拉,從而也能捕獲語義分割信息瑞侮。

除了目標(biāo)表征外的圆,論文工作還受到以下觀察結(jié)果的激勵(lì):由于最近的CNN模型具有巨大的分類能力,因此良好的檢測(cè)性能的瓶頸現(xiàn)在是準(zhǔn)確的目標(biāo)定位半火。

所以論文的核心研究?jī)?nèi)容是略板,如何更好地抽取好的特征,并更加精確的定位目標(biāo)慈缔。
作者的貢獻(xiàn)主要有3個(gè):
a. 提出一個(gè)多區(qū)域CNN來增強(qiáng)特征
b. 提出一個(gè)語義分割啟發(fā)式CNN再進(jìn)一步增強(qiáng)特征
c. 提出一個(gè)基于CNN的定位回歸方法叮称,另外還提出2個(gè)tricks來優(yōu)化定位。
下面來一個(gè)一個(gè)的說藐鹤。

a. 多區(qū)域CNN


圖2. 多區(qū)域CNN結(jié)構(gòu)瓤檐。為了清楚起見,我們只介紹了其中的四個(gè)區(qū)域娱节∧域龋“adaptive max pooling”為自適應(yīng)區(qū)域池化ROIPool[13](只含有一級(jí)金字塔)

圖2詳細(xì)描述了多區(qū)域CNN的結(jié)構(gòu)。從輸入圖像中通過多層卷積計(jì)算特征圖肄满,得到激活的特征圖(activation maps of input image)谴古。
然后在特征圖上對(duì)目標(biāo)進(jìn)行多區(qū)域提取(ROIPool)稠歉。

作者一共提出了4種共10個(gè)區(qū)域:
(1)原始區(qū)域掰担,就是目標(biāo)建議區(qū)域的原始位置,對(duì)應(yīng)圖3的中a
(2)截半怒炸,對(duì)應(yīng)圖3的b-e
(3)中心區(qū)域带饱,對(duì)應(yīng)圖3中g(shù)和h
(4)邊界區(qū)域,對(duì)應(yīng)圖3中i和j


圖3. 多區(qū)域特征提取中的區(qū)域阅羹。

作者認(rèn)為這樣多區(qū)域的好處有兩個(gè)
(1)不同的區(qū)域是關(guān)注目標(biāo)的不同子區(qū)域勺疼,所以他們應(yīng)該是互補(bǔ)的,能夠增強(qiáng)特征的多樣性捏鱼。
(2)認(rèn)為這個(gè)方法能夠有效應(yīng)對(duì)object proposal時(shí)候定位不準(zhǔn)確的問題执庐,并在6.2和6.3通過實(shí)驗(yàn)驗(yàn)證。

b. 語義分割啟發(fā)式CNN

圖4.

這里的動(dòng)機(jī)是通過分割的特征來輔助檢測(cè)导梆。然后這里訓(xùn)練分割用的是很出名的FCN[23]的流程了轨淌,不過這里需要用分割的標(biāo)注,而是用bbox就好了问潭,簡(jiǎn)單粗暴地把bbox里面認(rèn)為是前景猿诸,外面認(rèn)為是背景即可

雖然表面看似這樣的標(biāo)注很粗暴狡忙,很多像素都會(huì)錯(cuò)標(biāo)梳虽,但是CNN的糾錯(cuò)能力是很強(qiáng)的,就是將那些標(biāo)錯(cuò)的像素都看成是噪聲灾茁,CNN依然能夠根據(jù)更多的標(biāo)對(duì)的像素來學(xué)習(xí)出來一個(gè)還不錯(cuò)的模型(如圖5的右列)窜觉。


圖5. 使用FCN[23]作為語義分段感知CNN特征的激活圖模塊的弱監(jiān)督訓(xùn)練的說明谷炸。左圖:帶有真實(shí)標(biāo)注邊界框的圖像。從上到下依次描述的類別是馬禀挫、人和狗旬陡。中圖:FCN訓(xùn)練使用的分割目標(biāo)值。它們是由左欄上的人工標(biāo)注的目標(biāo)邊界框生成的语婴。我們用藍(lán)色作為背景描孟,用紅色作為前景。右圖:根據(jù)我們訓(xùn)練的FCN模型估計(jì)的前景概率砰左。這些都清楚地證明匿醒,盡管訓(xùn)練的監(jiān)督性很弱,提取的特征仍然帶有重要的語義分割信息缠导。

用上述的方法訓(xùn)練出來一個(gè)還不錯(cuò)的分割CNN后廉羔,摘到最后一層,也加到上面的多區(qū)域CNN上僻造,進(jìn)一步增強(qiáng)特征憋他。如圖4所示。

c. 目標(biāo)定位
這一步髓削,對(duì)應(yīng)的是RCNN或者SPP-Net的最后一步竹挡,也就是得到結(jié)果之后,對(duì)位置重新進(jìn)行一次回歸蔬螟,不過這里做了幾點(diǎn)的改進(jìn):
(1)使用CNN來訓(xùn)練回歸器(在RCNN中是使用簡(jiǎn)單的函數(shù)來訓(xùn)練回歸器的)此迅,具體來說跟Fast RCNN比較像啦汽畴,輸出是4xC個(gè)值旧巾,其中C是類別個(gè)數(shù),不過這里直接用L2 loss擬合忍些。
(2)迭代優(yōu)化鲁猩,跟DeepFace比較像,也就是罢坝,利用分類器打一個(gè)分廓握,然后篩掉低分的,對(duì)于剩下的高分的proposal重新回歸位置嘁酿,之后根據(jù)這個(gè)重新回歸的位置再利用分類器打個(gè)分隙券,然后再回歸一次位置。
(3)投票機(jī)制闹司,上述兩步會(huì)在每個(gè)object附近都產(chǎn)生不少bbox娱仔,這里利用上附近的bbox進(jìn)行投票打分,具體來說游桩,取一個(gè)最高分的bbox牲迫,然后還有它附近跟他overlap超過0.5的bbox耐朴,最后的bbox位置是他們的加權(quán)平均(權(quán)值為overlap)。

[13] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv preprint arXiv:1406.4729, 2014. 3, 8, 9
[23] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. arXiv preprint arXiv:1411.4038, 2014. 6, 8

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末盹憎,一起剝皮案震驚了整個(gè)濱河市筛峭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌陪每,老刑警劉巖影晓,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異檩禾,居然都是意外死亡俯艰,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人源内,你說我怎么就攤上這事眉尸。” “怎么了雹拄?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我芹关,道長(zhǎng),這世上最難降的妖魔是什么紧卒? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任侥衬,我火速辦了婚禮,結(jié)果婚禮上跑芳,老公的妹妹穿的比我還像新娘轴总。我一直安慰自己,他們只是感情好博个,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布怀樟。 她就那樣靜靜地躺著,像睡著了一般盆佣。 火紅的嫁衣襯著肌膚如雪往堡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天共耍,我揣著相機(jī)與錄音虑灰,去河邊找鬼。 笑死痹兜,一個(gè)胖子當(dāng)著我的面吹牛穆咐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播佃蚜,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼庸娱,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼着绊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起熟尉,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤归露,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后斤儿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體剧包,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年往果,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了疆液。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡陕贮,死狀恐怖堕油,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肮之,我是刑警寧澤掉缺,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站戈擒,受9級(jí)特大地震影響眶明,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜筐高,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一搜囱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧柑土,春花似錦蜀肘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至诫欠,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間浴栽,已是汗流浹背荒叼。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留典鸡,地道東北人被廓。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像萝玷,于是被迫代替她去往敵國和親嫁乘。 傳聞我的和親對(duì)象是個(gè)殘疾皇子昆婿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354