CAP:多重注意力機制白群,有趣的細粒度分類方案 | AAAI 2021

? 論文提出細粒度分類解決方案CAP竟痰,通過上下文感知的注意力機制來幫助模型發(fā)現(xiàn)細微的特征變化签钩。除了像素級別的注意力機制,還有區(qū)域級別的注意力機制以及局部特征編碼方法坏快,與以往的視覺方案很不同铅檩,值得一看
來源:曉飛的算法工程筆記 公眾號

論文: Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification

image

Introduction


? 論文認為大多數(shù)優(yōu)秀的細粒度圖像識別方法通過發(fā)掘目標的局部特征來輔助識別,卻沒有對局部信息進行標注莽鸿,而是采取弱監(jiān)督或無監(jiān)督的方式來定位局部特征位置昧旨。而且大部分的方法采用預(yù)訓(xùn)練的檢測器,無法很好地捕捉目標與局部特征的關(guān)系祥得。為了能夠更好地描述圖片內(nèi)容兔沃,需要更細致地考慮從像素到目標到場景的信息,不僅要定位局部特征/目標的位置级及,還要從多個維度描述其豐富且互補的特征粘拾,從而得出完整圖片/目標的內(nèi)容。
? 論文從卷積網(wǎng)絡(luò)的角度考慮如何描述目標创千,提出了context-aware attentional pooling(CAP)模塊,能夠高效地編碼局部特征的位置信息和外觀信息入偷。該模塊將卷積網(wǎng)絡(luò)輸出的特征作為輸入追驴,學(xué)習(xí)調(diào)整特征中不同區(qū)域的重要性,從而得出局部區(qū)域的豐富的外觀特征及其空間特征疏之,進而進行準確的分類殿雪。
? 論文的主要貢獻如下:

  • 提出在細粒度圖像識別領(lǐng)域的擴展模塊CAP,能夠簡單地應(yīng)用到各種卷積網(wǎng)絡(luò)中锋爪,帶來可觀的細粒度分類性能提升丙曙。
  • 為了捕捉目標/場景間的細微差別,提出由區(qū)域特征引導(dǎo)的上下文相關(guān)的attention特征其骄。
  • 提出可學(xué)習(xí)的池化操作亏镰,用于自動選擇循環(huán)網(wǎng)絡(luò)的隱藏狀態(tài)構(gòu)成空間和外觀特征。
  • 將提出的算法在8個細粒度數(shù)據(jù)集上進行測試拯爽,獲得SOTA結(jié)果索抓。
  • 分析不同的基礎(chǔ)網(wǎng)絡(luò),擴大CAP模塊的應(yīng)用范圍。

Proposed Approach


image

? 論文算法的整體流程如上圖所示逼肯,輸入圖片耸黑,輸出具體從屬類別,包含3個組件(3組參數(shù)):

  • 基礎(chǔ)CNN網(wǎng)絡(luò)\mathcal{F}(.;\theta_b)
  • CAP模塊\mathcal{F}(.;\theta_c)
  • 分類模塊\mathcal{F}(.;\theta_d)

Context-aware attentional pooling (CAP)

[圖片上傳失敗...(image-bc43b-1644805770766)]

? 定義卷積網(wǎng)絡(luò)輸出的特征為x=\mathcal{F}_b(I_n;\theta_b)篮幢,CAP的模塊綜合考慮像素級特征大刊、小區(qū)域特征、大區(qū)域特征以及圖片級特征的上下文信息進行分類三椿。

  • pixel-level contextual information

[圖片上傳失敗...(image-818dc8-1644805770766)]

? 像素級特征的上下文信息主要學(xué)習(xí)像素間的關(guān)聯(lián)度p(x_i|x_j;\theta_p)缺菌,在計算j位置的輸出時根據(jù)關(guān)聯(lián)度綜合所有其他像素特征,直接使用self-attention實現(xiàn)赋续,特征轉(zhuǎn)化使用1\times 1卷積男翰。這一步直接對主干網(wǎng)絡(luò)輸出的特征進行操作,但沒在整體流程圖中體現(xiàn)纽乱。

  • Proposing integral regions

? 為了更高效地學(xué)習(xí)上下文信息蛾绎,論文在特征圖o上定義不同粒度級別的基本區(qū)域,粒度級別由區(qū)域的大小決定鸦列。假設(shè)(i,j)位置上的最小的區(qū)域為r(i,j\Delta_x,\Delta_y)為例租冠,可通過放大寬高衍生出一系列區(qū)域R=\{r(i,j,m\Delta_x,n\Delta_y)\}i < i + m \Delta_x \le W薯嗤,j < j + n \Delta_y \le H顽爹。在不同的位置產(chǎn)生相似的區(qū)域合集R,得到最終的區(qū)域合集\mathcal{R}=\{R\}骆姐。\mathcal{R}覆蓋了所有的位置的不同寬高比區(qū)域镜粤,可以提供全面的上下文信息,幫助在圖片的不同層級提供細微特征玻褪。

  • Bilinear pooling

? 按照上一步肉渴,在特征圖上得到|\mathcal{R}|個區(qū)域,大小從最小的\Delta_x\times\Delta_y\times C到最大的W\times H\times C带射,論文的目標是將不同大小的區(qū)域表示為固定大小的特征同规,主要采用了雙線性插值。定義T_{\psi}(y)為坐標轉(zhuǎn)換函數(shù)窟社,y=(i,j)\in \mathbb{R}^c為區(qū)域坐標券勺,對應(yīng)的特征值為R(y)\in \mathbb{R}^C,則轉(zhuǎn)換后的圖片\tilde{R}\tilde{y}坐標上的值為:

image

? R(T_{\psi(y)})為采樣函數(shù)灿里,K(\cdots)為核函數(shù)关炼,這里采用的是最原始的方法,將目標坐標映射回原圖匣吊,取最近的四個點盗扒,按距離進行輸出跪楞,最終得到池化后的固定特征\bar{f}(w\times h\times C)

  • Context-aware attention
image

? 這里侣灶,論文使用全新的注意力機制來獲取上下文信息甸祭,根據(jù)\bar{f}_r與其他特征\bar{f}_{r^{'}}(r, r^{'}\in \mathcal{R})的相似性進行加權(quán)輸出,使得模型能夠選擇性地關(guān)注更相關(guān)的區(qū)域褥影,從而產(chǎn)生更全面的上下文信息池户。以查詢項q(\bar{f}_r)和一組關(guān)鍵詞項k(\bar{f}_{r^{'}}),輸出上下文向量c_r

image

? 參數(shù)矩陣W_{\beta}W_{\beta^{'}}用來將輸入特征轉(zhuǎn)換為查詢項核關(guān)鍵項凡怎,W_{\alpha}為非線性組合校焦,b_{\alpha}b_{\beta}為偏置項,整體的可學(xué)習(xí)參數(shù)為\{W_{\beta},W_{\beta^{'}},W_{\alpha},b_{\alpha},b_{\beta}\}\in\theta_c统倒,而注意力項\alpha_{r,r^{'}}則代表兩個特征之間的相似性寨典。這樣,上下文向量c_r能夠代表區(qū)域\bar{f}_r蘊含的上下文信息房匆,這些信息是根據(jù)其與其他區(qū)域的相關(guān)程度獲得的耸成,整體的計算思想跟self-attention基本相似。

  • Spatial structure encoding
image

? 上下文向量c=\{c_r|r=1,\cdots|\mathcal{R}|\}描述了區(qū)域的關(guān)鍵程度和特點浴鸿,為了進一步加入空間排列相關(guān)的結(jié)構(gòu)信息井氢,論文將區(qū)域的上下文向量c轉(zhuǎn)為區(qū)域序列(論文按上到下、左到右的順序)岳链,輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中花竞,使用循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏單元h_r\in\mathbb{R}^n來表達結(jié)構(gòu)特征。
? 區(qū)域r的中間特征可表示為h_r=\mathcal{F}_h(h_{r-1},f_r;\theta_h)掸哑,\mathcal{F}_h采用LSTM约急,\theta_h\in\theta_c包含LSTM的相關(guān)參數(shù)。為了增加泛化能力和減少計算量苗分,上下文特征f_r\in\mathbb{R}^{1\times C}c_r\in\mathbb{R}^{w\times h\times C}進行全局平均池化得到烤宙,最終輸出上下文特征序列f=(f_1,f_2,\cdots,f_r,\cdots,f_{|\mathcal{R}|})對應(yīng)的隱藏狀態(tài)序列h=(h_1,h_2,\cdots,h_r,\cdots,h_{|\mathcal{R}|}),后續(xù)用于分類模塊中俭嘁。

Classification

[圖片上傳失敗...(image-aab286-1644805770766)]

? 為了進一步引導(dǎo)模型分辨細微的變化,論文提出可學(xué)習(xí)的池化操作服猪,能夠通過組合響應(yīng)相似的隱藏層h_r來整合特征信息供填。論文借鑒NetVLAD的思想,用可導(dǎo)的聚類方法來對隱藏層的響應(yīng)值進行轉(zhuǎn)換罢猪,首先計算隱藏層響應(yīng)對類簇k的相關(guān)性近她,再加權(quán)到類簇k的VLAD encoding中:

[圖片上傳失敗...(image-2d95b2-1644805770766)]

? 每個類簇都有其可學(xué)習(xí)的參數(shù)W_ib_i,整體思想基于softmax膳帕,將隱藏層的響應(yīng)值按softmax的權(quán)重分配到不同的類簇中粘捎。在得到所有類簇的encoding向量后薇缅,使用可學(xué)習(xí)的權(quán)值W_N和softmax進行歸一化。因此攒磨,分類模塊\mathcal{F}_d的可學(xué)習(xí)參數(shù)為\theta_d=\{W_i, b_i, W_N\}泳桦。

Experiments and Discussion


[圖片上傳失敗...(image-d9e014-1644805770766)]

? 在不同的數(shù)據(jù)集上,對不同方法進行對比娩缰。

image

? 不同主干網(wǎng)絡(luò)下的準確率對比灸撰。

image

? 不同模塊輸出特征的可視化,圖b是加入CAP后拼坎,主干網(wǎng)絡(luò)輸出的特征浮毯。

Conclusion


? 論文提出細粒度分類解決方案CAP,通過上下文感知的注意力機制來幫助模型發(fā)現(xiàn)目標的細微特征變化泰鸡。除了像素級別的注意力機制债蓝,還有區(qū)域級別的注意力機制以及局部特征編碼方法,與以往的視覺方案很不同盛龄,值得一看饰迹。

?

?
?
?

如果本文對你有幫助,麻煩點個贊或在看唄~
更多內(nèi)容請關(guān)注 微信公眾號【曉飛的算法工程筆記】

work-life balance.
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末讯嫂,一起剝皮案震驚了整個濱河市蹦锋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌欧芽,老刑警劉巖莉掂,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異千扔,居然都是意外死亡憎妙,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門曲楚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來厘唾,“玉大人,你說我怎么就攤上這事龙誊「Ю” “怎么了?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵趟大,是天一觀的道長鹤树。 經(jīng)常有香客問我,道長逊朽,這世上最難降的妖魔是什么罕伯? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮叽讳,結(jié)果婚禮上追他,老公的妹妹穿的比我還像新娘坟募。我一直安慰自己,他們只是感情好邑狸,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布懈糯。 她就那樣靜靜地躺著,像睡著了一般推溃。 火紅的嫁衣襯著肌膚如雪昂利。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天铁坎,我揣著相機與錄音蜂奸,去河邊找鬼。 笑死硬萍,一個胖子當著我的面吹牛扩所,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播朴乖,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼祖屏,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了买羞?” 一聲冷哼從身側(cè)響起袁勺,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎畜普,沒想到半個月后期丰,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡吃挑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年钝荡,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片舶衬。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡埠通,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出逛犹,到底是詐尸還是另有隱情端辱,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布虽画,位于F島的核電站舞蔽,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏狸捕。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一众雷、第九天 我趴在偏房一處隱蔽的房頂上張望灸拍。 院中可真熱鬧做祝,春花似錦、人聲如沸鸡岗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽轩性。三九已至声登,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間揣苏,已是汗流浹背悯嗓。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留卸察,地道東北人脯厨。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像坑质,于是被迫代替她去往敵國和親合武。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容