? 論文提出細粒度分類解決方案CAP竟痰,通過上下文感知的注意力機制來幫助模型發(fā)現(xiàn)細微的特征變化签钩。除了像素級別的注意力機制,還有區(qū)域級別的注意力機制以及局部特征編碼方法坏快,與以往的視覺方案很不同铅檩,值得一看
來源:曉飛的算法工程筆記 公眾號
論文: Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification
Introduction
? 論文認為大多數(shù)優(yōu)秀的細粒度圖像識別方法通過發(fā)掘目標的局部特征來輔助識別,卻沒有對局部信息進行標注莽鸿,而是采取弱監(jiān)督或無監(jiān)督的方式來定位局部特征位置昧旨。而且大部分的方法采用預(yù)訓(xùn)練的檢測器,無法很好地捕捉目標與局部特征的關(guān)系祥得。為了能夠更好地描述圖片內(nèi)容兔沃,需要更細致地考慮從像素到目標到場景的信息,不僅要定位局部特征/目標的位置级及,還要從多個維度描述其豐富且互補的特征粘拾,從而得出完整圖片/目標的內(nèi)容。
? 論文從卷積網(wǎng)絡(luò)的角度考慮如何描述目標创千,提出了context-aware attentional pooling(CAP)模塊,能夠高效地編碼局部特征的位置信息和外觀信息入偷。該模塊將卷積網(wǎng)絡(luò)輸出的特征作為輸入追驴,學(xué)習(xí)調(diào)整特征中不同區(qū)域的重要性,從而得出局部區(qū)域的豐富的外觀特征及其空間特征疏之,進而進行準確的分類殿雪。
? 論文的主要貢獻如下:
- 提出在細粒度圖像識別領(lǐng)域的擴展模塊CAP,能夠簡單地應(yīng)用到各種卷積網(wǎng)絡(luò)中锋爪,帶來可觀的細粒度分類性能提升丙曙。
- 為了捕捉目標/場景間的細微差別,提出由區(qū)域特征引導(dǎo)的上下文相關(guān)的attention特征其骄。
- 提出可學(xué)習(xí)的池化操作亏镰,用于自動選擇循環(huán)網(wǎng)絡(luò)的隱藏狀態(tài)構(gòu)成空間和外觀特征。
- 將提出的算法在8個細粒度數(shù)據(jù)集上進行測試拯爽,獲得SOTA結(jié)果索抓。
- 分析不同的基礎(chǔ)網(wǎng)絡(luò),擴大CAP模塊的應(yīng)用范圍。
Proposed Approach
? 論文算法的整體流程如上圖所示逼肯,輸入圖片耸黑,輸出具體從屬類別,包含3個組件(3組參數(shù)):
- 基礎(chǔ)CNN網(wǎng)絡(luò)
- CAP模塊
- 分類模塊
Context-aware attentional pooling (CAP)
[圖片上傳失敗...(image-bc43b-1644805770766)]
? 定義卷積網(wǎng)絡(luò)輸出的特征為篮幢,CAP的模塊綜合考慮像素級特征大刊、小區(qū)域特征、大區(qū)域特征以及圖片級特征的上下文信息進行分類三椿。
-
pixel-level contextual information
[圖片上傳失敗...(image-818dc8-1644805770766)]
? 像素級特征的上下文信息主要學(xué)習(xí)像素間的關(guān)聯(lián)度缺菌,在計算
位置的輸出時根據(jù)關(guān)聯(lián)度綜合所有其他像素特征,直接使用self-attention實現(xiàn)赋续,特征轉(zhuǎn)化使用
卷積男翰。這一步直接對主干網(wǎng)絡(luò)輸出的特征進行操作,但沒在整體流程圖中體現(xiàn)纽乱。
-
Proposing integral regions
? 為了更高效地學(xué)習(xí)上下文信息蛾绎,論文在特征圖上定義不同粒度級別的基本區(qū)域,粒度級別由區(qū)域的大小決定鸦列。假設(shè)
位置上的最小的區(qū)域為
為例租冠,可通過放大寬高衍生出一系列區(qū)域
,
薯嗤,
顽爹。在不同的位置產(chǎn)生相似的區(qū)域合集
,得到最終的區(qū)域合集
骆姐。
覆蓋了所有的位置的不同寬高比區(qū)域镜粤,可以提供全面的上下文信息,幫助在圖片的不同層級提供細微特征玻褪。
-
Bilinear pooling
? 按照上一步肉渴,在特征圖上得到個區(qū)域,大小從最小的
到最大的
带射,論文的目標是將不同大小的區(qū)域表示為固定大小的特征同规,主要采用了雙線性插值。定義
為坐標轉(zhuǎn)換函數(shù)窟社,
為區(qū)域坐標券勺,對應(yīng)的特征值為
,則轉(zhuǎn)換后的圖片
的
坐標上的值為:
? 為采樣函數(shù)灿里,
為核函數(shù)关炼,這里采用的是最原始的方法,將目標坐標映射回原圖匣吊,取最近的四個點盗扒,按距離進行輸出跪楞,最終得到池化后的固定特征
。
-
Context-aware attention
? 這里侣灶,論文使用全新的注意力機制來獲取上下文信息甸祭,根據(jù)與其他特征
的相似性進行加權(quán)輸出,使得模型能夠選擇性地關(guān)注更相關(guān)的區(qū)域褥影,從而產(chǎn)生更全面的上下文信息池户。以查詢項
和一組關(guān)鍵詞項
,輸出上下文向量
:
? 參數(shù)矩陣和
用來將輸入特征轉(zhuǎn)換為查詢項核關(guān)鍵項凡怎,
為非線性組合校焦,
和
為偏置項,整體的可學(xué)習(xí)參數(shù)為
统倒,而注意力項
則代表兩個特征之間的相似性寨典。這樣,上下文向量
能夠代表區(qū)域
蘊含的上下文信息房匆,這些信息是根據(jù)其與其他區(qū)域的相關(guān)程度獲得的耸成,整體的計算思想跟self-attention基本相似。
-
Spatial structure encoding
? 上下文向量描述了區(qū)域的關(guān)鍵程度和特點浴鸿,為了進一步加入空間排列相關(guān)的結(jié)構(gòu)信息井氢,論文將區(qū)域的上下文向量
轉(zhuǎn)為區(qū)域序列(論文按上到下、左到右的順序)岳链,輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中花竞,使用循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏單元
來表達結(jié)構(gòu)特征。
? 區(qū)域的中間特征可表示為
掸哑,
采用LSTM约急,
包含LSTM的相關(guān)參數(shù)。為了增加泛化能力和減少計算量苗分,上下文特征
由
進行全局平均池化得到烤宙,最終輸出上下文特征序列
對應(yīng)的隱藏狀態(tài)序列
,后續(xù)用于分類模塊中俭嘁。
Classification
[圖片上傳失敗...(image-aab286-1644805770766)]
? 為了進一步引導(dǎo)模型分辨細微的變化,論文提出可學(xué)習(xí)的池化操作服猪,能夠通過組合響應(yīng)相似的隱藏層來整合特征信息供填。論文借鑒NetVLAD的思想,用可導(dǎo)的聚類方法來對隱藏層的響應(yīng)值進行轉(zhuǎn)換罢猪,首先計算隱藏層響應(yīng)對類簇
的相關(guān)性近她,再加權(quán)到類簇
的VLAD encoding中:
[圖片上傳失敗...(image-2d95b2-1644805770766)]
? 每個類簇都有其可學(xué)習(xí)的參數(shù)和
,整體思想基于softmax膳帕,將隱藏層的響應(yīng)值按softmax的權(quán)重分配到不同的類簇中粘捎。在得到所有類簇的encoding向量后薇缅,使用可學(xué)習(xí)的權(quán)值
和softmax進行歸一化。因此攒磨,分類模塊
的可學(xué)習(xí)參數(shù)為
泳桦。
Experiments and Discussion
[圖片上傳失敗...(image-d9e014-1644805770766)]
? 在不同的數(shù)據(jù)集上,對不同方法進行對比娩缰。
? 不同主干網(wǎng)絡(luò)下的準確率對比灸撰。
? 不同模塊輸出特征的可視化,圖b是加入CAP后拼坎,主干網(wǎng)絡(luò)輸出的特征浮毯。
Conclusion
? 論文提出細粒度分類解決方案CAP,通過上下文感知的注意力機制來幫助模型發(fā)現(xiàn)目標的細微特征變化泰鸡。除了像素級別的注意力機制债蓝,還有區(qū)域級別的注意力機制以及局部特征編碼方法,與以往的視覺方案很不同盛龄,值得一看饰迹。
?
?
?
?
如果本文對你有幫助,麻煩點個贊或在看唄~
更多內(nèi)容請關(guān)注 微信公眾號【曉飛的算法工程筆記】