論文理解:
破壞與重構(gòu)學(xué)習(xí)的方法增強(qiáng)了細(xì)粒度識(shí)別的難度蝎土,使分類模型有專家知識(shí)妻枕。
除分類網(wǎng)絡(luò)分支外芥丧,還有DCL流用于學(xué)習(xí)有辨識(shí)力的區(qū)域和特征磷脯。
- 破壞時(shí)將原圖劃分為局部區(qū)域并用區(qū)域融合機(jī)制(RCM)打亂客年,分類網(wǎng)更加注意有辨識(shí)力的區(qū)域
- 對(duì)抗損失用來減少RCM引入的噪聲霞幅,將原圖從破壞后的圖片中區(qū)別開來
- 區(qū)域?qū)R網(wǎng)絡(luò)(RAN)通過建模局部區(qū)域間的語義聯(lián)系,恢復(fù)局部區(qū)域的原始空間分布量瓜。
參數(shù)共享的方式聯(lián)合訓(xùn)練司恳,DCL方法向分類網(wǎng)注入更多的有辨識(shí)力的局部細(xì)節(jié)。
方法達(dá)到SOTA效果绍傲,但訓(xùn)練時(shí)不需額外的專家知識(shí)抵赢,并且除標(biāo)準(zhǔn)分類網(wǎng)的前向傳播外,推理時(shí)沒有計(jì)算開銷唧取。
介紹:
細(xì)粒度圖像識(shí)別的關(guān)鍵在于學(xué)習(xí)有辨識(shí)力的特征表示铅鲤,現(xiàn)有方法主要分為兩類:
- 一種是先定位有辨識(shí)力的目標(biāo)部分,后基于這些區(qū)域分類(大多數(shù)需要目標(biāo)或部分的邊界框)
- 一種是無監(jiān)督方式枫弟,利用注意力機(jī)制自動(dòng)定位到有辨識(shí)力的區(qū)域(但需要額外網(wǎng)絡(luò)架構(gòu)故引入訓(xùn)練和推理時(shí)的計(jì)算開銷)
DCL破壞原圖時(shí)注重有辨識(shí)力的局部細(xì)節(jié)邢享,重構(gòu)時(shí)建模局部區(qū)域中的語義關(guān)系。
其訓(xùn)練時(shí)自動(dòng)定位有辨識(shí)力區(qū)域不用額外知識(shí)淡诗,且DCL結(jié)構(gòu)只在訓(xùn)練時(shí)使用骇塘,推理時(shí)沒有計(jì)算開銷伊履。
1)在破壞部分,RCM故意迷惑全局結(jié)構(gòu)款违,將原圖劃分為局部片塊唐瀑,并隨機(jī)打亂。
局部細(xì)節(jié)在細(xì)粒度識(shí)別中比全局結(jié)構(gòu)的角色更重要插爹,因?yàn)榧?xì)粒度圖像的全局結(jié)構(gòu)或形狀差不多但局部信息不同哄辣。
舍全局保局部使得網(wǎng)絡(luò)能確認(rèn)并聚焦有辨識(shí)力的局部區(qū)域,以便識(shí)別赠尾。
打亂局部信息力穗,可以忽略對(duì)細(xì)粒度識(shí)別不重要的無關(guān)區(qū),使得網(wǎng)絡(luò)分類基于有辨識(shí)力的局部細(xì)節(jié)气嫁。
2) 用對(duì)抗損失將破壞后的圖像從原圖中區(qū)分出來当窗,以最小化RCM引入的噪聲影響,只保留有益的局部細(xì)節(jié)寸宵。
對(duì)抗和分類損失使用對(duì)抗方式從破壞中學(xué)習(xí)崖面。
3))重建中,區(qū)域?qū)R網(wǎng)絡(luò)恢復(fù)原圖的區(qū)域排列梯影,是RCM的對(duì)立方式巫员。
該網(wǎng)絡(luò)理解每個(gè)區(qū)域的語義(包括有辨識(shí)力的區(qū)域),通過重建來構(gòu)建不同局部區(qū)域之間的關(guān)聯(lián) 光酣。
貢獻(xiàn)如下:
- 新型破壞與構(gòu)建學(xué)習(xí)的框架,用于細(xì)粒度識(shí)別脉课。
破壞過程中救军,使用RCM使分類網(wǎng)從有辨識(shí)力的區(qū)域中學(xué)習(xí),對(duì)抗損失防止過擬合RCM引入的噪聲模式倘零;
構(gòu)建過程中唱遭,區(qū)域?qū)R網(wǎng)通過建模區(qū)域間的語義聯(lián)系,來回復(fù)原始圖像的區(qū)域分布呈驶。 - DCL方法在三大基準(zhǔn)數(shù)據(jù)集上達(dá)到最好效果拷泽。
- 該方法無需額外數(shù)據(jù)標(biāo)注,推理時(shí)沒有計(jì)算開銷袖瞻。
相關(guān)工作
- 使用更好的表示學(xué)習(xí)司致,三元組損失、深度度量學(xué)習(xí)聋迎、分層結(jié)構(gòu)等
基于部分或注意力的方法 - 弱監(jiān)督學(xué)習(xí)脂矫,無需標(biāo)注部分或關(guān)鍵區(qū)域等
DCL方法使用RCM訓(xùn)練分類器,自動(dòng)檢測(cè)有辨識(shí)力的區(qū)域霉晕,無需額外知識(shí)或標(biāo)簽庭再;
考慮細(xì)粒度局部區(qū)域特征表示與不同區(qū)域間的語義聯(lián)系捞奕;
高效,預(yù)測(cè)階段除主干網(wǎng)外無額外開銷拄轻。
所提方法
框架分為四部分:破壞(區(qū)域混淆機(jī)制RCM)颅围、分類網(wǎng)、對(duì)抗學(xué)習(xí)網(wǎng)恨搓、重建(區(qū)域?qū)R網(wǎng)RAN)院促,其中推理時(shí)只需分類網(wǎng)
破壞學(xué)習(xí)
局部細(xì)節(jié)比全局結(jié)構(gòu)更重要。
打亂局部區(qū)域來破壞全局結(jié)構(gòu)奶卓,以更好確認(rèn)有辨識(shí)力的區(qū)域一疯、學(xué)習(xí)有辨識(shí)力的特征。
對(duì)抗部分用以拒絕RCM引入的噪聲(與細(xì)粒度分類無關(guān)的模式)夺姑,使網(wǎng)絡(luò)不從噪聲模式中學(xué)習(xí)墩邀。
【1】RCM
打亂圖像后將迫使網(wǎng)絡(luò)學(xué)習(xí)具有辨識(shí)力區(qū)域的細(xì)節(jié),用以分類盏浙。
RCM擾亂局部圖像區(qū)域的空間分布眉睹,平均劃分一張圖像為N*N的子區(qū)域,方式為2D鄰域內(nèi)擾亂废膘。
水平和垂直坐標(biāo)分別加上竹海,取自均勻分布U(-k,k)的的隨機(jī)變量r, 其中1≤k<N:
分類網(wǎng)將輸入圖像映射為一個(gè)概率分布向量C(I,theta_cls), 其中theta_cls是分類網(wǎng)中的可學(xué)習(xí)參數(shù),I是用來訓(xùn)練的圖像集丐黄。
分類網(wǎng)的損失函數(shù)為結(jié)合破壞的圖像斋配、原圖像和標(biāo)簽交叉熵?fù)p失:
其中,圖像整體結(jié)構(gòu)改變了灌闺,要識(shí)別隨機(jī)打亂后的圖像艰争,分類網(wǎng)就必須找出有辨識(shí)力區(qū)域、學(xué)習(xí)不同種類間的細(xì)微差異桂对。
【2】 對(duì)抗學(xué)習(xí)
分類網(wǎng)學(xué)習(xí)RCM引入的噪聲模式有害于分類效果
提出對(duì)抗損失甩卓,防止過擬合噪聲進(jìn)入特征空間
原圖和破壞后的圖像是兩種域,對(duì)抗損失與分類損失也以對(duì)抗方式工作蕉斜,以保持域不變性逾柿,并拒絕原圖與破壞后圖像之間的特定域模式
one-hot編碼每個(gè)圖像以標(biāo)識(shí)是否被破壞,判別器作新分支加入宅此,判斷方式為:
D(I, theta_adv)
判別方式為:
C(I, theta_cls_{1,m})表示分類網(wǎng)中第m層輸出中抽取出的特征向量机错,theta_cls_{1,m}表示分類網(wǎng)從第m層到第m層的可學(xué)習(xí)參數(shù)集,theta_adv在R*2空間父腕,是線性映射
判別網(wǎng)絡(luò)的損失為:
構(gòu)建學(xué)習(xí)
用帶有區(qū)域構(gòu)造損失的區(qū)域?qū)R網(wǎng)毡熏,衡量不同區(qū)域的位置精度,使主干網(wǎng)以端到端的方式建模區(qū)域之間的語義關(guān)聯(lián)侣诵。
1*1卷積處理特征痢法,得到區(qū)域?qū)R網(wǎng)的輸出有兩個(gè)通道狱窘,輸出進(jìn)而經(jīng)過激活函數(shù)與池化,得到2NN大小的特征圖财搁。
區(qū)域?qū)R網(wǎng)的輸出為:
其中M(I)中的兩個(gè)通道對(duì)應(yīng)了橫縱坐標(biāo)蘸炸,h是區(qū)域?qū)R網(wǎng)。theta_loc是區(qū)域?qū)R網(wǎng)中的參數(shù)尖奔。
區(qū)域?qū)R損失是預(yù)測(cè)坐標(biāo)與原始坐標(biāo)之間的L1距離:
區(qū)域?qū)R損失幫助定位圖像中的主要目標(biāo)搭儒、發(fā)現(xiàn)子區(qū)域之間的關(guān)聯(lián),并幫助分類網(wǎng)更深理解目標(biāo)提茁、建模結(jié)構(gòu)信息淹禾,如目標(biāo)形狀和各區(qū)域語義關(guān)聯(lián)。
破壞和構(gòu)建學(xué)習(xí)
分類茴扁、對(duì)抗和區(qū)域?qū)R損失以端到端方式訓(xùn)練铃岔,網(wǎng)絡(luò)權(quán)衡了被增強(qiáng)的局部細(xì)節(jié),以及建模好的目標(biāo)部件之間的關(guān)聯(lián)峭火,用于細(xì)粒度識(shí)別毁习。
最小化以下目標(biāo)函數(shù):
破壞過程中,學(xué)習(xí)有辨識(shí)力的區(qū)域卖丸,構(gòu)建過程中纺且,根據(jù)子區(qū)域語義關(guān)聯(lián)重新排列學(xué)到的局部細(xì)節(jié)。
參考:
paper:https://openaccess.thecvf.com/content_CVPR_2019/papers/Chen_Destruction_and_Construction_Learning_for_Fine-Grained_Image_Recognition_CVPR_2019_paper.pdf
code: https://github.com/JDAI-CV/DCL