《Relative Position and Map Networks in Few-shot Learning for Image Classification》

一、introduction

本文提出:Relative Position Network (RPN)&Relative Map Network (RMN)

本文貢獻(xiàn):(1)提出了一個(gè)基于度量學(xué)習(xí)和注意機(jī)制的小樣本學(xué)習(xí)的新框架卧惜;

? ? ? ? ? ? ? ? ? (2)為了更好地捕捉圖像之間的內(nèi)在對(duì)應(yīng)和更好地度量圖像的相似性提出了RPN和RMN;

? ? ? ? ? ? ? ? ? (3)實(shí)驗(yàn)驗(yàn)證了本文的方法的有效性亮蒋。

二开瞭、相關(guān)工作

1.Few-shot Learning

小樣本學(xué)習(xí)是從有限的樣例中學(xué)習(xí)概念,需要一種具有良好泛化能力且有效的表示學(xué)習(xí)且警。對(duì)于所有現(xiàn)有的方法熊锭,它們可以分為兩類:基于度量的方法基于梯度的方法弧轧。基于度量的方法與我們的工作更加相關(guān)碗殷,我們的工作更多地著眼于在學(xué)習(xí)過(guò)程中最小化類內(nèi)距離精绎,同時(shí)最大化不同類之間的距離。在我們的工作中锌妻,我們更多地關(guān)注關(guān)系網(wǎng)絡(luò)代乃,并使用新的方法來(lái)學(xué)習(xí)度量,以幫助模型更好地從較少的樣本中學(xué)習(xí)仿粹。

2.Metric Learning

度量學(xué)習(xí)在許多視覺(jué)任務(wù)中扮演著非常重要的角色搁吓,因?yàn)樯疃葘W(xué)習(xí)模型的性能很大程度上依賴于選擇一個(gè)好的度量。在小樣本學(xué)習(xí)中吭历,之前的度量方法往往會(huì)導(dǎo)致度量的復(fù)雜性堕仔,需要手動(dòng)更改,直到性能達(dá)到理想的程度晌区。在我們的工作中摩骨,我們沒(méi)有嘗試所有的度量來(lái)達(dá)到最先進(jìn)的性能通贞,而是應(yīng)用了基于元學(xué)習(xí)的方法來(lái)讓模型自動(dòng)學(xué)習(xí)最好的度量。

3.Attention Mechanism

注意機(jī)制在圖像字幕恼五、語(yǔ)音識(shí)別和機(jī)器翻譯等許多領(lǐng)域都非常流行昌罩。注意機(jī)制在許多與計(jì)算機(jī)視覺(jué)相關(guān)的任務(wù)中被證明是有用的。然而灾馒,大多數(shù)基于注意力的方法只關(guān)注單個(gè)圖像中的注意力峡迷。在我們的工作中,我們使用來(lái)自不同圖像的注意力來(lái)幫助比較差異你虹,這將有助于模型學(xué)習(xí)重要的信息。

三彤避、方法

1.問(wèn)題定義

數(shù)據(jù)集包含支持及(S)和查詢集(Q)傅物。S中包含C個(gè)不同的圖片類和每個(gè)類中有K個(gè)標(biāo)記樣本。小樣本學(xué)習(xí)的目的是根據(jù)S對(duì)Q中的每個(gè)樣本進(jìn)行分類(C-way K-shot)琉预。使用元訓(xùn)練數(shù)據(jù)集D_{tr} 和元測(cè)試數(shù)據(jù)集D_{te} 董饰,episodic training paradigm(?)用來(lái)最小化D_{tr} 的泛化誤差,將episodic training paradigm分為兩步:(1)N-way圆米,在D_{tr} 中隨機(jī)抽取N個(gè)類卒暂;(2)K-shot,在C中隨機(jī)抽取x_{i} 娄帖。我們采用支持集S作為測(cè)量標(biāo)準(zhǔn)也祠,并使用查詢集Q來(lái)優(yōu)化模型的參數(shù)。同樣可以在測(cè)試集D中提取支持集S和查詢集Q來(lái)評(píng)估性能近速。我們將訓(xùn)練策略應(yīng)用于我們的小樣本實(shí)驗(yàn)(第4節(jié))诈嘿,我們也考慮了1-shot(K= 1)和5-shot(K = 5)的設(shè)置。

2.RPN

在RPN中削葱,考慮到圖像的不同位置可能具有不同的代表信息奖亚,我們認(rèn)為在比較過(guò)程中必須對(duì)特征圖的每個(gè)位置進(jìn)行不同的處理。為此析砸,我們提出了一種新的結(jié)構(gòu)——相對(duì)位置網(wǎng)絡(luò)(RPN)昔字。基于注意機(jī)制的RPN通過(guò)對(duì)特征圖中的位置產(chǎn)生不同的權(quán)重來(lái)確定哪些位置對(duì)模型比較重要首繁。RPN的結(jié)構(gòu)如圖1所示作郭。x^s x^Q 分別是來(lái)自于S和Q。M_{x^S } M_{x^Q } 表示它們的特征圖蛮瞄。

圖1.論文結(jié)構(gòu)

S中的位置向量v_{i所坯,j}^S,Q中的位置向量v_{i,j}^Q ,將兩個(gè)位置向量[v_{i,j}^S ,v_{i,j}^Q ]串聯(lián)成一個(gè)相對(duì)位置向量挂捅,得到相對(duì)位置向量的類內(nèi)關(guān)系向量:

H()為編碼器芹助,將兩個(gè)位置向量連接映射為一個(gè)相對(duì)位置向量V_{i堂湖,j}^{s,q} 状土,W_{1} 无蜂、W_{2} 是元學(xué)習(xí)器的參數(shù),r是我們?cè)趯?shí)驗(yàn)中需要修正的比例蒙谓,而\sigma 表示ReLU函數(shù)斥季,\frac{n}{r} 必須為整數(shù)。

Att_{i累驮,j} 代表相關(guān)位置參數(shù)酣倾。(3)(4)只對(duì)Q做注意力機(jī)制的操作。

3.RMN

原始關(guān)系網(wǎng)絡(luò)只是將支持集和查詢集的特征圖連接起來(lái)谤专,而沒(méi)有充分體現(xiàn)比較原理躁锡。我們的目標(biāo)是使網(wǎng)絡(luò)能夠單獨(dú)和獨(dú)立地比較這些圖像,因?yàn)樘卣鲌D中的每一張圖都是不同的置侍。首先映之,分別從特征圖M_{x_{S} }^i M_{x_{Q} }^i 選擇兩個(gè)單獨(dú)映射,然后對(duì)嵌入模型\hat{G} 進(jìn)行訓(xùn)練蜡坊,學(xué)習(xí)嵌入過(guò)程中的參數(shù)杠输。每個(gè)嵌入模型\hat{G} _{\phi _{i} }^i都需要輸入特征圖M_{x_{S} }^i M_{x_{Q} }^i 學(xué)習(xí)這些特征圖之間的距離p_{i} ,而不是手工設(shè)計(jì)距離度量秕衙。此外蠢甲,為了比較特征圖,設(shè)計(jì)了單個(gè)全連接層來(lái)計(jì)算每個(gè)單個(gè)輸出G_{\phi _{i} }^i(M_{x_{S} }^i ,M_{x_{Q} }^i ) 的加權(quán)和P_{S,Q} 据忘,該加權(quán)和作為M_{x_{S} } M_{x_{Q} } 之間的最終相似度分?jǐn)?shù):

w_{i} 表示需要學(xué)習(xí)的權(quán)重峡钓,Sig代表sigmoid函數(shù),該函數(shù)可以將最終的分?jǐn)?shù)映射到數(shù)值范圍0-1之間若河。

使用mean square error(MSE)loss:

四能岩、實(shí)驗(yàn)

1.數(shù)據(jù)集

(1)Mini-Imagenet:包含來(lái)自100個(gè)類的60000幅彩色圖像,每個(gè)類包含600幅圖像萧福。在我們的實(shí)驗(yàn)中拉鹃,我們將每張圖像的大小調(diào)整為84×84。此外鲫忍,我們使用了與[19]相同的劃分膏燕,他們使用64個(gè)類進(jìn)行元訓(xùn)練,16個(gè)類進(jìn)行元驗(yàn)證悟民,20個(gè)類進(jìn)行元測(cè)試坝辫。

(2)CIFAR-FS:CIFAR-FS采用與mini-Imagenet相同的標(biāo)準(zhǔn)從CIFAR-100中隨機(jī)采樣。我們使用的輸入大小是32×32射亏,比mini-Imagenet小近忙。

2.實(shí)施細(xì)節(jié)

(1)數(shù)據(jù)擴(kuò)充:在我們的實(shí)驗(yàn)中竭业,我們使用隨機(jī)調(diào)整剪裁、隨機(jī)垂直翻轉(zhuǎn)及舍、隨機(jī)水平翻轉(zhuǎn)和顏色抖動(dòng)的隨機(jī)組來(lái)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)未辆。我們只對(duì)訓(xùn)練集中的查詢樣本進(jìn)行數(shù)據(jù)擴(kuò)充,因?yàn)橹С旨嵌攘繉W(xué)習(xí)的準(zhǔn)則锯玛,保持穩(wěn)定的效果更好咐柜。

(2)特征提取:我們的特征提取器包含四個(gè)塊。前兩個(gè)塊與關(guān)系網(wǎng)絡(luò)中的塊相同攘残,分別包含卷積層拙友、批處理模層、ReLU函數(shù)和最大池化層歼郭,最大池化層可以將特征圖的大小減半献宫。在最后兩個(gè)塊中,我們使用的塊與ResNet中的塊相同实撒。

(3)RMN and RPN:在RMN中,我們使用不填充的3×3內(nèi)核的卷積層涉瘾、BN層和ReLU函數(shù)知态,以及兩個(gè)用于全連接層的隱藏層的組合。在RPN中立叛,我們將元學(xué)習(xí)器的比例設(shè)置為\frac{1}{2} 负敏。注意,我們隨機(jī)初始化了所有網(wǎng)絡(luò)秘蛇,沒(méi)有涉及額外的數(shù)據(jù)集其做。

(4)優(yōu)化器:使用Adam優(yōu)化器。初始學(xué)習(xí)率設(shè)置為0.001赁还,之后如果超過(guò)300次驗(yàn)證期的平均準(zhǔn)確率沒(méi)有提高妖泄,學(xué)習(xí)率降低到0.5。該模型的訓(xùn)練過(guò)程包含5000個(gè)元訓(xùn)練集艘策、300個(gè)元驗(yàn)證集和600個(gè)元測(cè)試集蹈胡。元訓(xùn)練的總集數(shù)設(shè)定為500000。

3.結(jié)果及分析

(1)比較:我們?cè)诒?和表2中展示了不同方法在Mini-ImageNet和CIFAR-FS數(shù)據(jù)集上的結(jié)果朋蔫。我們觀察到我們的方法在MiniImageNet上明顯優(yōu)于其他競(jìng)爭(zhēng)對(duì)手罚渐,這清楚地證明了我們方法的有效性。然而驯妄,盡管我們的方法在MiniImageNet上的性能比GNN好得多荷并,但它們?cè)贑IFAR-FS上的結(jié)果是可比較的,可能是由于數(shù)據(jù)集的差異青扔。

表1
表2

(2)消融研究和可視化:為了證明我們的單獨(dú)模塊RPN和RMN能夠真正工作源织,我們?cè)谖覀兊目蚣苤羞M(jìn)行消融研究翩伪。實(shí)驗(yàn)結(jié)果表明,RPN和PMN都能提高關(guān)系網(wǎng)絡(luò)的性能雀鹃。在RPN的評(píng)估中幻工,我們結(jié)合了特征提取器、相對(duì)位置網(wǎng)絡(luò)和一個(gè)類似RN的關(guān)系模塊黎茎。對(duì)于RMN囊颅,我們使用與RMN相同的特征提取器。

表3.結(jié)果

五傅瞻、結(jié)論

在本文中踢代,我們提出了一種基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法。與現(xiàn)有的基于度量學(xué)習(xí)的工作不同嗅骄,我們通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)考慮圖像特征映射的更精細(xì)信息來(lái)改進(jìn)距離度量的學(xué)習(xí)胳挎。具體地說(shuō),我們開(kāi)發(fā)了一個(gè)基于注意機(jī)制的相對(duì)位置網(wǎng)絡(luò)模塊(RPN)溺森,以更有效地從查詢和支持圖像的特征圖中比較不同的激活細(xì)胞對(duì)慕爬。在此基礎(chǔ)上,我們引入了相對(duì)地圖網(wǎng)絡(luò)(RMN)來(lái)學(xué)習(xí)基于這些注意力地圖的距離度量屏积,以更好地評(píng)價(jià)圖像之間的相似性医窿。在基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了我們提出的方法比其他最先進(jìn)的基線的有效性。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末炊林,一起剝皮案震驚了整個(gè)濱河市姥卢,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌渣聚,老刑警劉巖独榴,帶你破解...
    沈念sama閱讀 212,542評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異奕枝,居然都是意外死亡棺榔,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門隘道,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)掷豺,“玉大人,你說(shuō)我怎么就攤上這事薄声〉贝” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 158,021評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵默辨,是天一觀的道長(zhǎng)德频。 經(jīng)常有香客問(wèn)我,道長(zhǎng)缩幸,這世上最難降的妖魔是什么壹置? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,682評(píng)論 1 284
  • 正文 為了忘掉前任竞思,我火速辦了婚禮,結(jié)果婚禮上钞护,老公的妹妹穿的比我還像新娘盖喷。我一直安慰自己,他們只是感情好难咕,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,792評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布课梳。 她就那樣靜靜地躺著,像睡著了一般余佃。 火紅的嫁衣襯著肌膚如雪暮刃。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,985評(píng)論 1 291
  • 那天爆土,我揣著相機(jī)與錄音椭懊,去河邊找鬼。 笑死步势,一個(gè)胖子當(dāng)著我的面吹牛氧猬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播坏瘩,決...
    沈念sama閱讀 39,107評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼盅抚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了桑腮?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,845評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蛉幸,失蹤者是張志新(化名)和其女友劉穎破讨,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體奕纫,經(jīng)...
    沈念sama閱讀 44,299評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡提陶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,612評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了匹层。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隙笆。...
    茶點(diǎn)故事閱讀 38,747評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖升筏,靈堂內(nèi)的尸體忽然破棺而出撑柔,到底是詐尸還是另有隱情,我是刑警寧澤您访,帶...
    沈念sama閱讀 34,441評(píng)論 4 333
  • 正文 年R本政府宣布铅忿,位于F島的核電站,受9級(jí)特大地震影響灵汪,放射性物質(zhì)發(fā)生泄漏檀训。R本人自食惡果不足惜柑潦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,072評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望峻凫。 院中可真熱鬧渗鬼,春花似錦、人聲如沸荧琼。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,828評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)铭腕。三九已至银择,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間累舷,已是汗流浹背浩考。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,069評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留被盈,地道東北人析孽。 一個(gè)月前我還...
    沈念sama閱讀 46,545評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像只怎,于是被迫代替她去往敵國(guó)和親袜瞬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,658評(píng)論 2 350