一、introduction
本文提出:Relative Position Network (RPN)&Relative Map Network (RMN)
本文貢獻(xiàn):(1)提出了一個(gè)基于度量學(xué)習(xí)和注意機(jī)制的小樣本學(xué)習(xí)的新框架卧惜;
? ? ? ? ? ? ? ? ? (2)為了更好地捕捉圖像之間的內(nèi)在對(duì)應(yīng)和更好地度量圖像的相似性提出了RPN和RMN;
? ? ? ? ? ? ? ? ? (3)實(shí)驗(yàn)驗(yàn)證了本文的方法的有效性亮蒋。
二开瞭、相關(guān)工作
1.Few-shot Learning
小樣本學(xué)習(xí)是從有限的樣例中學(xué)習(xí)概念,需要一種具有良好泛化能力且有效的表示學(xué)習(xí)且警。對(duì)于所有現(xiàn)有的方法熊锭,它們可以分為兩類:基于度量的方法和基于梯度的方法弧轧。基于度量的方法與我們的工作更加相關(guān)碗殷,我們的工作更多地著眼于在學(xué)習(xí)過(guò)程中最小化類內(nèi)距離精绎,同時(shí)最大化不同類之間的距離。在我們的工作中锌妻,我們更多地關(guān)注關(guān)系網(wǎng)絡(luò)代乃,并使用新的方法來(lái)學(xué)習(xí)度量,以幫助模型更好地從較少的樣本中學(xué)習(xí)仿粹。
2.Metric Learning
度量學(xué)習(xí)在許多視覺(jué)任務(wù)中扮演著非常重要的角色搁吓,因?yàn)樯疃葘W(xué)習(xí)模型的性能很大程度上依賴于選擇一個(gè)好的度量。在小樣本學(xué)習(xí)中吭历,之前的度量方法往往會(huì)導(dǎo)致度量的復(fù)雜性堕仔,需要手動(dòng)更改,直到性能達(dá)到理想的程度晌区。在我們的工作中摩骨,我們沒(méi)有嘗試所有的度量來(lái)達(dá)到最先進(jìn)的性能通贞,而是應(yīng)用了基于元學(xué)習(xí)的方法來(lái)讓模型自動(dòng)學(xué)習(xí)最好的度量。
3.Attention Mechanism
注意機(jī)制在圖像字幕恼五、語(yǔ)音識(shí)別和機(jī)器翻譯等許多領(lǐng)域都非常流行昌罩。注意機(jī)制在許多與計(jì)算機(jī)視覺(jué)相關(guān)的任務(wù)中被證明是有用的。然而灾馒,大多數(shù)基于注意力的方法只關(guān)注單個(gè)圖像中的注意力峡迷。在我們的工作中,我們使用來(lái)自不同圖像的注意力來(lái)幫助比較差異你虹,這將有助于模型學(xué)習(xí)重要的信息。
三彤避、方法
1.問(wèn)題定義
數(shù)據(jù)集包含支持及(S)和查詢集(Q)傅物。S中包含C個(gè)不同的圖片類和每個(gè)類中有K個(gè)標(biāo)記樣本。小樣本學(xué)習(xí)的目的是根據(jù)S對(duì)Q中的每個(gè)樣本進(jìn)行分類(C-way K-shot)琉预。使用元訓(xùn)練數(shù)據(jù)集和元測(cè)試數(shù)據(jù)集
董饰,episodic training paradigm(?)用來(lái)最小化
的泛化誤差,將episodic training paradigm分為兩步:(1)N-way圆米,在
中隨機(jī)抽取N個(gè)類卒暂;(2)K-shot,在C中隨機(jī)抽取
娄帖。我們采用支持集S作為測(cè)量標(biāo)準(zhǔn)也祠,并使用查詢集Q來(lái)優(yōu)化模型的參數(shù)。同樣可以在測(cè)試集D中提取支持集S和查詢集Q來(lái)評(píng)估性能近速。我們將訓(xùn)練策略應(yīng)用于我們的小樣本實(shí)驗(yàn)(第4節(jié))诈嘿,我們也考慮了1-shot(K= 1)和5-shot(K = 5)的設(shè)置。
2.RPN
在RPN中削葱,考慮到圖像的不同位置可能具有不同的代表信息奖亚,我們認(rèn)為在比較過(guò)程中必須對(duì)特征圖的每個(gè)位置進(jìn)行不同的處理。為此析砸,我們提出了一種新的結(jié)構(gòu)——相對(duì)位置網(wǎng)絡(luò)(RPN)昔字。基于注意機(jī)制的RPN通過(guò)對(duì)特征圖中的位置產(chǎn)生不同的權(quán)重來(lái)確定哪些位置對(duì)模型比較重要首繁。RPN的結(jié)構(gòu)如圖1所示作郭。和
分別是來(lái)自于S和Q。
和
表示它們的特征圖蛮瞄。
S中的位置向量,Q中的位置向量
,將兩個(gè)位置向量
串聯(lián)成一個(gè)相對(duì)位置向量挂捅,得到相對(duì)位置向量的類內(nèi)關(guān)系向量:
H()為編碼器芹助,將兩個(gè)位置向量連接映射為一個(gè)相對(duì)位置向量状土,
无蜂、
是元學(xué)習(xí)器的參數(shù),r是我們?cè)趯?shí)驗(yàn)中需要修正的比例蒙谓,而
表示ReLU函數(shù)斥季,
必須為整數(shù)。
代表相關(guān)位置參數(shù)酣倾。(3)(4)只對(duì)Q做注意力機(jī)制的操作。
3.RMN
原始關(guān)系網(wǎng)絡(luò)只是將支持集和查詢集的特征圖連接起來(lái)谤专,而沒(méi)有充分體現(xiàn)比較原理躁锡。我們的目標(biāo)是使網(wǎng)絡(luò)能夠單獨(dú)和獨(dú)立地比較這些圖像,因?yàn)樘卣鲌D中的每一張圖都是不同的置侍。首先映之,分別從特征圖和
選擇兩個(gè)單獨(dú)映射,然后對(duì)嵌入模型
進(jìn)行訓(xùn)練蜡坊,學(xué)習(xí)嵌入過(guò)程中的參數(shù)杠输。每個(gè)嵌入模型
都需要輸入特征圖
和
學(xué)習(xí)這些特征圖之間的距離
,而不是手工設(shè)計(jì)距離度量秕衙。此外蠢甲,為了比較特征圖,設(shè)計(jì)了單個(gè)全連接層來(lái)計(jì)算每個(gè)單個(gè)輸出
的加權(quán)和
据忘,該加權(quán)和作為
和
之間的最終相似度分?jǐn)?shù):
表示需要學(xué)習(xí)的權(quán)重峡钓,Sig代表sigmoid函數(shù),該函數(shù)可以將最終的分?jǐn)?shù)映射到數(shù)值范圍0-1之間若河。
使用mean square error(MSE)loss:
四能岩、實(shí)驗(yàn)
1.數(shù)據(jù)集
(1)Mini-Imagenet:包含來(lái)自100個(gè)類的60000幅彩色圖像,每個(gè)類包含600幅圖像萧福。在我們的實(shí)驗(yàn)中拉鹃,我們將每張圖像的大小調(diào)整為84×84。此外鲫忍,我們使用了與[19]相同的劃分膏燕,他們使用64個(gè)類進(jìn)行元訓(xùn)練,16個(gè)類進(jìn)行元驗(yàn)證悟民,20個(gè)類進(jìn)行元測(cè)試坝辫。
(2)CIFAR-FS:CIFAR-FS采用與mini-Imagenet相同的標(biāo)準(zhǔn)從CIFAR-100中隨機(jī)采樣。我們使用的輸入大小是32×32射亏,比mini-Imagenet小近忙。
2.實(shí)施細(xì)節(jié)
(1)數(shù)據(jù)擴(kuò)充:在我們的實(shí)驗(yàn)中竭业,我們使用隨機(jī)調(diào)整剪裁、隨機(jī)垂直翻轉(zhuǎn)及舍、隨機(jī)水平翻轉(zhuǎn)和顏色抖動(dòng)的隨機(jī)組來(lái)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)未辆。我們只對(duì)訓(xùn)練集中的查詢樣本進(jìn)行數(shù)據(jù)擴(kuò)充,因?yàn)橹С旨嵌攘繉W(xué)習(xí)的準(zhǔn)則锯玛,保持穩(wěn)定的效果更好咐柜。
(2)特征提取:我們的特征提取器包含四個(gè)塊。前兩個(gè)塊與關(guān)系網(wǎng)絡(luò)中的塊相同攘残,分別包含卷積層拙友、批處理模層、ReLU函數(shù)和最大池化層歼郭,最大池化層可以將特征圖的大小減半献宫。在最后兩個(gè)塊中,我們使用的塊與ResNet中的塊相同实撒。
(3)RMN and RPN:在RMN中,我們使用不填充的3×3內(nèi)核的卷積層涉瘾、BN層和ReLU函數(shù)知态,以及兩個(gè)用于全連接層的隱藏層的組合。在RPN中立叛,我們將元學(xué)習(xí)器的比例設(shè)置為负敏。注意,我們隨機(jī)初始化了所有網(wǎng)絡(luò)秘蛇,沒(méi)有涉及額外的數(shù)據(jù)集其做。
(4)優(yōu)化器:使用Adam優(yōu)化器。初始學(xué)習(xí)率設(shè)置為0.001赁还,之后如果超過(guò)300次驗(yàn)證期的平均準(zhǔn)確率沒(méi)有提高妖泄,學(xué)習(xí)率降低到0.5。該模型的訓(xùn)練過(guò)程包含5000個(gè)元訓(xùn)練集艘策、300個(gè)元驗(yàn)證集和600個(gè)元測(cè)試集蹈胡。元訓(xùn)練的總集數(shù)設(shè)定為500000。
3.結(jié)果及分析
(1)比較:我們?cè)诒?和表2中展示了不同方法在Mini-ImageNet和CIFAR-FS數(shù)據(jù)集上的結(jié)果朋蔫。我們觀察到我們的方法在MiniImageNet上明顯優(yōu)于其他競(jìng)爭(zhēng)對(duì)手罚渐,這清楚地證明了我們方法的有效性。然而驯妄,盡管我們的方法在MiniImageNet上的性能比GNN好得多荷并,但它們?cè)贑IFAR-FS上的結(jié)果是可比較的,可能是由于數(shù)據(jù)集的差異青扔。
(2)消融研究和可視化:為了證明我們的單獨(dú)模塊RPN和RMN能夠真正工作源织,我們?cè)谖覀兊目蚣苤羞M(jìn)行消融研究翩伪。實(shí)驗(yàn)結(jié)果表明,RPN和PMN都能提高關(guān)系網(wǎng)絡(luò)的性能雀鹃。在RPN的評(píng)估中幻工,我們結(jié)合了特征提取器、相對(duì)位置網(wǎng)絡(luò)和一個(gè)類似RN的關(guān)系模塊黎茎。對(duì)于RMN囊颅,我們使用與RMN相同的特征提取器。
五傅瞻、結(jié)論
在本文中踢代,我們提出了一種基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法。與現(xiàn)有的基于度量學(xué)習(xí)的工作不同嗅骄,我們通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)考慮圖像特征映射的更精細(xì)信息來(lái)改進(jìn)距離度量的學(xué)習(xí)胳挎。具體地說(shuō),我們開(kāi)發(fā)了一個(gè)基于注意機(jī)制的相對(duì)位置網(wǎng)絡(luò)模塊(RPN)溺森,以更有效地從查詢和支持圖像的特征圖中比較不同的激活細(xì)胞對(duì)慕爬。在此基礎(chǔ)上,我們引入了相對(duì)地圖網(wǎng)絡(luò)(RMN)來(lái)學(xué)習(xí)基于這些注意力地圖的距離度量屏积,以更好地評(píng)價(jià)圖像之間的相似性医窿。在基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了我們提出的方法比其他最先進(jìn)的基線的有效性。