《Learning to Compare: Relation Network for Few-Shot Learning》

一闲礼、Introduction

? ? ? ? 深度學(xué)習(xí)模型在視覺(jué)識(shí)別任務(wù)中取得了巨大的成功蛾号。然而澡为,這些監(jiān)督學(xué)習(xí)模型需要大量的標(biāo)記數(shù)據(jù)和許多迭代來(lái)訓(xùn)練它們大量的參數(shù)天揖。由于標(biāo)注成本的原因,這嚴(yán)重限制了它們對(duì)新類的可拓展性诸典,但從根本上限制了它們對(duì)新出現(xiàn)的或是很少出現(xiàn)的類的適用性描函。在這些類別中崎苗,大量注釋的圖像可能根本不存在。相比之下舀寓,人類在幾乎沒(méi)有直接監(jiān)督或根本沒(méi)有監(jiān)督的情況下卻非常擅長(zhǎng)識(shí)別物體胆数,例如小樣本學(xué)習(xí)或零樣本學(xué)習(xí)。例如互墓,孩子們可以毫不費(fèi)力地從書(shū)中的一張圖片中或者在聽(tīng)到它看起來(lái)像一匹條紋馬的描述時(shí)可以歸納出“斑馬”的概念必尼。由于傳統(tǒng)的深度學(xué)習(xí)方法在每一類上只有一個(gè)或幾個(gè)樣例都無(wú)法很好地發(fā)z揮作用,再加上人類對(duì)小樣本學(xué)習(xí)和零樣本學(xué)習(xí)的學(xué)習(xí)能力篡撵,最近人們對(duì)機(jī)器小樣本學(xué)習(xí)和零樣本學(xué)習(xí)的興趣又重新燃起判莉。

? ? ? ? 小樣本學(xué)習(xí)旨在從極少的標(biāo)記例子中識(shí)別新的視覺(jué)類別。只有一個(gè)或很少幾個(gè)例子的可用性挑戰(zhàn)了深度學(xué)習(xí)中的標(biāo)準(zhǔn)的“微調(diào)”實(shí)踐育谬。在這種數(shù)據(jù)有限的情況下券盅,數(shù)據(jù)增強(qiáng)正則化技術(shù)可以緩解過(guò)擬合問(wèn)題,但并不能解決這個(gè)問(wèn)題膛檀。因此锰镀,當(dāng)代的小樣本學(xué)習(xí)方法常常將訓(xùn)練分解為一個(gè)輔助元學(xué)習(xí)階段,在這個(gè)階段中咖刃,可轉(zhuǎn)移知識(shí)以良好的初始條件泳炉、嵌入(?)或優(yōu)化策略的形式學(xué)習(xí)嚎杨。目標(biāo)小樣本學(xué)習(xí)問(wèn)題是通過(guò)微調(diào)與學(xué)習(xí)優(yōu)化策略或計(jì)算前饋通過(guò)不更新網(wǎng)絡(luò)權(quán)值來(lái)學(xué)習(xí)的花鹅。零樣本學(xué)習(xí)也會(huì)受到相關(guān)挑戰(zhàn)的影響。識(shí)別器是通過(guò)類描述形式的單個(gè)例子來(lái)訓(xùn)練的磕潮,這使得基于梯度學(xué)習(xí)的數(shù)據(jù)不足成為一個(gè)難題翠胰。

? ? ? ? 盡管前景很好,但大多數(shù)現(xiàn)有的小樣本學(xué)習(xí)方法要么需要復(fù)雜的推理機(jī)制自脯,復(fù)雜的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu),要么對(duì)目標(biāo)問(wèn)題進(jìn)行微調(diào)斤富。我們的方法與其他旨在訓(xùn)練一次性學(xué)習(xí)的有效度量標(biāo)準(zhǔn)的方法密切相關(guān)膏潮,其中這些方法專注于可轉(zhuǎn)移嵌入的學(xué)習(xí),并預(yù)先定義了一個(gè)固定的度量(例如满力,歐幾里得距離)焕参,我們進(jìn)一步的目標(biāo)是學(xué)習(xí)一個(gè)可轉(zhuǎn)移的深度度量來(lái)比較圖像之間的關(guān)系(小樣本學(xué)習(xí)),或圖像和類描述之間的關(guān)系(零樣本學(xué)習(xí))油额。通過(guò)表達(dá)更深層次解決方案的歸納偏差(在嵌入和關(guān)聯(lián)模塊上的多個(gè)非線性學(xué)習(xí)階段)叠纷,我們可以更容易地學(xué)習(xí)到問(wèn)題的可推廣解決方案。

具體地說(shuō)潦嘶,我們提出了一個(gè)雙分支關(guān)系網(wǎng)絡(luò)(RN)涩嚣,它通過(guò)學(xué)習(xí)比較查詢圖像和標(biāo)記為小樣本圖像的樣本來(lái)完成小樣本的識(shí)別。首先,嵌入模塊生成查詢圖像的表示并且訓(xùn)練圖像航厚。然后顷歌,使用關(guān)系模塊對(duì)這些嵌入進(jìn)行比較,確定它們是否來(lái)自匹配的類別幔睬。受[39,36]的啟發(fā)眯漩,定義了episode-based策略,嵌入模塊和關(guān)系模塊是元學(xué)習(xí)麻顶、端到端的赦抖,以支持小樣本學(xué)習(xí)。這可以被看作是擴(kuò)展了[39,36]的策略辅肾,包括一個(gè)可學(xué)習(xí)的非線性比較器队萤,而不是一個(gè)固定的線性比較器。我們的方法優(yōu)于以前的方法宛瞄,同時(shí)更簡(jiǎn)單(沒(méi)有RNNs)和更快(沒(méi)有微調(diào))浮禾。我們提出的策略也直接推廣到零樣本學(xué)習(xí)。在這種情況下份汗,樣本分支嵌入一個(gè)單樣本的類別描述盈电,而不是一個(gè)單一的樣本訓(xùn)練圖像,并且關(guān)系模塊學(xué)習(xí)比較查詢圖像和類別描述嵌入杯活。

總的來(lái)說(shuō)匆帚,我們的貢獻(xiàn)是提供了一個(gè)顯而易見(jiàn)的框架,包含了小樣本學(xué)習(xí)和零樣本學(xué)習(xí)旁钧。我們對(duì)四個(gè)基準(zhǔn)測(cè)試的評(píng)估表明吸重,它在整體上有比較引人注目的性能,同時(shí)比其他替代方案更簡(jiǎn)單歪今、更快嚎幸。

二、相關(guān)工作

對(duì)零樣本或小樣本目標(biāo)識(shí)別的研究一直是人們關(guān)注的焦點(diǎn)寄猩。早期關(guān)于小樣本學(xué)習(xí)的工作往往涉及具有復(fù)雜迭代推理策略的生成模型[9,23]嫉晶。隨著有區(qū)別的深度學(xué)習(xí)方法在數(shù)據(jù)豐富的多樣本學(xué)習(xí)環(huán)境中的成功,人們對(duì)將這種深度學(xué)習(xí)方法推廣到小樣本學(xué)習(xí)環(huán)境產(chǎn)生了濃厚的興趣田篇。這些方法使用元學(xué)習(xí)或?qū)W會(huì)學(xué)習(xí)策略在某種意義上,他們從一組輔助任務(wù)中提取一些可轉(zhuǎn)換的知識(shí)(元學(xué)習(xí),學(xué)會(huì)學(xué)習(xí)),然后幫助他們學(xué)習(xí)好目標(biāo)域小樣本問(wèn)題沒(méi)有遭受時(shí)可能的過(guò)度擬合應(yīng)用深度模型數(shù)據(jù)稀疏問(wèn)題替废。

Learning to Fine-Tune.成功的MAML方法旨在元學(xué)習(xí)一個(gè)初始條件(一組神經(jīng)網(wǎng)絡(luò)權(quán)值),這有利于微調(diào)小樣本問(wèn)題泊柬。這里的策略是搜索給定神經(jīng)網(wǎng)絡(luò)的權(quán)重配置椎镣,這樣它就可以在幾個(gè)梯度下降更新步驟內(nèi)有效地微調(diào)到稀疏數(shù)據(jù)問(wèn)題上。從一個(gè)多任務(wù)訓(xùn)練集中采樣許多不同的目標(biāo)問(wèn)題;然后對(duì)基本神經(jīng)網(wǎng)絡(luò)模型進(jìn)行微調(diào)兽赁,以解決每一個(gè)問(wèn)題状答,并且在微調(diào)驅(qū)動(dòng)后在基本模型中更新每一個(gè)目標(biāo)問(wèn)題——從而驅(qū)動(dòng)一個(gè)易于微調(diào)的初始條件的產(chǎn)生冷守。[29]的小樣本優(yōu)化方法在元學(xué)習(xí)方面更進(jìn)一步,不僅是一個(gè)良好的初始條件剪况,而且是一個(gè)基于LSTM的優(yōu)化器教沾,這個(gè)優(yōu)化器經(jīng)過(guò)訓(xùn)練可有效用于微調(diào)。然而译断,這兩種方法都需要對(duì)目標(biāo)問(wèn)題進(jìn)行微調(diào)授翻。相反,我們的方法以完全前饋的方式解決目標(biāo)問(wèn)題孙咪,不需要模型更新堪唐,使其更方便用于低延遲或低功耗的應(yīng)用。

RNN Memory based.另一類方法利用帶記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)翎蹈。這里的思想是淮菠,典型的RNN迭代給定問(wèn)題的一個(gè)例子,并在其隱藏的激活或外部記憶中積累解決該問(wèn)題所需的知識(shí)荤堪。新實(shí)例可以分類合陵,例如通過(guò)將它們與存儲(chǔ)在存儲(chǔ)器中的歷史信息進(jìn)行比較。因此澄阳,在展開(kāi)RNN的過(guò)程中拥知,可以“學(xué)習(xí)”單一目標(biāo)問(wèn)題,而“學(xué)習(xí)中學(xué)習(xí)”意味著通過(guò)學(xué)習(xí)許多不同的問(wèn)題來(lái)訓(xùn)練RNN的權(quán)值碎赢。雖然這些架構(gòu)很吸引人低剔,但它們面臨的問(wèn)題是如何確保可靠地存儲(chǔ)所有可能是長(zhǎng)期的肮塞、相關(guān)的歷史信息而不被遺忘襟齿。在我們的方法中,我們避免了遞歸網(wǎng)絡(luò)的復(fù)雜性枕赵,以及確保其內(nèi)存充足所涉及的問(wèn)題猜欺。相反,我們的“學(xué)會(huì)學(xué)習(xí)”的方法完全定義為簡(jiǎn)單而快速的前饋CNN拷窜。

Embedding and Metric Learning Approaches.在學(xué)習(xí)目標(biāo)小樣本問(wèn)題時(shí)替梨,前面的方法有一定的復(fù)雜性。另一類方法的目的是學(xué)習(xí)一組投影函數(shù)装黑,該函數(shù)從目標(biāo)問(wèn)題中提取查詢圖像和樣本圖像,并以前饋方式對(duì)其進(jìn)行分類弓熏。一種方法是根據(jù)樣本集來(lái)參數(shù)化前饋分類器的權(quán)重恋谭。這里的元學(xué)習(xí)訓(xùn)練輔助參數(shù)化網(wǎng)絡(luò),該網(wǎng)絡(luò)學(xué)習(xí)如何參數(shù)化給定前饋小樣本集的分類問(wèn)題⊥炀希基于度量學(xué)習(xí)的方法旨在學(xué)習(xí)一組投影函數(shù),當(dāng)在此嵌入空間表示時(shí),圖片很容易使用簡(jiǎn)單的最近鄰或是線性分類器被識(shí)別到疚颊。在這種情況下狈孔,元學(xué)習(xí)到的可轉(zhuǎn)移知識(shí)是投影函數(shù),并且目標(biāo)問(wèn)題是一個(gè)簡(jiǎn)單的前饋計(jì)算材义。與我們最相關(guān)的方法是原型網(wǎng)絡(luò)和暹羅網(wǎng)絡(luò)均抽。這些方法集中于學(xué)習(xí)一個(gè)嵌入空間,該嵌入空間轉(zhuǎn)換數(shù)據(jù)其掂,這樣它可以被一個(gè)固定的最近鄰或線性分類器識(shí)別油挥。相比之下,我們的框架進(jìn)一步定義了一個(gè)關(guān)系分類器CNN款熬,與[20,36]相比深寥,這可以被視為提供了一個(gè)可學(xué)習(xí)的而不是固定的度量,或非線性而不是線性分類器贤牛。與[20]相比惋鹅,我們受益于從頭開(kāi)始的端到端的episodic training策略,與[32]相比殉簸,我們避免了集合到集合的RNN嵌入樣本集的復(fù)雜性闰集,并且僅僅依賴于pooling[33]。

Zero-shot Learning.我們的方法是為小樣本學(xué)習(xí)而設(shè)計(jì)的般卑,但是通過(guò)修改樣本分支輸入單一的類別描述武鲁,而不是單一的訓(xùn)練圖像可以使我們的方法跨越到零樣本學(xué)習(xí)(ZSL)的空間。當(dāng)應(yīng)用到ZSL時(shí)椭微,我們的架構(gòu)與涉及到學(xué)習(xí)對(duì)齊圖像和類別嵌入以及通過(guò)預(yù)測(cè)圖像和類別嵌入對(duì)是否匹配來(lái)進(jìn)行識(shí)別的方法有關(guān)洞坑。與之前基于度量的小樣本方法類似,這些方法大多在結(jié)合圖像和嵌入類別后蝇率,使用一個(gè)固定的人工定義的相似性度量或線性分類器迟杂。相比之下,我們?cè)俅问芤嬗诟顚哟蔚亩说蕉思軜?gòu)本慕,包括以我們所學(xué)到的卷積關(guān)系網(wǎng)絡(luò)形式的非線性度量;以及以episode為基礎(chǔ)的訓(xùn)練策略排拷。

三、方法

3.1.問(wèn)題定義

我們考慮了小樣本分類器的學(xué)習(xí)任務(wù)锅尘。正式地來(lái)說(shuō),我們有三個(gè)數(shù)據(jù)集:一個(gè)訓(xùn)練集,一個(gè)支持集,和一個(gè)測(cè)試集监氢。支持集和測(cè)試集共享相同的標(biāo)簽空間,但訓(xùn)練集都有自己的標(biāo)簽空間與支持集或測(cè)試集不相交。如果支持集在每個(gè)獨(dú)特的C個(gè)類中包含K個(gè)標(biāo)記樣本藤违,那么目標(biāo)小樣本問(wèn)題就被叫做C-way K-shot浪腐。

僅在支持集上,原則上我們可以在測(cè)試集中為每一個(gè)\hat{x} 訓(xùn)練一個(gè)分類器分配一個(gè)類標(biāo)簽\hat{y} 。然而,由于支持集中缺少標(biāo)簽樣本顿乒,這樣一個(gè)分類器的性能通常是不能令人滿意的议街。因此,我們的目標(biāo)是在訓(xùn)練集上進(jìn)行元學(xué)習(xí)璧榄,以提取可轉(zhuǎn)移知識(shí)特漩,使我們?cè)谥С旨线M(jìn)行更好的小樣本學(xué)習(xí)吧雹,從而更成功地對(duì)測(cè)試集進(jìn)行分類。

利用訓(xùn)練集的一種有效方法是通過(guò)基于episode的訓(xùn)練來(lái)模擬小樣本學(xué)習(xí)的設(shè)置涂身。在每一次訓(xùn)練的迭代中,一個(gè)episode是由從訓(xùn)練集中隨機(jī)抽取C個(gè)類雄卷,每個(gè)類中有K個(gè)標(biāo)記樣本,作為樣本集S(S=\left\{x_{i} ,y_{i} \right\} _{i=1}^m (m=K\times C))及查詢集Q(Q=\left\{ (x_{j} ,y_{j}) \right\} _{j=1}^n)(其余C類示例的一部分而構(gòu)成的)蛤售。這個(gè)查詢集分割為支持集/測(cè)試集丁鹉。如果需要,從樣本集/查詢集訓(xùn)練出來(lái)的模型可以使用支持集進(jìn)一步進(jìn)行微調(diào)悍抑。在這項(xiàng)工作中鳄炉,我們采用了這樣一種基于episode的訓(xùn)練策略。在我們的小樣本實(shí)驗(yàn)(見(jiàn)4.1節(jié))中搜骡,我們考慮了單個(gè)樣本(K = 1妖啥,圖1)和五個(gè)樣本的(K = 5)設(shè)置骡楼。我們還將處理K = 0零樣本學(xué)習(xí)案例,如3.3節(jié)中所解釋的。

3.2.模型

one-shot.我們的關(guān)系網(wǎng)絡(luò)(RN)包括兩個(gè)模塊:一個(gè)嵌入模塊f_{\varphi } 和關(guān)系模塊g_{\varphi } ,如圖1所示图呢。查詢集Q中的樣本x_{j} ,和樣本集S中的樣本x_{i} 輸入到嵌入模塊f_{\varphi } 挣输,產(chǎn)生特征圖f_{\varphi } (x_{i} )f_{\varphi } (x_{j} )侮叮。特征圖f_{\varphi } (x_{i} )f_{\varphi } (x_{j} )通過(guò)operator結(jié)合起來(lái)C(f_{\varphi } (x_{i} ),f_{\varphi } (x_{j} ))较解。在這項(xiàng)工作中,我們假設(shè)C(\cdot ,\cdot )是深度特征圖的連接寸痢,盡管也可能有其他選擇呀洲。將支持集和查詢集的組合特征圖輸入關(guān)系模塊g_{\varphi } ,最終產(chǎn)生一個(gè)在0 - 1范圍的表示x_{i} x_{j} 相似度的標(biāo)量啼止,稱為關(guān)系得分道逗。因此,在C-way one-shot設(shè)置中献烦,我們生成了查詢輸入x_{j} 和支持集樣本x_{i} 間對(duì)應(yīng)的C個(gè)關(guān)系得分r_{i滓窍,j}

K-shot.對(duì)于K-shot,其中K >1巩那,我們對(duì)每個(gè)訓(xùn)練類的所有樣本的嵌入模塊輸出按元素求和吏夯,形成該類的特征圖。這個(gè)合并的特征圖與上面的查詢圖像特征映射結(jié)合在一起即横。因此噪生,在one-shot或few-shot設(shè)置中,一個(gè)查詢圖的關(guān)系分?jǐn)?shù)總是C個(gè)东囚。

Objective function.我們使用均方誤差(MSE)損失(Eq.(2))來(lái)訓(xùn)練我們的模型杠园,regressing the relation scorer_{i,j} to the ground truth: 匹配的對(duì)相似度為1,不匹配的對(duì)相似度為0抛蚁。MSE的選擇有些不標(biāo)準(zhǔn)。我們的問(wèn)題似乎是一個(gè)標(biāo)簽空間{0,1}的分類問(wèn)題惕橙。然而瞧甩,我們?cè)诟拍钌项A(yù)測(cè)的是關(guān)系得分,這可以被認(rèn)為是一個(gè)回歸問(wèn)題弥鹦,盡管對(duì)于ground-truth肚逸,我們只能自動(dòng)生成{0,1}目標(biāo)。


圖1.RN架構(gòu)

3.3.Zero-shot Learning

Zero-shot learning類似于one-shot learning彬坏,即給出一個(gè)數(shù)據(jù)來(lái)定義要識(shí)別的每個(gè)類朦促。然而,它并沒(méi)有為每個(gè)C訓(xùn)練類提供一張圖片的支持集栓始,而是為每個(gè)C訓(xùn)練類包含一個(gè)語(yǔ)義類嵌入向量v_{c} 务冕。修改我們的框架來(lái)處理zero-shot問(wèn)題很簡(jiǎn)單:作為一個(gè)不同的形態(tài)語(yǔ)義向量用于支持集(例如,屬性向量而不是圖片),我們使用第二個(gè)異構(gòu)嵌入模塊f_{\varphi 2} 除了嵌入模塊f_{\varphi 1} 用于圖像查詢集幻赚。然后關(guān)系網(wǎng)絡(luò)g_{\varphi } 還是用之前的禀忆。因此,每個(gè)查詢輸入x_{j} 的關(guān)系得分為:

Zero-shot Learning的目標(biāo)函數(shù)與Few-shot Learning的一樣落恼。

3.4.網(wǎng)絡(luò)結(jié)構(gòu)

由于大多數(shù)小樣本學(xué)習(xí)模型使用四個(gè)卷積塊來(lái)嵌入模塊箩退,為了公平比較,我們遵循相同的架構(gòu)設(shè)置佳谦,見(jiàn)圖2戴涝。更具體地說(shuō),每個(gè)卷積塊分別包含一個(gè)64個(gè)filter 钻蔑,大小為3×3啥刻、一個(gè)BN和一個(gè)ReLU非線性層。前兩個(gè)塊還包含一個(gè)2×2的最大池化層矢棚,而后兩個(gè)沒(méi)有郑什。我們這樣做是因?yàn)槲覀冃枰敵鎏卣鲌D,為了關(guān)系模塊中的卷積層蒲肋。關(guān)系模塊由兩個(gè)卷積塊和兩個(gè)全連通層組成蘑拯。每個(gè)卷積塊是一個(gè)3×3的卷積,包含64個(gè)濾波器兜粘,然后是批處理歸一化申窘、ReLU非線性和2×2最大池化層。對(duì)于數(shù)據(jù)集Omniglot來(lái)說(shuō)孔轴,最后一個(gè)最大池化層的輸出大小為H = 64,對(duì)于數(shù)據(jù)集miniImageNet來(lái)說(shuō)剃法,H = 64?3?3 = 576。這兩個(gè)完全連接的層分別是8維和1維路鹰。除了輸出層為Sigmoid外贷洲,所有全連通層均為ReLU收厨,以便為我們所有版本的網(wǎng)絡(luò)架構(gòu)生成一個(gè)合理范圍內(nèi)的關(guān)系分?jǐn)?shù)。zero-shot學(xué)習(xí)架構(gòu)如圖3所示优构。在這種體系結(jié)構(gòu)中诵叁,DNN子網(wǎng)是一個(gè)在ImageNet上預(yù)先訓(xùn)練好的現(xiàn)有網(wǎng)絡(luò)(例如,Inception或ResNet)钦椭。

圖2.RN for Few-shot Learning
圖3.RN for Zero-shot Learning

四拧额、實(shí)驗(yàn)

4.1.Few-shot Recognition

settings.在小樣本學(xué)習(xí)的所有實(shí)驗(yàn)中使用Adam,初始學(xué)習(xí)率為10^-3 彪腔,每10萬(wàn)episode退火一半侥锦。我們所有的模型都是端到端,從頭到尾訓(xùn)練的沒(méi)有額外的數(shù)據(jù)集德挣。

baselines.我們比較了各種現(xiàn)有的先進(jìn)的小樣本識(shí)別基線恭垦,包括神經(jīng)統(tǒng)計(jì),有無(wú)微調(diào)的匹配網(wǎng)絡(luò)盲厌,MANN署照,有記憶的暹羅網(wǎng)絡(luò),卷積暹羅網(wǎng)絡(luò)吗浩,MAML建芙,元網(wǎng)絡(luò),原型網(wǎng)絡(luò)和元學(xué)習(xí)器LSTM 懂扼。

4.1.1 Omniglot

dataset.Omniglot包含來(lái)自50種不同字母的1623個(gè)字符(類)禁荸。每個(gè)類別包含20個(gè)不同人抽取的樣本。在[32阀湿,39赶熟,36]之后,我們通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行90°陷嘴,180°和270°的旋轉(zhuǎn)來(lái)擴(kuò)充新的類映砖,并使用1200個(gè)原始類加上輪次來(lái)進(jìn)行訓(xùn)練,剩余的423個(gè)類加上輪次來(lái)進(jìn)行測(cè)試灾挨。所有輸入圖像都被調(diào)整到28 × 28邑退。

training.除了K個(gè)樣本圖像之外,5-way 1-shot包含19個(gè)查詢圖像劳澄,5-way 5-shot具有15個(gè)查詢圖像地技,20-way 1-shot具有10個(gè)查詢圖像,20-way 5-shot對(duì)于每個(gè)訓(xùn)練集的每個(gè)C個(gè)樣本類具有5個(gè)查詢圖像秒拔。這意味著莫矗,例如,對(duì)于5路單鏡頭實(shí)驗(yàn),在一個(gè)訓(xùn)練集/小批量中有19 × 5 + 1 × 5 = 100個(gè)圖像作谚。

results.根據(jù)[36]三娩,我們?cè)贠mniglot上通過(guò)對(duì)測(cè)試集隨機(jī)生成的1000多集進(jìn)行平均來(lái)計(jì)算少鏡頭分類的準(zhǔn)確性。對(duì)于1-shot和5-shot實(shí)驗(yàn)食磕,我們?cè)跍y(cè)試過(guò)程中分別為每個(gè)類批處理一個(gè)和五個(gè)查詢圖像進(jìn)行評(píng)估尽棕。結(jié)果如表1所示。在所有實(shí)驗(yàn)設(shè)置下彬伦,我們都獲得了最高的性能,平均精度更高伊诵,標(biāo)準(zhǔn)偏差更低单绑,除了5-way 5-shot,我們的模型精度比[10]低0.1%曹宴。盡管許多替代方案有明顯更復(fù)雜的機(jī)制[27搂橙,8],或?qū)δ繕?biāo)問(wèn)題進(jìn)行微調(diào)[10笛坦,39]区转,但我們沒(méi)有。

4.1.2 miniImageNet

dataset.miniImagenet數(shù)據(jù)集最初由[39]提出版扩,由60废离,000幅彩色圖像組成,有100個(gè)類別礁芦,每個(gè)類別有600個(gè)例子蜻韭。我們遵循了[29]中介紹的分割方法,分別為64柿扣、16和20節(jié)課進(jìn)行訓(xùn)練肖方、驗(yàn)證和測(cè)試。16個(gè)驗(yàn)證類僅用于監(jiān)控概括性能未状。

training.遵循大多數(shù)現(xiàn)有的少鏡頭學(xué)習(xí)工作所采用的標(biāo)準(zhǔn)設(shè)置俯画,我們進(jìn)行了5-way 1-shot和5-shot的分類。除了K個(gè)樣本圖像之外司草,5-way 1-shot包含15個(gè)查詢圖像艰垂,5-way 5-shot在每個(gè)訓(xùn)練集對(duì)于C個(gè)樣本類中的每一個(gè)都有10個(gè)查詢圖像。這意味著翻伺,例如材泄,對(duì)于5-way 1-shot實(shí)驗(yàn),在一個(gè)訓(xùn)練集/小片段中有15×5+1×5?= 80個(gè)圖像吨岭。我們將輸入圖像調(diào)整到84 × 84拉宗。我們的模型是端到端的,從頭到尾訓(xùn)練的,隨機(jī)初始化旦事,沒(méi)有額外的訓(xùn)練集魁巩。

results.在[36]之后,我們?cè)诿考款愔信幚?5個(gè)查詢圖像姐浮,以在1-shot和5-shot場(chǎng)景中進(jìn)行評(píng)估谷遂,并且通過(guò)對(duì)測(cè)試集中隨機(jī)生成的600多集進(jìn)行平均來(lái)計(jì)算小樣本分類精度。從表2中卖鲤,我們可以看到肾扰,我們的模型在5-way 1-shot設(shè)置上實(shí)現(xiàn)了一流的性能,在5-way 5-shot設(shè)置上實(shí)現(xiàn)了競(jìng)爭(zhēng)結(jié)果蛋逾。然而集晚,由原型網(wǎng)絡(luò)[36]報(bào)告的1-shot結(jié)果要求在每個(gè)訓(xùn)練集上訓(xùn)練30-way 15個(gè)查詢,而5-shot結(jié)果在每個(gè)訓(xùn)練集上訓(xùn)練20-way 15個(gè)查詢区匣。當(dāng)每集訓(xùn)練用5-way15 query訓(xùn)練時(shí)偷拔,[36]一次評(píng)價(jià)只得到46.14±0.77%,明顯弱于我們亏钩。相比之下莲绰,我們所有的模型都是在5-way上訓(xùn)練的,每個(gè)訓(xùn)練集有1個(gè)1-shot查詢和5個(gè)5-shot查詢姑丑,訓(xùn)練查詢比[36]少得多蛤签。

表1
表2

4.2 Zero-shot Recognition (沒(méi)仔細(xì)看)

datasets and settings.我們遵循兩個(gè)ZSL設(shè)置:舊設(shè)置和[42]為訓(xùn)練/測(cè)試劈叉提供的新GBU設(shè)置。在[42]之前的大多數(shù)現(xiàn)有ZSL作品所采用的舊設(shè)置下彻坛,一些測(cè)試類也出現(xiàn)在ImageNet 1000類中顷啼,這些測(cè)試類已經(jīng)用于對(duì)圖像嵌入網(wǎng)絡(luò)進(jìn)行預(yù)處理,從而違反了零鏡頭假設(shè)昌屉。相比之下钙蒙,新的GBU設(shè)置確保沒(méi)有數(shù)據(jù)集的測(cè)試類出現(xiàn)在ImageNet 1000類中。在這兩種設(shè)置下间驮,測(cè)試集只能包含未看到的類別樣本(常規(guī)測(cè)試集設(shè)置)或看到的和未看到的類別樣本的混合躬厌。后者被稱為廣義零樣本學(xué)習(xí),在實(shí)踐中更為現(xiàn)實(shí)竞帽。兩個(gè)廣泛使用的ZSL基準(zhǔn)被選擇用于舊的設(shè)置:AwA(具有屬性的動(dòng)物)由50類動(dòng)物的30扛施,745幅圖像組成。它有一個(gè)固定的評(píng)估部分屹篓,有40個(gè)訓(xùn)練類別和10個(gè)測(cè)試類別疙渣。CUB(Calech-UCSD Birds-200-2011) 包含200種鳥(niǎo)類的11788幅圖像,其中有150個(gè)可見(jiàn)類和50個(gè)不相交的不可見(jiàn)類堆巧。選擇三個(gè)數(shù)據(jù)集用于GBU設(shè)置:AwA1妄荔、AwA2和CUB泼菌。新發(fā)布的AwA2 由50個(gè)級(jí)別的37322幅圖像組成,是AwA的擴(kuò)展啦租,而AwA1與AwA相同哗伯,但在GBU環(huán)境下。

Semantic representation.對(duì)于AwA篷角,我們使用來(lái)自[24]的連續(xù)85維類級(jí)屬性向量焊刹,所有最近的工作都使用了這個(gè)向量。對(duì)于CUB恳蹲,使用連續(xù)的312維類級(jí)屬性向量虐块。

Implementation details.在零樣本學(xué)習(xí)中,兩種不同的嵌入模塊用于兩種輸入模式嘉蕾。除非另有說(shuō)明非凌,否則我們使用InceOptionv2[38,17]作為在舊的常規(guī)設(shè)置中嵌入DNN的查詢圖像荆针,而使用ResNet101 [16]作為GBU和通用設(shè)置,分別將頂部池單元作為維度為D = 1024和2048的圖像嵌入颁糟。這個(gè)DNN是預(yù)先訓(xùn)練的ILSVRC 2012 1K分類航背,沒(méi)有微調(diào),如最近的深度ZSL工作[25棱貌,30玖媚,45]。MLP網(wǎng)絡(luò)用于嵌入語(yǔ)義屬性向量婚脱。對(duì)于AwA和CUB今魔,隱藏層FC1(圖3)的大小分別設(shè)置為1024和1200,輸出大小FC2設(shè)置為與兩個(gè)數(shù)據(jù)集的圖像嵌入相同的維度障贸。對(duì)于關(guān)系模塊错森,圖像和語(yǔ)義嵌入在被饋送到分別具有400和1200 AWa和CUB的隱藏層FC3尺寸的MLPs之前被連接。

我們?cè)贔C1和FC2中增加了權(quán)重衰減(L2正則化)篮洁,因?yàn)樵赯SL的跨模態(tài)映射中存在一個(gè)中心問(wèn)題[45]涩维,這個(gè)問(wèn)題可以通過(guò)將語(yǔ)義特征向量映射到具有正則化的視覺(jué)特征空間來(lái)最好地解決。之后袁波,使用FC3 & 4(關(guān)系模塊)計(jì)算語(yǔ)義表示(在視覺(jué)特征空間中)和視覺(jué)表示之間的關(guān)系瓦阐。由于在這一步中不存在傲慢問(wèn)題,因此不需要L2正則化/重量衰減篷牌。所有ZSL模型都是在嵌入網(wǎng)絡(luò)中用權(quán)重衰減105來(lái)訓(xùn)練的睡蟋。用亞當(dāng)[19]將學(xué)習(xí)速率初始化為10-5,然后每200枷颊,000次迭代退火一半戳杀。

Results under the old setting.對(duì)ZSL的常規(guī)評(píng)估该面,以及隨后的大部分前期工作,是假設(shè)測(cè)試數(shù)據(jù)都來(lái)自于看不見(jiàn)的類豺瘤。我們首先評(píng)估這個(gè)設(shè)置吆倦。我們?cè)诒?中比較了15種替代方法。僅使用屬性向量作為樣本類嵌入坐求,我們的模型在AwA上獲得了有競(jìng)爭(zhēng)力的結(jié)果蚕泽,在更具挑戰(zhàn)性的CUB數(shù)據(jù)集上獲得了最先進(jìn)的性能,遠(yuǎn)遠(yuǎn)超過(guò)了最相關(guān)的替代原型網(wǎng)絡(luò)[36]桥嗤。注意须妻,只考慮歸納法。最近的一些方法[48泛领,12荒吏,13]是無(wú)效的,因?yàn)樗鼈兺瑫r(shí)使用所有的測(cè)試數(shù)據(jù)進(jìn)行模型訓(xùn)練渊鞋,這給了它們很大的優(yōu)勢(shì)绰更,但代價(jià)是做出了在實(shí)際應(yīng)用中可能無(wú)法滿足的非常強(qiáng)的假設(shè),因此我們?cè)诖瞬蛔霰容^锡宋。

Results under the GBU setting.我們遵循[42]的評(píng)估設(shè)置儡湾。我們將我們的模型與表4中的11個(gè)備選ZSL模型進(jìn)行了比較。10個(gè)淺層模型的結(jié)果來(lái)自[42]执俩,最先進(jìn)的方法DEM [45]的結(jié)果來(lái)自作者的GitHub第1頁(yè)徐钠。我們可以看到,在AwA2和CUB上役首,我們的模型在使用調(diào)和平均度量測(cè)量的更現(xiàn)實(shí)的GZSL設(shè)置下特別強(qiáng)尝丐。而在AwA1上,我們的方法僅優(yōu)于DEM [45]衡奥。

5.Why does Relation Network Work?

5.1.與現(xiàn)有模型的關(guān)系

相關(guān)的先前少量工作使用固定的預(yù)先指定的距離度量爹袁,例如歐幾里德或余弦距離來(lái)執(zhí)行分類[39,36]杰赛。這些研究可以被視為距離度量學(xué)習(xí)呢簸,但是所有的學(xué)習(xí)都發(fā)生在特征嵌入中,并且給定所學(xué)習(xí)的嵌入乏屯,使用固定的度量根时。同樣相關(guān)的是傳統(tǒng)的度量學(xué)習(xí)方法[26,7]辰晕,其集中于學(xué)習(xí)固定特征表示的淺(線性)馬氏度量蛤迎。與先前工作的固定度量或固定特征和淺學(xué)習(xí)度量相比,關(guān)系網(wǎng)絡(luò)可以被視為既學(xué)習(xí)深度嵌入又學(xué)習(xí)深度非線性度量(相似性函數(shù))2含友。這些都是端到端的相互調(diào)整替裆,在很少的短期學(xué)習(xí)中相互支持校辩。為什么這可能特別有用?通過(guò)使用靈活的函數(shù)逼近器來(lái)學(xué)習(xí)相似性辆童,我們可以以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)良好的度量宜咒,而不必手動(dòng)選擇正確的度量(歐幾里德、余弦把鉴、馬氏)故黑。像[39,36]這樣的固定度量標(biāo)準(zhǔn)假設(shè)特征僅在元素方面進(jìn)行比較庭砍,而最相關(guān)的[36]假設(shè)嵌入后的線性可分性场晶。因此,這些嚴(yán)重依賴于學(xué)習(xí)的嵌入網(wǎng)絡(luò)的效率怠缸,并因此受到嵌入網(wǎng)絡(luò)產(chǎn)生不充分的區(qū)別性表示的程度的限制诗轻。相比之下,通過(guò)深入學(xué)習(xí)與嵌入相結(jié)合的非線性相似性揭北,關(guān)系網(wǎng)絡(luò)可以更好地識(shí)別匹配/不匹配對(duì)扳炬。

5.2.可視化

為了說(shuō)明前面關(guān)于學(xué)習(xí)輸入嵌入的充分性的觀點(diǎn),我們展示了一個(gè)綜合的例子搔体,其中現(xiàn)有的方法肯定會(huì)失敗鞠柄,并且我們的關(guān)系網(wǎng)絡(luò)可以由于使用深度關(guān)系模塊而成功。假設(shè)2D查詢和樣本輸入嵌入到關(guān)系模塊嫉柴,圖4(a)示出了固定2D查詢輸入的2D樣本輸入的空間。每個(gè)樣本輸入(像素)根據(jù)其是否匹配固定查詢而被著色奉呛。這表示嵌入模塊的輸出對(duì)于查詢和樣本集之間的普通(歐幾里德神經(jīng)網(wǎng)絡(luò))比較而言不夠有區(qū)別的情況计螺。在圖4(c)中,我們?cè)噲D通過(guò)馬氏度量學(xué)習(xí)關(guān)系模塊來(lái)學(xué)習(xí)匹配瞧壮,并且我們可以看到結(jié)果是不充分的登馒。在圖4(d)中,我們進(jìn)一步學(xué)習(xí)了查詢和樣本輸入的2-隱藏層MLP嵌入以及后續(xù)的馬哈拉諾比斯度量咆槽,這也是不夠的陈轿。只有通過(guò)學(xué)習(xí)相似性的全深度關(guān)系模塊,我們才能在圖4(b)中解決這個(gè)問(wèn)題秦忿。

在一個(gè)真實(shí)的問(wèn)題中麦射,比較嵌入的困難可能沒(méi)有這么極端,但它仍然具有挑戰(zhàn)性灯谣。我們定性地說(shuō)明了匹配兩個(gè)Omniglot示例查詢圖像(投影到2D的嵌入潜秋,圖5(左))的挑戰(zhàn),方法是顯示一個(gè)由匹配(青色)或不匹配(洋紅色)著色的真實(shí)樣本圖像與兩個(gè)示例查詢(黃色)的類似圖胎许。在標(biāo)準(zhǔn)假設(shè)[39峻呛,36罗售,26,7]下钩述,青色匹配樣本應(yīng)該是具有某種度量(歐幾里德寨躁、余弦、馬氏)的黃色查詢圖像的最近鄰居牙勘。但是我們可以看到职恳,匹配關(guān)系比這個(gè)更復(fù)雜。在圖5(右)中谜悟,我們根據(jù)每個(gè)查詢樣本對(duì)的2D主成分分析表示繪制了相同的兩個(gè)示例查詢话肖,如關(guān)系模塊的倒數(shù)第二層所示。我們可以看到葡幸,關(guān)系網(wǎng)絡(luò)已經(jīng)將數(shù)據(jù)映射到一個(gè)空間中最筒,在這個(gè)空間中,(誤)匹配對(duì)是線性可分的蔚叨。

圖4
圖5
表3
表4

6.結(jié)論

我們提出了一個(gè)簡(jiǎn)單的方法床蜘,稱為小樣本和零樣本學(xué)習(xí)的關(guān)系網(wǎng)絡(luò)。關(guān)系網(wǎng)絡(luò)學(xué)習(xí)一個(gè)用于比較查詢和樣本項(xiàng)的嵌入和深度非線性距離度量蔑水。使用episode訓(xùn)練對(duì)網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練邢锯,調(diào)整嵌入和距離度量,以實(shí)現(xiàn)有效的小樣本學(xué)習(xí)搀别。這種方法比最近的小樣本元學(xué)習(xí)方法簡(jiǎn)單有效得多丹擎,并且產(chǎn)生了最先進(jìn)的結(jié)果。它進(jìn)一步證明了在傳統(tǒng)和一般的零樣本設(shè)置都有效歇父。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蒂培,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子榜苫,更是在濱河造成了極大的恐慌护戳,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件垂睬,死亡現(xiàn)場(chǎng)離奇詭異媳荒,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)驹饺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門钳枕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人赏壹,你說(shuō)我怎么就攤上這事么伯。” “怎么了卡儒?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵田柔,是天一觀的道長(zhǎng)俐巴。 經(jīng)常有香客問(wèn)我,道長(zhǎng)硬爆,這世上最難降的妖魔是什么欣舵? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮缀磕,結(jié)果婚禮上缘圈,老公的妹妹穿的比我還像新娘。我一直安慰自己袜蚕,他們只是感情好糟把,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著牲剃,像睡著了一般遣疯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上凿傅,一...
    開(kāi)封第一講書(shū)人閱讀 49,785評(píng)論 1 290
  • 那天缠犀,我揣著相機(jī)與錄音,去河邊找鬼聪舒。 笑死辨液,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的箱残。 我是一名探鬼主播滔迈,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼被辑!你這毒婦竟也來(lái)了亡鼠?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤敷待,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后仁热,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體榜揖,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年抗蠢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了举哟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡迅矛,死狀恐怖妨猩,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情秽褒,我是刑警寧澤壶硅,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布威兜,位于F島的核電站,受9級(jí)特大地震影響庐椒,放射性物質(zhì)發(fā)生泄漏椒舵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一约谈、第九天 我趴在偏房一處隱蔽的房頂上張望笔宿。 院中可真熱鬧,春花似錦棱诱、人聲如沸泼橘。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)炬灭。三九已至,卻和暖如春粪躬,著一層夾襖步出監(jiān)牢的瞬間担败,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工镰官, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留提前,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓泳唠,卻偏偏與公主長(zhǎng)得像狈网,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子笨腥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348