論文
資料1
基于度量的元學(xué)習(xí)(metric-based meta-learning)如今已成為少樣本學(xué)習(xí)研究過程中被廣泛應(yīng)用的一個(gè)范式馋没。這篇文章提出利用交叉模態(tài)信息(cross-modal information)來進(jìn)一步加強(qiáng)現(xiàn)有的度量元學(xué)習(xí)分類算法沪饺。
在本文中奏路,交叉模態(tài)是指視覺和語言的信息;結(jié)構(gòu)定義上來說視覺信息和語義信息有截然不同的特征空間璧尸,然而在識(shí)別任務(wù)上二者往往能夠相互輔助遮咖,某些情況下視覺信息比起語義文字信息更加直觀,也更加豐富懊烤,利于分類識(shí)別,而另一些情況下則恰恰相反宽堆,比如可獲得的視覺信息受限腌紧,那么語義表達(dá)自然是能夠提供強(qiáng)大的先驗(yàn)知識(shí)和背景補(bǔ)充來幫助學(xué)習(xí)提升。
參考少樣本學(xué)習(xí)時(shí)可能會(huì)遇到的困難樣本如下圖:左邊示例的每對(duì)圖片在視覺信息上非常類似畜隶,然而他們實(shí)際上歸屬語義相差很大的不同類別壁肋,右邊示例的每對(duì)圖片視覺信息差異較大,然而所屬的語義類別都是同一個(gè)籽慢。這兩組例子很好證明了當(dāng)視覺信息或語義信息之一缺失的情況下浸遗,少樣本分類學(xué)習(xí)由于樣本數(shù)目的匱乏,提供到的信息很可能是有噪聲同時(shí)偏局部的箱亿,很難區(qū)分類似的困難樣本乙帮。
根據(jù)如上的場景假設(shè),文章提出一個(gè)自適應(yīng)交叉混合的機(jī)制(Adaptive Modality Mixture Mechanism极景,AM3):針對(duì)將要被學(xué)習(xí)的圖像類別察净,自適應(yīng)地結(jié)合它存在于視覺和語義上的信息,從而大幅提升少樣本場景下的分類任務(wù)性能盼樟。具體來說氢卡,自適應(yīng)的 AM3 方法并沒有直接將兩個(gè)信息模塊對(duì)齊起來然后提供輔助,也沒有通過遷移學(xué)習(xí)轉(zhuǎn)化語義信息作為視覺特征輔助(類似視覺問答 VQA 任務(wù)那樣)晨缴,而是提出更優(yōu)的方式為译秦,在少樣本學(xué)習(xí)的測試階段獨(dú)立地處理兩個(gè)知識(shí)模塊,同時(shí)根據(jù)不同場景區(qū)分適應(yīng)性地利用兩個(gè)模塊信息击碗。
比如根據(jù)圖像所屬的種類筑悴,讓 AM3 能夠采用一種自適應(yīng)的凸結(jié)合(adaptive convex combination)方式糅合兩個(gè)表征空間并且調(diào)整模型關(guān)注側(cè)重點(diǎn),從而完成更精確的少樣本分類任務(wù)稍途。對(duì)于困難樣本阁吝,在上圖左邊不同類別視覺相似度高的情況下,AM3 側(cè)重語義信息(Semantic modality)從而獲得泛化的背景知識(shí)來區(qū)分不同類別械拍;而上圖右邊同類別圖片視覺差距大的情況下突勇,AM3 模型側(cè)重于視覺信息(Visual modality)豐富的局部特征從而更好捕捉同類圖片存在的共性。
在對(duì)整個(gè)算法有初步印象之后坷虑,我們結(jié)合 AM3 模型示意圖來觀察更多細(xì)節(jié):
首先少樣本分類采用的學(xué)習(xí)方式仍然是 K-way N-shot 的節(jié)點(diǎn)學(xué)習(xí)(episodic training)過程甲馋,一方面是來自 N 個(gè)類別的 K 張訓(xùn)練圖片 S 用作支撐集(Support Set),另一方面是來自同樣 N 個(gè)類別的測試圖片作為查詢集 Q(Query Set)迄损,并根據(jù)分類問題損失定義得到如下參數(shù)化的方程為優(yōu)化目標(biāo):
在基礎(chǔ)模型網(wǎng)絡(luò)方面定躏,AM3 采用了一個(gè)比較簡潔的 Prototypical Network 作為例子,但也可以延伸到其他網(wǎng)絡(luò)使用:利用支撐集為每個(gè)類別計(jì)算一個(gè)類似于聚類一樣的中心聚點(diǎn)(centroids),之后對(duì)應(yīng)的查詢集樣本只需與每個(gè)中心點(diǎn)計(jì)算距離就可以得到所屬類別痊远。對(duì)于每一個(gè)節(jié)點(diǎn) e(episode)都可以根據(jù)平均每個(gè)類別所屬支撐樣本的嵌入特征得到嵌入原型 Pc(embedding prototype)以及分布的函數(shù) p:
在 AM3 模型里绑谣,為了如之前說到的更靈活地捕捉語義空間的信息,文章在 Prototypical Network 的基礎(chǔ)上進(jìn)一步增加了一個(gè)預(yù)訓(xùn)練過的詞嵌入模型 W(word embedding)拗引,包含了所有類別的標(biāo)簽詞向量借宵,同時(shí)修改了原 Prototypical Network 的類別表征,改為同時(shí)考慮視覺表達(dá)與語義標(biāo)簽表達(dá)的結(jié)合矾削。而新模型 AM3 的嵌入原型 P』c 同學(xué)習(xí)函數(shù)壤玫,用類似正則項(xiàng)的更新方式得到為:
其中,是自適應(yīng)系數(shù)哼凯,定義為下式欲间,其中 h 作為自適應(yīng)混合函數(shù)(adaptive mixing network),令兩個(gè)模態(tài)混合起來如 Fig 2(a) 所示
上式 p(y=c|q,S,?)是作為該節(jié)點(diǎn)在 N 個(gè)類別上由模型學(xué)習(xí)到的分布断部,整體來說是根據(jù)查詢樣本 q 的嵌入表達(dá)到嵌入原型直接的距離 d猎贴,最終做了一個(gè) softmax 操作得到的。距離 d 在文章中簡單地采用了歐氏距離蝴光,模型通過梯度下降算法(SGD)最小化學(xué)習(xí)目標(biāo)損失 L(?)的同時(shí)她渴,也不停地更新迭代相關(guān)參數(shù)集合。
基于并不復(fù)雜的模型蔑祟,文章在少樣本數(shù)據(jù)集 miniImageNet趁耗,tieredImageNet 以及零樣本學(xué)習(xí)數(shù)據(jù)集上都驗(yàn)證了自己的方法,均取得了非常好的成績
總的來看 AM3 這個(gè)工作也提出了一個(gè)非常有意思的少樣本學(xué)習(xí)切入點(diǎn)疆虚,即多個(gè)空間的信息互相補(bǔ)足與制約苛败,AM3 網(wǎng)絡(luò)優(yōu)越性體現(xiàn)在結(jié)構(gòu)的簡潔和理論的完整性,目前該工作的代碼也已經(jīng)開源径簿,感興趣的讀者可以進(jìn)一步探索:除了 Prototypical Network 以外罢屈,更復(fù)雜的網(wǎng)絡(luò)以及包含更多的模態(tài)信息。
Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdf
Code: https://github.com/ElementAI/am3
資料2
1篇亭、introduction
這篇文章提出了一種將語義與視覺知識(shí)相結(jié)合的自適應(yīng)的cross-modal缠捌。視覺和語義特征空間根據(jù)定義具有不同的結(jié)構(gòu)。對(duì)于某些概念暗赶,視覺特征可能比文本特征更豐富鄙币,更具辨別力。但當(dāng)視覺信息在圖像分類中受到限制時(shí)蹂随,語義表示(從無監(jiān)督的文本語料庫中學(xué)習(xí))可以提供強(qiáng)大的先驗(yàn)知識(shí)和上下文以幫助學(xué)習(xí)。此文就是基于此開展研究的因惭,提出了Adaptive Modality Mixture Mechanism(AM3)岳锁,an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元學(xué)習(xí)方法上形成的蹦魔,通過比較在已學(xué)習(xí)的度量空間中的距離來實(shí)現(xiàn)分類激率。文章在原型網(wǎng)絡(luò)Prototypical Networks for Few-shot Learning的思想基礎(chǔ)上咳燕,加入了文本信息(即語義表達(dá))。
2乒躺、algorithm
在AM3中招盲,文章增加了基于度量的FSL方法,以結(jié)合由詞嵌入模型W學(xué)習(xí)的語言結(jié)構(gòu)(pre-trained on unsupervised large text corpora)嘉冒,在所有類別中包含了label embeddings曹货。由于考慮到了label embeddings,AM3對(duì)每個(gè)類修改了原型表達(dá)(prototype representation)讳推。有上圖(左)就可以看出AM3將視覺和語義特征表達(dá)的凸組合形成最終的類原型(category prototype)顶籽,參數(shù)化表示為:
其中:
對(duì)于每一個(gè)episode(片段)e,類c的嵌入原型(即support set的均值银觅,這里與原型網(wǎng)絡(luò)設(shè)計(jì)一致)礼饱。
few-shot learning分類的訓(xùn)練是通過在給定的support set來最小化在query set中樣本的預(yù)測損失。
訓(xùn)練時(shí)和原始的原型網(wǎng)絡(luò)相似究驴,但是這里距離度量改變了镊绪,AM3加入了語義信息,此時(shí)d為query point與cross-modal 原型的距離洒忧。上圖(右)現(xiàn)實(shí)了AM3的work過程镰吆;假設(shè)query 樣本q是屬于類別i的膨俐,但是在視覺信息上與q最相近的是(a)灵莲,(b)顯示了每個(gè)類的語義原型;在加入了語義嵌入時(shí)瘤缩,AM3修改了原型的位置(c)核行;通過更新牢硅,離q最近的原型為類i。
算法流程為:
3芝雪、experiments
文章分別在miniImageNet减余、tieredImageNet(few-shot learning)和CUB-200(zero-shot learning)上進(jìn)行實(shí)驗(yàn),結(jié)果表明AM3性能表現(xiàn)最好惩系,模型簡單且易擴(kuò)展位岔。實(shí)驗(yàn)中發(fā)現(xiàn)在ZSL領(lǐng)域中的方法擴(kuò)展到基于度量的方法(FSL)性能都提升了。其余詳細(xì)的內(nèi)容見原文堡牡。
總結(jié):
看完整片文章抒抬,AM3的亮點(diǎn)就是在原型網(wǎng)絡(luò)的基礎(chǔ)上將語義信息與視覺信息相結(jié)合,形成一種自適應(yīng)的模型晤柄,即當(dāng)樣本較少時(shí)擦剑,此時(shí)較小,文本信息占主要地位,當(dāng)較大時(shí)惠勒,視覺信息占主要地位赚抡。
————————————————
版權(quán)聲明:本文為CSDN博主「warm_in_spring」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議纠屋,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明涂臣。
原文鏈接:https://blog.csdn.net/warm_in_spring/article/details/98520385