Adaptive Cross-Modal Few-shot Learning論文閱讀

論文

資料1

基于度量的元學(xué)習(xí)(metric-based meta-learning)如今已成為少樣本學(xué)習(xí)研究過程中被廣泛應(yīng)用的一個(gè)范式馋没。這篇文章提出利用交叉模態(tài)信息(cross-modal information)來進(jìn)一步加強(qiáng)現(xiàn)有的度量元學(xué)習(xí)分類算法沪饺。

在本文中奏路,交叉模態(tài)是指視覺和語言的信息;結(jié)構(gòu)定義上來說視覺信息和語義信息有截然不同的特征空間璧尸,然而在識(shí)別任務(wù)上二者往往能夠相互輔助遮咖,某些情況下視覺信息比起語義文字信息更加直觀,也更加豐富懊烤,利于分類識(shí)別,而另一些情況下則恰恰相反宽堆,比如可獲得的視覺信息受限腌紧,那么語義表達(dá)自然是能夠提供強(qiáng)大的先驗(yàn)知識(shí)和背景補(bǔ)充來幫助學(xué)習(xí)提升。

參考少樣本學(xué)習(xí)時(shí)可能會(huì)遇到的困難樣本如下圖:左邊示例的每對(duì)圖片在視覺信息上非常類似畜隶,然而他們實(shí)際上歸屬語義相差很大的不同類別壁肋,右邊示例的每對(duì)圖片視覺信息差異較大,然而所屬的語義類別都是同一個(gè)籽慢。這兩組例子很好證明了當(dāng)視覺信息或語義信息之一缺失的情況下浸遗,少樣本分類學(xué)習(xí)由于樣本數(shù)目的匱乏,提供到的信息很可能是有噪聲同時(shí)偏局部的箱亿,很難區(qū)分類似的困難樣本乙帮。

image

根據(jù)如上的場景假設(shè),文章提出一個(gè)自適應(yīng)交叉混合的機(jī)制(Adaptive Modality Mixture Mechanism极景,AM3):針對(duì)將要被學(xué)習(xí)的圖像類別察净,自適應(yīng)地結(jié)合它存在于視覺和語義上的信息,從而大幅提升少樣本場景下的分類任務(wù)性能盼樟。具體來說氢卡,自適應(yīng)的 AM3 方法并沒有直接將兩個(gè)信息模塊對(duì)齊起來然后提供輔助,也沒有通過遷移學(xué)習(xí)轉(zhuǎn)化語義信息作為視覺特征輔助(類似視覺問答 VQA 任務(wù)那樣)晨缴,而是提出更優(yōu)的方式為译秦,在少樣本學(xué)習(xí)的測試階段獨(dú)立地處理兩個(gè)知識(shí)模塊,同時(shí)根據(jù)不同場景區(qū)分適應(yīng)性地利用兩個(gè)模塊信息击碗。

比如根據(jù)圖像所屬的種類筑悴,讓 AM3 能夠采用一種自適應(yīng)的凸結(jié)合(adaptive convex combination)方式糅合兩個(gè)表征空間并且調(diào)整模型關(guān)注側(cè)重點(diǎn),從而完成更精確的少樣本分類任務(wù)稍途。對(duì)于困難樣本阁吝,在上圖左邊不同類別視覺相似度高的情況下,AM3 側(cè)重語義信息(Semantic modality)從而獲得泛化的背景知識(shí)來區(qū)分不同類別械拍;而上圖右邊同類別圖片視覺差距大的情況下突勇,AM3 模型側(cè)重于視覺信息(Visual modality)豐富的局部特征從而更好捕捉同類圖片存在的共性。

在對(duì)整個(gè)算法有初步印象之后坷虑,我們結(jié)合 AM3 模型示意圖來觀察更多細(xì)節(jié):

image

首先少樣本分類采用的學(xué)習(xí)方式仍然是 K-way N-shot 的節(jié)點(diǎn)學(xué)習(xí)(episodic training)過程甲馋,一方面是來自 N 個(gè)類別的 K 張訓(xùn)練圖片 S 用作支撐集(Support Set),另一方面是來自同樣 N 個(gè)類別的測試圖片作為查詢集 Q(Query Set)迄损,并根據(jù)分類問題損失定義得到如下參數(shù)化的方程為優(yōu)化目標(biāo):

image

在基礎(chǔ)模型網(wǎng)絡(luò)方面定躏,AM3 采用了一個(gè)比較簡潔的 Prototypical Network 作為例子,但也可以延伸到其他網(wǎng)絡(luò)使用:利用支撐集為每個(gè)類別計(jì)算一個(gè)類似于聚類一樣的中心聚點(diǎn)(centroids),之后對(duì)應(yīng)的查詢集樣本只需與每個(gè)中心點(diǎn)計(jì)算距離就可以得到所屬類別痊远。對(duì)于每一個(gè)節(jié)點(diǎn) e(episode)都可以根據(jù)平均每個(gè)類別所屬支撐樣本的嵌入特征得到嵌入原型 Pc(embedding prototype)以及分布的函數(shù) p:

image
image

在 AM3 模型里绑谣,為了如之前說到的更靈活地捕捉語義空間的信息,文章在 Prototypical Network 的基礎(chǔ)上進(jìn)一步增加了一個(gè)預(yù)訓(xùn)練過的詞嵌入模型 W(word embedding)拗引,包含了所有類別的標(biāo)簽詞向量借宵,同時(shí)修改了原 Prototypical Network 的類別表征,改為同時(shí)考慮視覺表達(dá)與語義標(biāo)簽表達(dá)的結(jié)合矾削。而新模型 AM3 的嵌入原型 P』c 同學(xué)習(xí)函數(shù)壤玫,用類似正則項(xiàng)的更新方式得到為:

其中,\lamda是自適應(yīng)系數(shù)哼凯,定義為下式欲间,其中 h 作為自適應(yīng)混合函數(shù)(adaptive mixing network),令兩個(gè)模態(tài)混合起來如 Fig 2(a) 所示

image

上式 p(y=c|q,S,?)是作為該節(jié)點(diǎn)在 N 個(gè)類別上由模型學(xué)習(xí)到的分布断部,整體來說是根據(jù)查詢樣本 q 的嵌入表達(dá)到嵌入原型直接的距離 d猎贴,最終做了一個(gè) softmax 操作得到的。距離 d 在文章中簡單地采用了歐氏距離蝴光,模型通過梯度下降算法(SGD)最小化學(xué)習(xí)目標(biāo)損失 L(?)的同時(shí)她渴,也不停地更新迭代相關(guān)參數(shù)集合。

基于并不復(fù)雜的模型蔑祟,文章在少樣本數(shù)據(jù)集 miniImageNet趁耗,tieredImageNet 以及零樣本學(xué)習(xí)數(shù)據(jù)集上都驗(yàn)證了自己的方法,均取得了非常好的成績

image
image

總的來看 AM3 這個(gè)工作也提出了一個(gè)非常有意思的少樣本學(xué)習(xí)切入點(diǎn)疆虚,即多個(gè)空間的信息互相補(bǔ)足與制約苛败,AM3 網(wǎng)絡(luò)優(yōu)越性體現(xiàn)在結(jié)構(gòu)的簡潔和理論的完整性,目前該工作的代碼也已經(jīng)開源径簿,感興趣的讀者可以進(jìn)一步探索:除了 Prototypical Network 以外罢屈,更復(fù)雜的網(wǎng)絡(luò)以及包含更多的模態(tài)信息。

Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdf

Code: https://github.com/ElementAI/am3

資料2

1篇亭、introduction
這篇文章提出了一種將語義與視覺知識(shí)相結(jié)合的自適應(yīng)的cross-modal缠捌。視覺和語義特征空間根據(jù)定義具有不同的結(jié)構(gòu)。對(duì)于某些概念暗赶,視覺特征可能比文本特征更豐富鄙币,更具辨別力。但當(dāng)視覺信息在圖像分類中受到限制時(shí)蹂随,語義表示(從無監(jiān)督的文本語料庫中學(xué)習(xí))可以提供強(qiáng)大的先驗(yàn)知識(shí)和上下文以幫助學(xué)習(xí)。此文就是基于此開展研究的因惭,提出了Adaptive Modality Mixture Mechanism(AM3)岳锁,an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元學(xué)習(xí)方法上形成的蹦魔,通過比較在已學(xué)習(xí)的度量空間中的距離來實(shí)現(xiàn)分類激率。文章在原型網(wǎng)絡(luò)Prototypical Networks for Few-shot Learning的思想基礎(chǔ)上咳燕,加入了文本信息(即語義表達(dá))。

2乒躺、algorithm

在AM3中招盲,文章增加了基于度量的FSL方法,以結(jié)合由詞嵌入模型W學(xué)習(xí)的語言結(jié)構(gòu)(pre-trained on unsupervised large text corpora)嘉冒,在所有類別中包含了label embeddings曹货。由于考慮到了label embeddings,AM3對(duì)每個(gè)類修改了原型表達(dá)(prototype representation)讳推。有上圖(左)就可以看出AM3將視覺和語義特征表達(dá)的凸組合形成最終的類原型(category prototype)顶籽,參數(shù)化表示為:

其中:

對(duì)于每一個(gè)episode(片段)e,類c的嵌入原型(即support set的均值银觅,這里與原型網(wǎng)絡(luò)設(shè)計(jì)一致)礼饱。

few-shot learning分類的訓(xùn)練是通過在給定的support set來最小化在query set中樣本的預(yù)測損失。

訓(xùn)練時(shí)和原始的原型網(wǎng)絡(luò)相似究驴,但是這里距離度量改變了镊绪,AM3加入了語義信息,此時(shí)d為query point與cross-modal 原型的距離洒忧。上圖(右)現(xiàn)實(shí)了AM3的work過程镰吆;假設(shè)query 樣本q是屬于類別i的膨俐,但是在視覺信息上與q最相近的是(a)灵莲,(b)顯示了每個(gè)類的語義原型;在加入了語義嵌入時(shí)瘤缩,AM3修改了原型的位置(c)核行;通過更新牢硅,離q最近的原型為類i。

算法流程為:

3芝雪、experiments
文章分別在miniImageNet减余、tieredImageNet(few-shot learning)和CUB-200(zero-shot learning)上進(jìn)行實(shí)驗(yàn),結(jié)果表明AM3性能表現(xiàn)最好惩系,模型簡單且易擴(kuò)展位岔。實(shí)驗(yàn)中發(fā)現(xiàn)在ZSL領(lǐng)域中的方法擴(kuò)展到基于度量的方法(FSL)性能都提升了。其余詳細(xì)的內(nèi)容見原文堡牡。

總結(jié):

看完整片文章抒抬,AM3的亮點(diǎn)就是在原型網(wǎng)絡(luò)的基礎(chǔ)上將語義信息與視覺信息相結(jié)合,形成一種自適應(yīng)的模型晤柄,即當(dāng)樣本較少時(shí)擦剑,此時(shí)較小,文本信息占主要地位,當(dāng)較大時(shí)惠勒,視覺信息占主要地位赚抡。
————————————————
版權(quán)聲明:本文為CSDN博主「warm_in_spring」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議纠屋,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明涂臣。
原文鏈接:https://blog.csdn.net/warm_in_spring/article/details/98520385

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市售担,隨后出現(xiàn)的幾起案子赁遗,更是在濱河造成了極大的恐慌,老刑警劉巖灼舍,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吼和,死亡現(xiàn)場離奇詭異,居然都是意外死亡骑素,警方通過查閱死者的電腦和手機(jī)炫乓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來献丑,“玉大人末捣,你說我怎么就攤上這事〈撮希” “怎么了箩做?”我有些...
    開封第一講書人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長妥畏。 經(jīng)常有香客問我邦邦,道長,這世上最難降的妖魔是什么醉蚁? 我笑而不...
    開封第一講書人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任燃辖,我火速辦了婚禮,結(jié)果婚禮上网棍,老公的妹妹穿的比我還像新娘黔龟。我一直安慰自己,他們只是感情好滥玷,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開白布氏身。 她就那樣靜靜地躺著,像睡著了一般惑畴。 火紅的嫁衣襯著肌膚如雪蛋欣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,772評(píng)論 1 290
  • 那天桨菜,我揣著相機(jī)與錄音豁状,去河邊找鬼捉偏。 笑死倒得,一個(gè)胖子當(dāng)著我的面吹牛泻红,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播霞掺,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼谊路,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了菩彬?” 一聲冷哼從身側(cè)響起缠劝,我...
    開封第一講書人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎骗灶,沒想到半個(gè)月后惨恭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡耙旦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年脱羡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片免都。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锉罐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出绕娘,到底是詐尸還是另有隱情脓规,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布险领,位于F島的核電站侨舆,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏绢陌。R本人自食惡果不足惜挨下,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望下面。 院中可真熱鬧复颈,春花似錦、人聲如沸沥割。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽机杜。三九已至帜讲,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間椒拗,已是汗流浹背似将。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來泰國打工获黔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人在验。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓玷氏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親腋舌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子盏触,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 1. 論文摘要 傳統(tǒng)的零樣本學(xué)習(xí)(ZSL)方法通常學(xué)習(xí)嵌入,例如視覺語義映射块饺,以間接的方式處理看不見的視覺樣本赞辩。本...
    續(xù)袁閱讀 1,219評(píng)論 0 0
  • 1. 論文相關(guān) CVPR2018 2.摘要 最先進(jìn)的深度學(xué)習(xí)算法通常需要大量數(shù)據(jù)用于模型訓(xùn)練。缺乏可能嚴(yán)重惡化性能...
    續(xù)袁閱讀 472評(píng)論 0 1
  • 2019-05-02 哈爾濱第380期利他二組簡書作者 姓名:周翔 揚(yáng)州市方圓建筑工程有限公司 【日精進(jìn)打卡第35...
    香蕉香蕉_2917閱讀 300評(píng)論 0 0
  • 看著玻璃上模糊的自己 記起你也忘記了的事情 山丘里如水一般的日子 情緒很少 只有哭和笑 心里面沒有強(qiáng)烈的喧鬧 陪著...
    人與詩閱讀 198評(píng)論 0 2
  • 【朋朋日歷】 2018年 12月13日 星期四 第50周 狗年 冬月初七 戊戌年 甲子月 己卯日 ********...
    劉書朋閱讀 58評(píng)論 0 1