Adaptive Cross-Modal Few-shot Learning論文閱讀

論文

資料1

基于度量的元學(xué)習(xí)（metric-based meta-learning）如今已成為少樣本學(xué)習(xí)研究過程中被廣泛應(yīng)用的一個(gè)范式馋没。這篇文章提出利用交叉模態(tài)信息（cross-modal information）來進(jìn)一步加強(qiáng)現(xiàn)有的度量元學(xué)習(xí)分類算法沪饺。

在本文中奏路，交叉模態(tài)是指視覺和語言的信息；結(jié)構(gòu)定義上來說視覺信息和語義信息有截然不同的特征空間璧尸，然而在識(shí)別任務(wù)上二者往往能夠相互輔助遮咖，某些情況下視覺信息比起語義文字信息更加直觀，也更加豐富懊烤，利于分類識(shí)別，而另一些情況下則恰恰相反宽堆，比如可獲得的視覺信息受限腌紧，那么語義表達(dá)自然是能夠提供強(qiáng)大的先驗(yàn)知識(shí)和背景補(bǔ)充來幫助學(xué)習(xí)提升。

參考少樣本學(xué)習(xí)時(shí)可能會(huì)遇到的困難樣本如下圖：左邊示例的每對(duì)圖片在視覺信息上非常類似畜隶，然而他們實(shí)際上歸屬語義相差很大的不同類別壁肋，右邊示例的每對(duì)圖片視覺信息差異較大，然而所屬的語義類別都是同一個(gè)籽慢。這兩組例子很好證明了當(dāng)視覺信息或語義信息之一缺失的情況下浸遗，少樣本分類學(xué)習(xí)由于樣本數(shù)目的匱乏，提供到的信息很可能是有噪聲同時(shí)偏局部的箱亿，很難區(qū)分類似的困難樣本乙帮。

image

根據(jù)如上的場景假設(shè)，文章提出一個(gè)自適應(yīng)交叉混合的機(jī)制（Adaptive Modality Mixture Mechanism极景，AM3）：針對(duì)將要被學(xué)習(xí)的圖像類別察净，自適應(yīng)地結(jié)合它存在于視覺和語義上的信息，從而大幅提升少樣本場景下的分類任務(wù)性能盼樟。具體來說氢卡，自適應(yīng)的 AM3 方法并沒有直接將兩個(gè)信息模塊對(duì)齊起來然后提供輔助，也沒有通過遷移學(xué)習(xí)轉(zhuǎn)化語義信息作為視覺特征輔助（類似視覺問答 VQA 任務(wù)那樣）晨缴，而是提出更優(yōu)的方式為译秦，在少樣本學(xué)習(xí)的測試階段獨(dú)立地處理兩個(gè)知識(shí)模塊，同時(shí)根據(jù)不同場景區(qū)分適應(yīng)性地利用兩個(gè)模塊信息击碗。

比如根據(jù)圖像所屬的種類筑悴，讓 AM3 能夠采用一種自適應(yīng)的凸結(jié)合（adaptive convex combination）方式糅合兩個(gè)表征空間并且調(diào)整模型關(guān)注側(cè)重點(diǎn)，從而完成更精確的少樣本分類任務(wù)稍途。對(duì)于困難樣本阁吝，在上圖左邊不同類別視覺相似度高的情況下，AM3 側(cè)重語義信息（Semantic modality）從而獲得泛化的背景知識(shí)來區(qū)分不同類別械拍；而上圖右邊同類別圖片視覺差距大的情況下突勇，AM3 模型側(cè)重于視覺信息（Visual modality）豐富的局部特征從而更好捕捉同類圖片存在的共性。

在對(duì)整個(gè)算法有初步印象之后坷虑，我們結(jié)合 AM3 模型示意圖來觀察更多細(xì)節(jié)：

image

首先少樣本分類采用的學(xué)習(xí)方式仍然是 K-way N-shot 的節(jié)點(diǎn)學(xué)習(xí)（episodic training）過程甲馋，一方面是來自 N 個(gè)類別的 K 張訓(xùn)練圖片 S 用作支撐集（Support Set），另一方面是來自同樣 N 個(gè)類別的測試圖片作為查詢集 Q（Query Set）迄损，并根據(jù)分類問題損失定義得到如下參數(shù)化的方程為優(yōu)化目標(biāo)：

image

在基礎(chǔ)模型網(wǎng)絡(luò)方面定躏，AM3 采用了一個(gè)比較簡潔的 Prototypical Network 作為例子，但也可以延伸到其他網(wǎng)絡(luò)使用：利用支撐集為每個(gè)類別計(jì)算一個(gè)類似于聚類一樣的中心聚點(diǎn)（centroids），之后對(duì)應(yīng)的查詢集樣本只需與每個(gè)中心點(diǎn)計(jì)算距離就可以得到所屬類別痊远。對(duì)于每一個(gè)節(jié)點(diǎn) e（episode）都可以根據(jù)平均每個(gè)類別所屬支撐樣本的嵌入特征得到嵌入原型 Pc（embedding prototype）以及分布的函數(shù) p：

image

在 AM3 模型里绑谣，為了如之前說到的更靈活地捕捉語義空間的信息，文章在 Prototypical Network 的基礎(chǔ)上進(jìn)一步增加了一個(gè)預(yù)訓(xùn)練過的詞嵌入模型 W（word embedding）拗引，包含了所有類別的標(biāo)簽詞向量借宵，同時(shí)修改了原 Prototypical Network 的類別表征，改為同時(shí)考慮視覺表達(dá)與語義標(biāo)簽表達(dá)的結(jié)合矾削。而新模型 AM3 的嵌入原型 P』c 同學(xué)習(xí)函數(shù)壤玫，用類似正則項(xiàng)的更新方式得到為：

其中， $\lamda$ 是自適應(yīng)系數(shù)哼凯，定義為下式欲间，其中 h 作為自適應(yīng)混合函數(shù)（adaptive mixing network），令兩個(gè)模態(tài)混合起來如 Fig 2(a) 所示

image

上式 p（y=c|q,S,?）是作為該節(jié)點(diǎn)在 N 個(gè)類別上由模型學(xué)習(xí)到的分布断部，整體來說是根據(jù)查詢樣本 q 的嵌入表達(dá)到嵌入原型直接的距離 d猎贴，最終做了一個(gè) softmax 操作得到的。距離 d 在文章中簡單地采用了歐氏距離蝴光，模型通過梯度下降算法（SGD）最小化學(xué)習(xí)目標(biāo)損失 L（?）的同時(shí)她渴，也不停地更新迭代相關(guān)參數(shù)集合。

基于并不復(fù)雜的模型蔑祟，文章在少樣本數(shù)據(jù)集 miniImageNet趁耗，tieredImageNet 以及零樣本學(xué)習(xí)數(shù)據(jù)集上都驗(yàn)證了自己的方法，均取得了非常好的成績

image

總的來看 AM3 這個(gè)工作也提出了一個(gè)非常有意思的少樣本學(xué)習(xí)切入點(diǎn)疆虚，即多個(gè)空間的信息互相補(bǔ)足與制約苛败，AM3 網(wǎng)絡(luò)優(yōu)越性體現(xiàn)在結(jié)構(gòu)的簡潔和理論的完整性，目前該工作的代碼也已經(jīng)開源径簿，感興趣的讀者可以進(jìn)一步探索：除了 Prototypical Network 以外罢屈，更復(fù)雜的網(wǎng)絡(luò)以及包含更多的模態(tài)信息。

Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdf

Code: https://github.com/ElementAI/am3

資料2

1篇亭、introduction
這篇文章提出了一種將語義與視覺知識(shí)相結(jié)合的自適應(yīng)的cross-modal缠捌。視覺和語義特征空間根據(jù)定義具有不同的結(jié)構(gòu)。對(duì)于某些概念暗赶，視覺特征可能比文本特征更豐富鄙币，更具辨別力。但當(dāng)視覺信息在圖像分類中受到限制時(shí)蹂随，語義表示（從無監(jiān)督的文本語料庫中學(xué)習(xí)）可以提供強(qiáng)大的先驗(yàn)知識(shí)和上下文以幫助學(xué)習(xí)。此文就是基于此開展研究的因惭，提出了Adaptive Modality Mixture Mechanism（AM3）岳锁，an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元學(xué)習(xí)方法上形成的蹦魔，通過比較在已學(xué)習(xí)的度量空間中的距離來實(shí)現(xiàn)分類激率。文章在原型網(wǎng)絡(luò)Prototypical Networks for Few-shot Learning的思想基礎(chǔ)上咳燕，加入了文本信息（即語義表達(dá)）。

2乒躺、algorithm

在AM3中招盲，文章增加了基于度量的FSL方法，以結(jié)合由詞嵌入模型W學(xué)習(xí)的語言結(jié)構(gòu)（pre-trained on unsupervised large text corpora)嘉冒，在所有類別中包含了label embeddings曹货。由于考慮到了label embeddings，AM3對(duì)每個(gè)類修改了原型表達(dá)（prototype representation）讳推。有上圖（左）就可以看出AM3將視覺和語義特征表達(dá)的凸組合形成最終的類原型（category prototype）顶籽，參數(shù)化表示為：

其中：

對(duì)于每一個(gè)episode（片段）e，類c的嵌入原型（即support set的均值银觅，這里與原型網(wǎng)絡(luò)設(shè)計(jì)一致）礼饱。

few-shot learning分類的訓(xùn)練是通過在給定的support set來最小化在query set中樣本的預(yù)測損失。

訓(xùn)練時(shí)和原始的原型網(wǎng)絡(luò)相似究驴，但是這里距離度量改變了镊绪，AM3加入了語義信息，此時(shí)d為query point與cross-modal 原型的距離洒忧。上圖（右）現(xiàn)實(shí)了AM3的work過程镰吆；假設(shè)query 樣本q是屬于類別i的膨俐，但是在視覺信息上與q最相近的是（a）灵莲，（b）顯示了每個(gè)類的語義原型；在加入了語義嵌入時(shí)瘤缩，AM3修改了原型的位置（c）核行；通過更新牢硅，離q最近的原型為類i。

算法流程為：

3芝雪、experiments
文章分別在miniImageNet减余、tieredImageNet（few-shot learning）和CUB-200（zero-shot learning）上進(jìn)行實(shí)驗(yàn)，結(jié)果表明AM3性能表現(xiàn)最好惩系，模型簡單且易擴(kuò)展位岔。實(shí)驗(yàn)中發(fā)現(xiàn)在ZSL領(lǐng)域中的方法擴(kuò)展到基于度量的方法（FSL)性能都提升了。其余詳細(xì)的內(nèi)容見原文堡牡。

總結(jié)：

看完整片文章抒抬，AM3的亮點(diǎn)就是在原型網(wǎng)絡(luò)的基礎(chǔ)上將語義信息與視覺信息相結(jié)合，形成一種自適應(yīng)的模型晤柄，即當(dāng)樣本較少時(shí)擦剑，此時(shí)較小，文本信息占主要地位，當(dāng)較大時(shí)惠勒，視覺信息占主要地位赚抡。
————————————————
版權(quán)聲明：本文為CSDN博主「warm_in_spring」的原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議纠屋，轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明涂臣。
原文鏈接：https://blog.csdn.net/warm_in_spring/article/details/98520385

最后編輯于：2020.03.29 14:35:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市售担，隨后出現(xiàn)的幾起案子赁遗，更是在濱河造成了極大的恐慌，老刑警劉巖灼舍，帶你破解...
沈念sama閱讀 211,265評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件吼和，死亡現(xiàn)場離奇詭異，居然都是意外死亡骑素，警方通過查閱死者的電腦和手機(jī)炫乓，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,078評(píng)論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來献丑，“玉大人末捣，你說我怎么就攤上這事〈撮希” “怎么了箩做？”我有些...
開封第一講書人閱讀 156,852評(píng)論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長妥畏。經(jīng)常有香客問我邦邦，道長，這世上最難降的妖魔是什么醉蚁？我笑而不...
開封第一講書人閱讀 56,408評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任燃辖，我火速辦了婚禮，結(jié)果婚禮上网棍，老公的妹妹穿的比我還像新娘黔龟。我一直安慰自己，他們只是感情好滥玷，可當(dāng)我...
茶點(diǎn)故事閱讀 65,445評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布氏身。她就那樣靜靜地躺著，像睡著了一般惑畴。火紅的嫁衣襯著肌膚如雪蛋欣。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,772評(píng)論 1贊 290
城市分裂傳說
那天桨菜，我揣著相機(jī)與錄音豁状，去河邊找鬼捉偏。笑死倒得，一個(gè)胖子當(dāng)著我的面吹牛泻红，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播霞掺，決...
沈念sama閱讀 38,921評(píng)論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼谊路，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了菩彬？” 一聲冷哼從身側(cè)響起缠劝，我...
開封第一講書人閱讀 37,688評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎骗灶，沒想到半個(gè)月后惨恭，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,130評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡耙旦，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,467評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年脱羡，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片免都。...
茶點(diǎn)故事閱讀 38,617評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡锉罐，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出绕娘，到底是詐尸還是另有隱情脓规，我是刑警寧澤，帶...
沈念sama閱讀 34,276評(píng)論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布险领，位于F島的核電站侨舆，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏绢陌。R本人自食惡果不足惜挨下，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,882評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望下面。院中可真熱鬧复颈，春花似錦、人聲如沸沥割。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,740評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽机杜。三九已至帜讲，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間椒拗，已是汗流浹背似将。一陣腳步聲響...
開封第一講書人閱讀 31,967評(píng)論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工获黔，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人在验。一個(gè)月前我還...
沈念sama閱讀 46,315評(píng)論 2贊 360
代替公主和親
正文我出身青樓玷氏，卻偏偏與公主長得像，于是被迫代替她去往敵國和親腋舌。傳聞我的和親對(duì)象是個(gè)殘疾皇子盏触，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,486評(píng)論 2贊 348

Adaptive Cross-Modal Few-shot Learning論文閱讀

論文

資料1

資料2

推薦閱讀更多精彩內(nèi)容