2018年投到arxiv芦圾, CVPR 2020囊扳。
一句話(huà):加入了任務(wù)特異性考慮的embedding預(yù)測(cè)模型瓤荔,inductive方法。
什么是embedding模式呢海蔽?指最后模型特征提取部分只用來(lái)獲得一個(gè)特征的embedding簸搞,而預(yù)測(cè)部分采取無(wú)參數(shù)的分類(lèi)器進(jìn)行(k nearest neighbors/prototype)。
與embedding對(duì)應(yīng)的則是端到端預(yù)測(cè)准潭。一般分類(lèi)器也擁有參數(shù)(FC趁俊,SVM),在處理上和特征提取器往往看作一個(gè)整體: 輸入樣本特征刑然,端到端輸出最終分類(lèi)概率分布寺擂。
算法核心思路如下:
特點(diǎn)在于一個(gè)任務(wù)只求一次梯度并且只對(duì)query set中數(shù)據(jù)求梯度,相當(dāng)于元學(xué)習(xí)去掉了內(nèi)循環(huán)泼掠。避開(kāi)了元學(xué)習(xí)的高階梯度問(wèn)題怔软。
那么本篇論文的核心就是如何設(shè)計(jì)中間新添加的對(duì)任務(wù)特異的中間網(wǎng)絡(luò),使之考慮一個(gè)任務(wù)的全局?jǐn)?shù)據(jù)信息set embedding择镇,而非單一樣本的instance embedding挡逼。
論文中采取了4種網(wǎng)絡(luò)架構(gòu):bi-lstm,DeepSets腻豌,GCN家坎,?Transformer。根據(jù)實(shí)驗(yàn)效果最好的是transformer吝梅。
BI-LSTM:set-set來(lái)說(shuō)虱疏,其實(shí)set輸入序列順序毫無(wú)疑問(wèn)會(huì)對(duì)最終得到的embedding有所影響,所以這種方式本質(zhì)上不滿(mǎn)足集合順序無(wú)關(guān)的性質(zhì)苏携。這個(gè)在match network里用作特征提取器做瞪,當(dāng)時(shí)設(shè)計(jì)還蠻復(fù)雜的,但是效果看來(lái)不一定是好的右冻。
DeepSets:滿(mǎn)足置換無(wú)關(guān)性(順序無(wú)關(guān))装蓬,本質(zhì)是先獲得整個(gè)集合的embedding再和輸入實(shí)例的embedding做融合。
這里考慮了殘差纱扭,并且求和操作替換為max效果更好牍帚。
GCN:節(jié)點(diǎn)為樣本,定義鄰接矩陣A為同類(lèi)別為1跪但,不同為0. 然后進(jìn)行歸一化處理:
由下式得到最終embedding履羞,由于同類(lèi)樣本間可以傳遞信息,所以也是一種考慮全局的embedding方式屡久。
Transformer:正常的scaled dot-product attention忆首。
既然已經(jīng)得到了我們的set2set embedding,接下來(lái)可以借助self-supervision 中的contrastive learning來(lái)增強(qiáng)我們模型被环,主要引入對(duì)應(yīng)contrastive learning loss糙及。
由此可見(jiàn)筛欢,兩項(xiàng)loss浸锨,一項(xiàng)是端到端的,另一項(xiàng)則是考查最后得到的特征的近似關(guān)系版姑,實(shí)際上這里就是執(zhí)行的一次prototype的分類(lèi)操作柱搜。
另一點(diǎn)需要提及的就是,本篇論文的模型初始化參數(shù)都是來(lái)自于一個(gè)前置預(yù)訓(xùn)練過(guò)程剥险,該過(guò)程是使用模型針對(duì)數(shù)據(jù)集中所有類(lèi)別直接進(jìn)行分類(lèi)訓(xùn)練聪蘸,最終保留特征提取器部分。
該預(yù)訓(xùn)練是否可以用于元學(xué)習(xí)表制,從scratch出發(fā)的元學(xué)習(xí)和預(yù)訓(xùn)練后的元學(xué)習(xí)有多大差異健爬?值得考慮。
實(shí)驗(yàn)部分么介,protoNet在預(yù)訓(xùn)練后吊著MAML打娜遵。FEAT又比protoNet好幾個(gè)點(diǎn)。除了標(biāo)準(zhǔn)的FSL部分外壤短,拓展了三個(gè):Domain Generalization设拟,Transductive FSL, Generalized FSL.
分別是之前講的領(lǐng)域泛化;包括測(cè)試集不帶標(biāo)簽數(shù)據(jù)的FSL久脯;以及把訓(xùn)練集和測(cè)試集類(lèi)別一起測(cè)試蒜绽。說(shuō)實(shí)話(huà)在generalized部分我覺(jué)得設(shè)計(jì)不夠合理,但是仍然能夠說(shuō)明模型性?xún)?yōu)越性桶现。然后Domain Generalization只對(duì)比了supervision這樣的baseline躲雅,而沒(méi)有和其他算法對(duì)比。Transductive部分拓展query set內(nèi)的數(shù)據(jù)后骡和,效果好了2個(gè)點(diǎn)相赁,可見(jiàn)還是有關(guān)系。
實(shí)驗(yàn)規(guī)模好大慰于,除了以上這三組外钮科,附錄中還有很多實(shí)驗(yàn),真好奇這么多組實(shí)驗(yàn)做了多久婆赠。