一晃都開學十天了來學習之后還是感覺有個適應期哈
拖到周末才來更新 希望三月順利~接下來能完成一個個任務!
今天更新的論文是比較早之前閱讀的 但是就是沒有認真過一遍 …
論文名稱:
《Few-Shot Learning as Domain Adaptation: Algorithm and Analysis》
論文地址:https://arxiv.org/pdf/2002.02050.pdf
論文閱讀參考:
https://blog.csdn.net/weixin_42137700/article/details/106927167
論文代碼:https://github.com/JiechaoGuan/FSL-DAPNA
本篇文章只記錄個人閱讀論文的筆記灵奖,具體翻譯、代碼等不展開蚯妇,詳細可見上述的鏈接.
(本文據(jù)說已經(jīng)被撤稿了……各位避雷避雷/博主也復現(xiàn)了代碼確實是差距有點多,但文章的邏輯還是具有一些可圈可點的地方)
Background
FSL is often formulatedas a form of transfer learning from the seen/source classes to the unseen/target ones.
However, there is an additional challenge which has been neglected so far, that is, the distribution of the unseen classes is different from that of those seen during training.
Such a distribution difference/shift is caused by class label difference. This differs from the problem domain difference as studied in the classic domain adaptation (DA) problems, where the source and target datasets contain the same classes but come from different domains (e.g., train a cat classifier on paintings and recognize cats in photos).However, it has the same effect of leading to poor generalization of the model trained on the source data, and thus can be considered as a special case of domain shift.
關于小樣本的域適應的背景以及域適應的概念,在前面的文章及閱讀筆記中均有提到,這里就不在展開敘述。
小樣本學習可以看作是從可見類圖片到未見類圖片的遷移學習霹琼。每一個可見類包含大量訓練樣本务傲,而每一未見類僅僅包含極少量的標注樣本凉当。未見類提供的訓練樣本稀少,以及可見類與未見類之間的數(shù)據(jù)分布不同售葡,是小樣本學習面臨的主要問題看杭。
而在理論中,通常假設訓練和測試數(shù)據(jù)來自相同的分布挟伙。但如果我們訓練受監(jiān)督學習者的源域與應用學習者的目標域有本質(zhì)上的不同楼雹,那么就不存在進行良好的泛化的可能性。(這也是在現(xiàn)實中遇到較多的情況)這時候做域適應就顯得尤為重要。
Work
Our contributions are: (1) For the first time, we propose that the conventional FSL problem must be solved together with the DA problem, and a novel DAPNA model is developed by introducing meta-DA into ProtoNet. (2) We provide the first rigorous learning bound of meta-learning based FSL in the area of FSL. (3) Our DAPNA model achieves new state-of-the-art performance on three standard FSL and one cross-domain FSL benchmark datasets.
(1)首次將領域遷移技術引入到小樣本學習中贮缅,用以增強小樣本學習模型的跨領域能力榨咐。
(2)在假定所有任務采自同一分布時,我們推導出了小樣本學習模型的泛化誤差上界谴供,為小樣本學習提供了理論保證块茁。
(3)我們所提出的DAPNA模型在小樣本學習領域的諸多標準數(shù)據(jù)集上取得了新的state-of-the-art 效果。
Model
本文提出的模型如上圖所示桂肌,大致可以分為兩個模塊:小樣本學習模塊和域適應模塊数焊,其中,小樣本學習模塊采用的是結(jié)合注意力機制的原型網(wǎng)絡崎场,域適應模塊中包含了一個自動編碼器和MDD(間隔差異)佩耳。下面詳細展開。
1.小樣本學習模塊
原型網(wǎng)絡即采用的是原型的分類器谭跨,即為支持集中每個類別計算出一個原型(每個類別所有樣本特征向量的平均值)干厚,然后根據(jù)查詢樣本的特征向量與各個類別原型之間的距離預測類別,螃宙,將距離轉(zhuǎn)換為分數(shù)后計算損失函數(shù)進行誤差反傳萍诱。
每一個類的原型是支持集中的樣本embedding的均值向量,其中Sc為支持集中每個類的樣本計算query instance和各個類原型間的距離污呼,通過softmax得到分類概率分布損失函數(shù)是根據(jù)具有 ground-truth 標簽c的查詢樣本xi的負對數(shù)概率來定義的:
2.注意力機制
在ProtoNet中裕坊,類被表示為少數(shù)訓練樣本的平均值。 然而燕酷,將類原型簡單地表示為樣本均值可能不是最優(yōu)策略籍凝,特別是當只有很少的樣本可用時,例如苗缩,單個外圍樣本可以在原型中引入較大的偏差饵蒂。故,引入了一種基于transformer的注意力機制來學習使用單類原型來表示一組訓練樣本的最佳方法酱讶。
關于此注意力機制詳細的可以參考:https://blog.csdn.net/weixin_39059031/article/details/108115662
http://arxiv.org/abs/1810.00825v3
這邊簡單敘述一下:
具體而言退盯,我們構造了一個三重態(tài)(查詢U、鍵K泻肯、值V):
查詢點與每個鍵都有一個值的鍵列表相匹配渊迁;
計算查詢點和鍵之間的相似性;
值表示為由計算的相似性加權的所有值的總和灶挟。
從形式上講琉朽,我們使用U來表示帶有K的查詢點集合,而V表示值
查詢點xi∈U與K中的鍵之間的相似性被計算為“注意"
這些注意事項被用作計算查詢點xi的最終嵌入的權重:
將所有圖片特征輸入到注意力機制網(wǎng)絡中得到新的圖片特征然后用以作為原型網(wǎng)絡的輸入稚铣,從而增強圖片特征在該任務中的表達能力和適應性箱叁。
用原型網(wǎng)絡的方法進行學習相應損失:
3.域適應模塊
這邊主要采用的是間隔差異即MDD[Margin Disparity Discrepancy]
具體的可以參考上一篇文章:http://www.reibang.com/p/33ff9f7dc463
這邊只貼一些圖和概念:
框架圖:
概念:
最終的領域遷移損失函數(shù)由間隔損失函數(shù)(Margin loss)和間隔差異(MDD)構成:
文章還提到了泛化誤差上界(引入MDD后的)墅垮,感興趣的可以看原文和附錄的推導。
Experiment
1)傳統(tǒng)小樣本學習實驗耕漱。
我們在小樣本學習的3個公開數(shù)據(jù)集上(miniImageNet算色,tieredImageNet, CUB)進行了傳統(tǒng)小樣本學習實驗(特征提取網(wǎng)絡是WRN螟够,有預訓練)剃允。
2)跨域?qū)嶒?br> 在跨領域小樣本學習數(shù)據(jù)集(miniImageNet->CUB)進行了跨域小樣本學習實驗(特征提取網(wǎng)絡是ResNet18,無預訓練齐鲤,復現(xiàn)了《A Closer Look at Few-shot Classification》)斥废。實驗結(jié)果表明我們提出的算法能夠取得新的SOTA結(jié)果,而且在跨領域小樣本學習實驗中這種優(yōu)勢更為明顯给郊,顯示出我們的算法模型的確具有較強的跨領域能力牡肉。
3)消融實驗
1.PN-原ProtoNet
2.PNA – Only the PNA loss Lp (In other words, we set α = β = 0)
3.PNA+PNA? – We just combine the PNA loss Lp over D and the PNA losses Lps, Lpt over two sub-episodes Ds, Dt( β = 0)
4.PNA+MDD – our DAPNA model without
using the PNA loss over two sub-episodes. That is, we set
α = 0
Note that our full DAPNA model can be denoted as PNA+MDD+PNA?
總結(jié)一下:
本文第一次將領域遷移技術引入到小樣本學習當中,用以減少小樣本學習中可見類與不可見類之間真實存在的領域間隔淆九,以此來提高模型的跨領域能力统锤。在假定所有訓練任務都采樣于同一分布的情況下,我們給出了小樣本學習算法模型的泛化誤差上界炭庙,同時我們也根據(jù)該誤差上界進行模型的優(yōu)化饲窿。
(感覺作者把小樣本由于不可見域?qū)е碌臄?shù)據(jù)分布差異可以看作是一種特殊的領域遷移問題,提出了一種基于注意力機制的領域遷移原型網(wǎng)絡 (DAPNA)焕蹄,去解決在元學習框架下的領域遷移問題逾雄。具體來說是在訓練過程中,我們將可見類的一個紀元 (episode腻脏,訓練單位)分拆成兩個類別完全不重合的子紀元(sub-episode)鸦泳,用以模擬從可見類到未見類的領域遷移)
Ending~
數(shù)學好難 算法好難
加油小李!