文中涉及的概念
Few-shot learning
每個類只有很少的可見例子(一般小于10)队贱,訓練一個模型對其分類色冀。
Zero-shot learning
現(xiàn)有一些可見的例子和一些不可見的例子潭袱,使用可見的例子訓練模型能夠?qū)Σ豢梢姷睦舆M行分類柱嫌。
Generalized zero-shot learning
現(xiàn)有一些可見的例子和一些不可見的例子,使用可見的例子訓練模型能夠?qū)λ械睦舆M行分類屯换。
Multi-modal alignment
多模態(tài)對齊编丘,尋找不同模態(tài)(如圖像、文字彤悔、語音)中的屬性的對應(yīng)關(guān)系嘉抓,文中主要是指多個VAE中的latent space的屬性的對齊。
本文主要的工作貢獻
- 訓練了多個VAE從不同模態(tài)晕窑,如圖像和類屬性抑片,中加密和解密特征,得到隱特征
- 通過對齊參數(shù)分布和減小跨模態(tài)重構(gòu)損失來使隱特征多模態(tài)對齊
- CADA-VAE證明了用于廣義零鏡頭學習的交叉模態(tài)嵌入模型比數(shù)據(jù)生成方法具有更好的性能杨赤,建立了新的state-of-the-art敞斋。
主要的難點詳解
數(shù)據(jù)增強的方式
不是增強數(shù)據(jù)本身而是增強數(shù)據(jù)的表達(隱特征)
VAE
變分自編碼是自編碼的一種,其學習得到的特征能夠用于生成更多的數(shù)據(jù)疾牲。也就是我們想通過很多可觀測到的X圖像分布來構(gòu)造出z特征植捎,通過調(diào)整z的屬性來得到更多不同的X1圖像分布,所以我們的任務(wù)可以描述為:
- 使用X通過編碼器計算得到z
- 通過z通過解碼器計算得到X1
- 讓q(z)與p(z|X)近可能的相似
這里的q(z)與p(z|X)是兩個概率分布,通常計算兩個概率分布的距離公式采用KL散度:
訓練VAE的損失函數(shù):
模態(tài)對齊的方式
這里兩種模態(tài)的特征都是用VAE生成的阳柔,第一個模態(tài)的特征z_1是使用圖像生成的焰枢,第二個模態(tài)的特征z_2是使用類屬性生成的,要使他們的屬性對齊文中采用了兩種損失函數(shù)舌剂。
交叉對齊損失
實際上就是將一張圖像x與其類屬性分別通過編碼器E_1济锄、E_2后得到的z_1、z_2交叉通過解碼器D_1霍转、D_2得到的x'計算歐式距離
分布對齊損失
這里實際上是在計算z_1荐绝、z_2的概率分布的相似程度,采用的是Wasserstein距離:
而分布對齊損失就是所有組合情況的Wasserstein距離之和:
整體的損失函數(shù)
就是上述三個損失函數(shù)的加權(quán)求和:
總結(jié)
作者提出的zero-shot learning的思想主要是如何將圖像通過一個VAE得到的特征與該圖像對應(yīng)的類屬性通過另一個VAE得到的特征對應(yīng)起來谴忧,這樣就可以將類屬性提取的特征可以與圖像提取的特征進行比較很泊,當一個未知圖像進入模型后就能計算出它的特征與各個類屬性的特征之間的距離,根據(jù)各個距離之間的比例就能實現(xiàn)zero-shot learning沾谓。