1. 論文摘要
傳統(tǒng)的零樣本學習(ZSL)方法通常學習嵌入巧骚,例如視覺語義映射赊颠,以間接的方式處理看不見的視覺樣本。本文利用生成對抗網(wǎng)絡(GANs)的優(yōu)點劈彪,提出了一種利用不變邊(invariant side)GAN(LisGAN)的方法竣蹦,該方法可以直接從語義描述約束的隨機噪聲中生成看不見的特征。具體地說沧奴,我們訓練了一個條件化的Wasserstein GANs痘括,在這個GANs中,生成器通過噪聲合成假的看不見的特征滔吠,鑒別器通過一個minimax游戲區(qū)分假的和真的纲菌。考慮到一個語義描述可以對應各種合成的視覺樣本疮绷,語義描述是生成特征的靈魂翰舌,本文引入了靈魂樣本作為生成零樣本學習的不變邊。靈魂樣本是一個類的元表示冬骚。它將同一類別中每個樣本最有語義意義的方面可視化椅贱。我們規(guī)定懂算,每個生成的樣本(生成ZSL的變化側(cè))應該至少接近一個具有相同類標簽的靈魂樣本(不變側(cè))。在零樣本識別階段庇麦,我們建議使用兩個分類器犯犁,它們以級聯(lián)方式部署,以獲得從粗到細的結(jié)果女器。在五個流行的基準上進行的實驗證明酸役,我們提出的方法可以在顯著改進的情況下優(yōu)于最先進的方法。
2. 主要思想
2.1 主要概念
(1)不變邊(invariant side)
靈魂樣本作為生成零樣本學習的不變邊驾胆。靈魂樣本是一個類的元表示涣澡。
(2)考慮到一個語義描述可以對應大量的視覺樣本,有限的語義信息限制了零樣本學習的性能丧诺。
2.2 主要挑戰(zhàn)
因此昧廷,零樣本學習的生成對抗網(wǎng)絡必須挑戰(zhàn)兩個問題:1)如何保證基于有限甚至相似屬性的生成具有多樣性潜圃?2)如何確保每個生成的樣本與真實樣本和對應的語義描述高度相關租副?
2.3 解決思路
首先郑藏,為了保證生成的樣本是有意義的,我們提出從隨機噪聲中生成樣本呵晚,這些隨機噪聲受類語義描述的約束蜘腌。同時,還引入了GAN鑒別器中的監(jiān)督分類損失饵隙,以保護對抗訓練中的班間歧視撮珠。此外,為了保證每個合成樣本(生成零鏡頭學習的變化側(cè))與真實樣本和相應的語義描述(不變側(cè))高度相關金矛,本文引入了靈魂樣本芯急,如圖3所示。對于未看到的類驶俊,生成的示例的視覺特征僅取決于語義描述娶耍。因此,語義信息是生成樣本的靈魂饼酿。靈魂樣本必須不是很具體榕酒,這樣它才能清楚地看到最有語義意義的方面,并盡可能多地與樣本相關嗜湃。因此奈应,對于所看到的圖像,我們定義靈魂樣本是它們的平均表示购披。對于生成的樣本,我們將其規(guī)則化為接近靈魂樣本肩榕。因此刚陡,我們可以保證每個生成的樣本都與真實的樣本和相應的語義描述高度相關惩妇。
2.4 主要貢獻
總之,本文的主要貢獻是:
1)我們提出了一種新的利用生成對抗網(wǎng)絡的ZSL方法LisGAN筐乳。具體來說歌殃,我們部署有條件的GANS來解決兩個問題:生成多樣性和生成可靠性。為了提高生成特征的質(zhì)量蝙云,我們引入了靈魂樣本氓皱,定義為每個類別的表示。通過進一步考慮不同圖像的多視角性質(zhì)勃刨,我們提出為每個類定義多個靈魂樣本波材。我們將每一個生成的樣本規(guī)則化,使其接近至少一個靈魂樣本身隐,從而使生成零鏡頭學習中的變化側(cè)不會脫離不變側(cè)廷区。
2)在零樣本識別階段,我們建議贾铝,如果我們對識別一個看不見的樣本有很高的信心隙轻,那么該樣本(帶有指定的偽標簽)將被用作識別其他看不見樣本的參考。具體地說垢揩,我們建議使用兩個分類器玖绿,以級聯(lián)的方式部署,以獲得從粗到細的結(jié)果叁巨。本文還提出了一種簡單而有效的分類置信度度量方法镰矿。
3)對五個廣泛使用的數(shù)據(jù)集進行了大量的實驗,驗證了我們提出的方法能夠以顯著的改進超越最先進的方法俘种。
3. 方法
3.1
語義描述秤标,二進制/數(shù)字向量或word embedding/RNN 特征。每個語義描述對應一個類別宙刘。
論文中GAN生成的是視覺特征而不是圖像像素苍姜。
3.2
Since the soul samples of a category should reflect the most remarkable characteristics of the class as much as possible, we deploy the average representation of all samples from the category c to define the soul sample of c, which is similar with prototypical networks for few-shot learning [31].
在本文中,為了確保每個生成的特征與語義描述和真實樣本高度相關悬包,我們引入了靈魂樣本來規(guī)范生成器衙猪。由于一個類別的靈魂樣本應該盡可能地反映出該類別最顯著的特征,因此我們使用該類別中所有樣本的平均表示來定義的靈魂樣本布近,這與用于少數(shù)鏡頭學習的原型網(wǎng)絡類似[31]垫释。
(2)Apart from generating visual features from noises, GANs can also be used for semantic augmentation in zero-shot learning. In our future work, we will incorporate semantic data augmentation in our model to cover more unseen samples.
嵌入方法通過間接的方式處理看不見的樣本,而GAN方法通過將其轉(zhuǎn)換為有監(jiān)督的學習任務來直接處理撑瞧。結(jié)果表明棵譬,GAN是一種很有前途的解決零樣本學習問題的方法。除了從噪聲中產(chǎn)生視覺特征外预伺,GANs還可以用于零樣本學習中的語義增強订咸。在我們未來的工作中曼尊,我們將在模型中加入語義數(shù)據(jù)擴充,以覆蓋更多未看到的樣本脏嚷。
(3)
我們的方法的性能提升可以歸結(jié)為兩個方面骆撇。一個是我們引入了靈魂樣本,以保證每個生成的樣本都與語義描述高度相關父叙。靈魂樣本的正則化也解決了多視圖特性神郊。因此,它可以自動處理零樣本學習中不同視圖引起的域移位問題趾唱。另一方面涌乳,我們的級聯(lián)分類器能夠利用來自第一個分類器的結(jié)果并加強第二個分類器。這種配方通過粗到細的方式提供結(jié)果鲸匿。結(jié)果表明爷怀,利用生成ZSL的不變邊是有益的。不變邊正則化保證了每一個合成樣本都與真實樣本和相應的語義描述高度相關带欢。
(4)we can see that our method generally has better accuracy on most of the categories. Notably, we can see that the accuracy on category “tvmonitor”, “donkey” and “jetski” are boosted around 10% against f-CLSWGAN. There is also a common phenomenon that the ZSL methods perform poorly on some unseen categories. We will investigate fine-grained / classwise zero-shot learning in our future work.
我們的方法在大多數(shù)類別上通常具有更好的準確性运授。值得注意的是,我們可以看到乔煞,與F-CLSWGAN相比吁朦,“電視監(jiān)視器”、“驢子”和“噴氣式飛機”類的精確度提高了10%左右渡贾。還有一種常見的現(xiàn)象逗宜,即zsl方法在某些看不見的類別上表現(xiàn)不佳。我們將在未來的工作中研究細粒度/類化的零樣本學習空骚。
參考論文
[1] [Leveraging theInvariant Side of Generative Zero-Shot Learning][https://arxiv.org/abs/1904.04092]