零樣本圖像識別 | Feature Generating Networks for Zero-Shot Learning簡單論文筆記

創(chuàng)新：提出f-GAN 溅呢、 f-WGAN 和 f-CLSWGAN劲适、將WGAN的loss和Classfication的loss結(jié)合去讓generator生成的features更容易被鑒別出來尺栖。在本文中漓骚，提出了解決廣義零鏡頭學(xué)習(xí)的方法：通過一個新的GAN模型給unseen類生成 CNN 特征俯树。

問題定義：

可見類集合

零樣本類集合

U中樣本不可見废境，且 $S\cap U=\oslash$ (可見類與零樣本類不相交),ZSL任務(wù)學(xué)習(xí) $f_{zsl} =X \rightarrow Y^u$ ,GZSL任務(wù)學(xué)習(xí) $f_{gzsl} =X\rightarrow Y^s \cup Y^u$

模型：

提出了三個有條件的GAN變種畜挨，即 f-GAN 、 f-WGAN 和 f-CLSWGAN噩凹，來生成圖像特征而不是圖像像素巴元。模型只是訓(xùn)練可見類數(shù)據(jù)，但也可以生成unseen類的圖像特征驮宴，實(shí)驗(yàn)證明f-CLSWGAN效果最好逮刨。

f-GAN

給出訓(xùn)練數(shù)據(jù)S，學(xué)習(xí)一個條件生成器 $G：Z\times C\rightarrow X$ ,采用隨機(jī)高斯噪聲 $z$ 和類嵌入（語義） $c(y)$ 作為輸入,輸出對應(yīng)類別的CNN特征 $\tilde{x}$ 堵泽，訓(xùn)練后可以輸入 $c(u)$ 生成對應(yīng)的零樣本類別圖像特征修己。優(yōu)化目標(biāo)為（1）

f-GAN loss

discriminator D是一個多層感知器,以?sigmoid 函數(shù)作為最后一層。 D讓loss最大迎罗，G讓其最小箩退。

f-WGAN

WGAN與原始GAN第一種形式相比，只改了四點(diǎn)：

①判別器最后一層去掉sigmoid ②生成器和判別器的loss不取log ③每次更新判別器的參數(shù)之后把它們的絕對值截?cái)嗟讲怀^一個固定常數(shù)c ④不用基于動量的優(yōu)化算法（包括momentum和Adam）佳谦，推薦RMSProp戴涝，SGD

通過將類嵌入 c (y) 集成到生成器和鑒別器中，改進(jìn)的方法擴(kuò)展了傳統(tǒng)的WGAN钻蔑。

f-WGAN loss

方程2中的前兩個項(xiàng)近似 Wasserstein 距離啥刻，第三個項(xiàng)是梯度下降，強(qiáng)制梯度 D 沿直線在一對的真實(shí)和生成的點(diǎn)之間具有單位范數(shù)咪笑。 $\lambda$ 是梯度下降系數(shù)可帽。

f-CLSWGAN

f-WGAN不能保證生成的 CNN 特征非常適合訓(xùn)練一個discriminative分類器。猜想這個問題可以通過鼓勵生成器構(gòu)造能夠被訓(xùn)練在輸入數(shù)據(jù)上的 discriminative 分類器正確分類的特征來解決窗怒。為此映跟，我們提出了在 f-CLSWGAN 公式中蓄拣，最大限度地減小classification loss。使用負(fù)log最大似然函數(shù):

CLS loss

$P(y|\tilde{x} ;\theta )$ 是 $\tilde{x}$ 被預(yù)測成正確標(biāo)簽 $y$ 的概率努隙，條件概率是由一個線性的被 $\theta$ 參數(shù)化的softmax 分類器計(jì)算的球恤，softmax 分類器預(yù)先由真實(shí)的seen類的特征訓(xùn)練過。classification loss可以被認(rèn)為是一個規(guī)則器去加強(qiáng)生成器來構(gòu)造discriminative特征荸镊。優(yōu)化目標(biāo)變?yōu)椋?/p>

f-CLSWGAN loss

f-CLSWGAN網(wǎng)絡(luò)結(jié)構(gòu)圖

主要觀點(diǎn)是咽斧，以類特定的語義向量（屬性、語句描述）為條件躬存，生成unseen類的圖像特征张惹，訓(xùn)練分類器使之可以分類零樣本圖像。這減輕了 seen 和 unseen 類之間的不平衡岭洲，可以生成的 CNN 特征數(shù)量是沒有限制的宛逗。

實(shí)驗(yàn)：

數(shù)據(jù)集和預(yù)處理

在CUB、FLO盾剩、SUN拧额、AWA1上進(jìn)行了實(shí)驗(yàn)，從整個圖像中提取了101層的ResNet 的2048維頂層池化單元CNN特征彪腔。不進(jìn)行任何圖像預(yù)處理侥锦，例如裁剪或使用任何其他數(shù)據(jù)增強(qiáng)技術(shù)。 ResNet在ImageNet 1K上經(jīng)過預(yù)先培訓(xùn)德挣，未經(jīng)過微調(diào)恭垦。作為嵌入類，使用AWA（85-dim）格嗅，CUB（312-dim）和SUN（102-dim）的每類屬性番挺。此外，對于CUB和Flowers屯掖，提取1024-dim基于字符的CNN-RNN 具有細(xì)粒度的視覺描述（每個圖像10個句子）玄柏。在訓(xùn)練CNN-RNN期間沒有看到任何u句子。通過平均屬于同一類的CNN-RNN特征建立每個類別的句子贴铜。

數(shù)據(jù)集 AWA粪摘，SUN，CUB和FLO

訓(xùn)練集即是seen類绍坝，測試集即是unseen類徘意，隨機(jī)選擇但測試集中不包含ImageNet中包含的類

在大規(guī)模的實(shí)驗(yàn)中使用ImageNet

AWA是粗粒度數(shù)據(jù)集共30,475張圖片，50類轩褐，40個類用于訓(xùn)練（隨機(jī)選擇13個進(jìn)行驗(yàn)證）椎咧，10個進(jìn)行測試。 AWA有85個屬性把介。

Caltech-UCSD-Birds 200-2011（CUB）細(xì)粒度數(shù)據(jù)集勤讽，200類蟋座，11,788幅圖像。 312個屬性脚牍。150個訓(xùn)練類（50個驗(yàn)證類）和50個測試類向臀。

?SUN細(xì)粒度數(shù)據(jù)集，717類莫矗，14340個圖像，102個屬性砂缩。645類進(jìn)行訓(xùn)練（隨機(jī)選擇65表示val）作谚，72類測試。

Ox-ford Flowers（FLO）細(xì)粒度數(shù)據(jù)集庵芭，102類妹懒，8189張圖像，沒有屬性注釋双吆。論文中說明使用《Learning Deep Representations of Fine-Grained Visual Descriptions》一文中收集的細(xì)粒度視覺描述眨唬。

關(guān)于stc：每張圖片十個簡單描述語句，由《Learning Deep Representations of Fine-Grained Visual Descriptions》一文標(biāo)注好乐，目前沒有找到帶描述的數(shù)據(jù)集匾竿，根據(jù)這篇論文所述方法提取1024維字符級別的CNN-RNN特征作為c(u)和c(s)。

大規(guī)模ImageNet蔚万。在總共21K類中岭妖，1K類用于訓(xùn)練（200個類進(jìn)行驗(yàn)證），測試使用所有剩余的21K類或其子集反璃，根據(jù)類和類的總體之間的層次距離來確定這些子集昵慌。

評價標(biāo)準(zhǔn)

在測試時，在ZSL設(shè)置中淮蜈，目標(biāo)是為測試圖像分配一個unseen類標(biāo)簽斋攀，即u，在GZSL設(shè)置中梧田，搜索空間包括seen或unseen類淳蔼。使用“Zero-shot learning - the good, the bad and the ugly”中提出的統(tǒng)一評估協(xié)議。在ZSL設(shè)置中裁眯，在將累積和除以類的數(shù)量之前肖方，為每個類獨(dú)立計(jì)算平均準(zhǔn)確度; 也就是說，測量平均每類top1精度（T1）未状。在GZSL設(shè)置中俯画，計(jì)算了所表示為s的所見類別（Ys）的平均每類top1精度，表示為u的未見類別（Yu）的平均每類top1精度及其調(diào)和平均值司草，即H = 2 *（s * u）/（s + u）艰垂。

實(shí)驗(yàn)配置

在所有f-xGAN模型中泡仗，發(fā)生器和鑒別器都是具有LeakyReLU激活的MLP。該生成器由一個隱藏層組成猜憎，具有4096個隱藏單元娩怎。它的輸出層是ReLU，因?yàn)槟繕?biāo)是學(xué)習(xí)ResNet-101的最大最大池化數(shù)胰柑。雖然f-GAN的鑒別器有一個隱藏層截亦，有1024個隱藏單元以穩(wěn)定GAN訓(xùn)練，但f-WGAN和f-CLSWGAN的鑒別器有一個隱藏層有4096個隱藏單元柬讨，因?yàn)閃GAN 沒有不穩(wěn)定性問題崩瓤，因此可以在這里應(yīng)用更強(qiáng)的判別器。 不應(yīng)用batch normalization踩官，經(jīng)驗(yàn)評估表明却桶，當(dāng)使用batch normalization時，準(zhǔn)確度會顯著降低蔗牡。?噪聲z是從單位高斯繪制的颖系，具有與類嵌入相同的維數(shù)。 λ= 10和所有數(shù)據(jù)集中的β= 0.01辩越。

實(shí)驗(yàn)結(jié)果

ZSL任務(wù)與GZSL任務(wù)實(shí)驗(yàn)結(jié)果

在不同情況下分析f-xGAN

①穩(wěn)定性和泛化性

數(shù)據(jù)集：FLO嘁扼，CUB

比較的對象：Generative Moment Matching Networks

結(jié)果：訓(xùn)練softmax分類器，生成seen類的特征并報(bào)告在測試集上的分類準(zhǔn)確性黔攒。而不是使用Parzen基于窗口的對數(shù)似然偷拔，因?yàn)椴环€(wěn)定。在這兩個數(shù)據(jù)集中亏钩，觀察到穩(wěn)定的訓(xùn)練趨勢莲绰。在FLO上，與用真實(shí)圖像獲得的監(jiān)督分類準(zhǔn)確性相比（用虛線標(biāo)記上限）姑丑，f-GAN即使收斂后仍然很弱蛤签，這表明f-GAN有不足之處。

強(qiáng)有力的替代方案是f-GMMN導(dǎo)致顯著的準(zhǔn)確性提升栅哀，然而f-WGAN和f-CLSWGAN的改進(jìn)超過f-GMMN并幾乎達(dá)到監(jiān)督上限震肮。

在確定f-xGAN訓(xùn)練表現(xiàn)得很穩(wěn)定，并產(chǎn)生高度概括的特征后留拾，評估f-xGAN生成器對于unseen類的泛化能力戳晌。使用預(yù)先訓(xùn)練的模型，生成unseen的類的CNN特征痴柔。然后使用這些unseen類的合成的CNN特征以及seen類的真實(shí)特征訓(xùn)練softmax分類器具有真實(shí)CNN功能的看不見的類的功能沦偎。

下圖顯示了隨著unseen類生成特征從1到100的增加，準(zhǔn)確率的顯著提高，例如CUB為28.2％到56.5％豪嚎，F(xiàn)LO為37.9％至66.5％搔驼。根據(jù)生成seen類特征的情況，順序是在CUB上侈询，f-GAN<f-WGAN<f-GMMN<f-CLSWGAN

在FLO上舌涨，f-GAN<f-GMMN<f-WGAN<f-CLSWGAN。有了這些結(jié)果扔字，認(rèn)為如果生成模型可以很好地推廣到以前unseen的數(shù)據(jù)分布囊嘉，例如在GZSL任務(wù)上表現(xiàn)很好，則他們有實(shí)用性用于各種實(shí)際應(yīng)用革为。因此扭粱，關(guān)于GZSL任務(wù)的生成模型，建議定量評估其性能篷角。

四種模型效果對比

訓(xùn)練次數(shù)以及預(yù)測時生成unseen樣本數(shù)量對結(jié)果的影響

②CNN架構(gòu)的影響

數(shù)據(jù)集：CUB

比較對象：ResNet焊刹、GoogLeNet

結(jié)論： ResNet功能強(qiáng)于GoogLeNet系任。

此外恳蹲，在CNN架構(gòu)中，f-xGAN大幅超越“none”俩滥。GoogleNet特征的準(zhǔn)確率從25.8％提高到36.9％嘉蕾，ResNet特征由34.4％到49.7％。表示f-xGAN不僅適用于ResNet-101也適用于其他CNN特征架構(gòu)霜旧。

使用不同CNN模型提取特征的效果對比

③class embedding的影響

數(shù)據(jù)集：CUB

比較對象：ATT和SRC

結(jié)論：CUB上評估兩個不同的類嵌入错忱，每類屬性（att）和每類句子（stc），因?yàn)檫@是唯一同時具有這兩者的數(shù)據(jù)集挂据。在表4中以清，首先觀察到以ATT作為class embedding時，f-CLSWGAN特征生成不僅精度更高（49.7％對34.4％）崎逃，而且S和u更加平衡（57.7％和43.7％對62.8％和23.7％）掷倔。

最后，使用每類stc生成的f-CLSWGAN特征顯著改善了att的結(jié)果个绍，在H度量中達(dá)到54.0％勒葱，并且在不損害s精度（58.3％）的情況下得到了很好的u精度（50.3％）。這是由于STC能夠得到更高品質(zhì)的特征[35]反映了高度描述性的語義內(nèi)容的語言需要巴柿，它表明f-CLSWGAN 能夠?qū)W習(xí)更高質(zhì)量的CNN特征給予了較高質(zhì)量的調(diào)節(jié)信號凛虽。

class embedding的影響

大規(guī)模實(shí)驗(yàn)

數(shù)據(jù)集：ImageNet Att由Word2Vec來生成

比較對象：ALE

結(jié)論：大規(guī)模實(shí)驗(yàn)遵循相同的ZSL數(shù)據(jù)分割。首先广恢，在ImageNet 上進(jìn)行了實(shí)驗(yàn)凯旋，它是最大規(guī)模的單標(biāo)簽圖像數(shù)據(jù)集，即具有21K類和14M圖像。其次瓦阐，由于ImageNet不包含att蜗侈，用（弱）調(diào)節(jié)信號Word2Vec [28]生成f-CLSWGAN特征。下圖表明softmax作為分類器獲得了在ImageNet上的ZSL和GZSL的現(xiàn)有技術(shù)睡蟋，顯著超越ALE [2]踏幻。這些結(jié)果表明f-CLSWGAN在Word2Vec作為類嵌入時也能夠產(chǎn)生高質(zhì)量的CNN特征。

對于ZSL戳杀，2H劃分中该面，本方法的表現(xiàn)幾乎是ALE的翻倍（5.38％至10.00％）,在一個極端情況下，例如L1K劃分信卡，準(zhǔn)確性從2.85％提高到3.62％隔缀。對于GZSL，同樣的觀察結(jié)果傍菇，即ALE與本方法之間的差距是2.18 vs 4.38猾瘸，2H劃分，1.21 vs 2.50丢习，L1K劃分牵触。

請注意，[46]中表明SYNC [8]的結(jié)果最高咐低，本方法也改善了SYNC揽思，如2H劃分，9.26％vs2.00％,L1K劃分3.23％比3.56％见擦。這些結(jié)果強(qiáng)調(diào)钉汗，在監(jiān)督和Word2Vec信號一樣弱的情況下，本模型能夠生成unseen類的CNN特征鲤屡，并在ImageNet這樣大的規(guī)模運(yùn)作损痰。本模型既適用于ZSL也適用于GZSL，適用于真實(shí)的圖像分類酒来。

ImageNet 上的實(shí)驗(yàn)效果

生成特征與圖像的比較

數(shù)據(jù)集：CUB/FLO

比較對象：StackGAN【48】Stackgan: Text to photo-realistic image synthe- sis with stacked generative adversarial networks.

結(jié)論：本文主要目標(biāo)是解決缺乏視覺訓(xùn)練樣本的GZSL任務(wù)卢未，其中一個很自然想法是圖像生成能夠達(dá)到同樣的目的。因此役首，這里比較在GZSL任務(wù)中生成圖像和圖像特征得到的精度尝丐。使用StackGAN [48]以句子為條件生成256×256的圖像。

在表5中衡奥，比較了none獲得的GZSL結(jié)果爹袁，即seen類在真實(shí)圖像上訓(xùn)練的ALE模型，Image矮固，即從StackGAN生成的256×256的合成圖像中提取的圖像特征[48]失息，CNN特征譬淳，即由f-CLSWGAN生成。

在“none”和“Image”之間盹兢，觀察到生成unseen類的圖像提高了性能邻梆，即FLO上的調(diào)和平均值（“Image”為49.0％vs 21.9％對于“none”），但在CUB上的表現(xiàn)降低了（31：9％“Image”vs 45：1％“none”）绎秒。這是因?yàn)樯渗B類比生成花的圖像更艱巨浦妄。觀察到盡管許多圖像具有像鳥或花那樣的精確視覺外觀，但是它們?nèi)狈Ρ匾谋鎰e細(xì)節(jié)以被正確分類并且所生成的圖像不是類一致的见芹。另一方面剂娄，產(chǎn)生CNN特征可以顯著提高準(zhǔn)確度，例如： CUB為54.0％玄呛，F(xiàn)LO為65.6％阅懦，明顯高于沒有生成，即none徘铝，和生成圖像耳胎。

本文認(rèn)為圖像特征生成具有以下優(yōu)點(diǎn)：首先，生成的圖像特征的數(shù)量是無限的惕它。其次怕午，圖像特征生成從在大型數(shù)據(jù)集（如ImageNet）上訓(xùn)練的深度網(wǎng)絡(luò)獲得的緊湊不變表示中學(xué)習(xí)，因此特征生成網(wǎng)絡(luò)可以非常簡潔怠缸，因此計(jì)算效率高诗轻。第三钳宪，生成的CNN特征是高度辨別的揭北，即它們導(dǎo)致ZSL和GZSL的性能的顯著提升。最后吏颖，圖像特征生成是一項(xiàng)更容易的任務(wù)搔体，因?yàn)樯傻臄?shù)據(jù)比識別所需的高質(zhì)量圖像的維度低得多。

生成圖像與生成特征的結(jié)果對比

最后編輯于：2020.04.14 09:40:44

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末半醉，一起剝皮案震驚了整個濱河市疚俱，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌缩多，老刑警劉巖呆奕，帶你破解...
沈念sama閱讀 216,744評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異衬吆，居然都是意外死亡梁钾，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,505評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門逊抡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來姆泻，“玉大人，你說我怎么就攤上這事∧床” “怎么了四苇？”我有些...
開封第一講書人閱讀 163,105評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長方咆。經(jīng)常有香客問我月腋，道長，這世上最難降的妖魔是什么瓣赂？我笑而不...
開封第一講書人閱讀 58,242評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任罗售，我火速辦了婚禮，結(jié)果婚禮上钩述，老公的妹妹穿的比我還像新娘寨躁。我一直安慰自己，他們只是感情好牙勘，可當(dāng)我...
茶點(diǎn)故事閱讀 67,269評論 6贊 389
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布职恳。她就那樣靜靜地躺著，像睡著了一般方面。火紅的嫁衣襯著肌膚如雪放钦。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,215評論 1贊 299
城市分裂傳說
那天恭金，我揣著相機(jī)與錄音操禀，去河邊找鬼。笑死横腿，一個胖子當(dāng)著我的面吹牛颓屑，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播耿焊，決...
沈念sama閱讀 40,096評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼揪惦，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了罗侯？” 一聲冷哼從身側(cè)響起器腋，我...
開封第一講書人閱讀 38,939評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎钩杰，沒想到半個月后纫塌，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,354評論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡讲弄，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,573評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年措左，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垂睬。...
茶點(diǎn)故事閱讀 39,745評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡媳荒，死狀恐怖抗悍，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情钳枕，我是刑警寧澤缴渊，帶...
沈念sama閱讀 35,448評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站鱼炒，受9級特大地震影響衔沼，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜昔瞧，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,048評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一指蚁、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧自晰，春花似錦凝化、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,683評論 0贊 22
一樁弒父案搓劫，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至混巧，卻和暖如春枪向，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背咧党。一陣腳步聲響...
開封第一講書人閱讀 32,838評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工秘蛔，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人傍衡。一個月前我還...
沈念sama閱讀 47,776評論 2贊 369
代替公主和親
正文我出身青樓深员，卻偏偏與公主長得像，于是被迫代替她去往敵國和親聪舒。傳聞我的和親對象是個殘疾皇子辨液，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,652評論 2贊 354

零樣本圖像識別 | Feature Generating Networks for Zero-Shot Learning簡單論文筆記

推薦閱讀更多精彩內(nèi)容