創(chuàng)新:提出f-GAN 溅呢、 f-WGAN 和 f-CLSWGAN劲适、將WGAN的loss和Classfication的loss結(jié)合去讓generator生成的features更容易被鑒別出來尺栖。在本文中漓骚,提出了解決廣義零鏡頭學(xué)習(xí)的方法:通過一個新的GAN模型給unseen類生成 CNN 特征俯树。
問題定義:
U中樣本不可見废境,且(可見類與零樣本類不相交),ZSL任務(wù)學(xué)習(xí),GZSL任務(wù)學(xué)習(xí)
模型:
提出了三個有條件的GAN變種畜挨,即 f-GAN 、 f-WGAN 和 f-CLSWGAN噩凹,來生成圖像特征而不是圖像像素巴元。模型只是訓(xùn)練可見類數(shù)據(jù),但也可以生成unseen類的圖像特征驮宴,實(shí)驗(yàn)證明f-CLSWGAN效果最好逮刨。
f-GAN
給出訓(xùn)練數(shù)據(jù)S,學(xué)習(xí)一個條件生成器,采用隨機(jī)高斯噪聲和類嵌入(語義)作為輸入,輸出對應(yīng)類別的CNN特征堵泽,訓(xùn)練后可以輸入生成對應(yīng)的零樣本類別圖像特征修己。優(yōu)化目標(biāo)為(1)
discriminator D是一個多層感知器,以?sigmoid 函數(shù)作為最后一層。 D讓loss最大迎罗,G讓其最小箩退。
f-WGAN
WGAN與原始GAN第一種形式相比,只改了四點(diǎn):
①判別器最后一層去掉sigmoid ②生成器和判別器的loss不取log ③每次更新判別器的參數(shù)之后把它們的絕對值截?cái)嗟讲怀^一個固定常數(shù)c ④不用基于動量的優(yōu)化算法(包括momentum和Adam)佳谦,推薦RMSProp戴涝,SGD
通過將類嵌入 c (y) 集成到生成器和鑒別器中,改進(jìn)的方法擴(kuò)展了傳統(tǒng)的WGAN钻蔑。
方程2中的前兩個項(xiàng)近似 Wasserstein 距離啥刻,第三個項(xiàng)是梯度下降,強(qiáng)制梯度 D 沿直線在一對的真實(shí)和生成的點(diǎn)之間具有單位范數(shù)咪笑。是梯度下降系數(shù)可帽。
f-CLSWGAN
f-WGAN不能保證生成的 CNN 特征非常適合訓(xùn)練一個discriminative分類器。猜想這個問題可以通過鼓勵生成器構(gòu)造能夠被訓(xùn)練在輸入數(shù)據(jù)上的 discriminative 分類器正確分類的特征來解決窗怒。為此映跟,我們提出了在 f-CLSWGAN 公式中蓄拣,最大限度地減小classification loss。使用負(fù)log最大似然函數(shù):
是被預(yù)測成正確標(biāo)簽的概率努隙,條件概率是由一個線性的被參數(shù)化的softmax 分類器計(jì)算的球恤,softmax 分類器預(yù)先由真實(shí)的seen類的特征訓(xùn)練過。classification loss可以被認(rèn)為是一個規(guī)則器去加強(qiáng)生成器來構(gòu)造discriminative特征荸镊。優(yōu)化目標(biāo)變?yōu)椋?/p>
主要觀點(diǎn)是咽斧,以類特定的語義向量(屬性、語句描述)為條件躬存,生成unseen類的圖像特征张惹,訓(xùn)練分類器使之可以分類零樣本圖像。這減輕了 seen 和 unseen 類之間的不平衡岭洲,可以生成的 CNN 特征數(shù)量是沒有限制的宛逗。
實(shí)驗(yàn):
數(shù)據(jù)集和預(yù)處理
在CUB、FLO盾剩、SUN拧额、AWA1上進(jìn)行了實(shí)驗(yàn),從整個圖像中提取了101層的ResNet 的2048維頂層池化單元CNN特征彪腔。不進(jìn)行任何圖像預(yù)處理侥锦,例如裁剪或使用任何其他數(shù)據(jù)增強(qiáng)技術(shù)。 ResNet在ImageNet 1K上經(jīng)過預(yù)先培訓(xùn)德挣,未經(jīng)過微調(diào)恭垦。 作為嵌入類,使用AWA(85-dim)格嗅,CUB(312-dim)和SUN(102-dim)的每類屬性番挺。此外,對于CUB和Flowers屯掖,提取1024-dim基于字符的CNN-RNN 具有細(xì)粒度的視覺描述(每個圖像10個句子)玄柏。 在訓(xùn)練CNN-RNN期間沒有看到任何u句子。 通過平均屬于同一類的CNN-RNN特征建立每個類別的句子贴铜。
數(shù)據(jù)集 AWA粪摘,SUN,CUB和FLO
訓(xùn)練集即是seen類绍坝,測試集即是unseen類徘意, 隨機(jī)選擇但測試集中不包含ImageNet中包含的類
在大規(guī)模的實(shí)驗(yàn)中使用ImageNet
AWA是粗粒度數(shù)據(jù)集共30,475張圖片,50類轩褐,40個類用于訓(xùn)練(隨機(jī)選擇13個進(jìn)行驗(yàn)證)椎咧,10個進(jìn)行測試。 AWA有85個屬性把介。
Caltech-UCSD-Birds 200-2011(CUB)細(xì)粒度數(shù)據(jù)集勤讽,200類蟋座,11,788幅圖像。 312個屬性脚牍。150個訓(xùn)練類(50個驗(yàn)證類)和50個測試類向臀。
?SUN細(xì)粒度數(shù)據(jù)集,717類莫矗,14340個圖像,102個屬性砂缩。645類進(jìn)行訓(xùn)練(隨機(jī)選擇65表示val)作谚,72類測試。
Ox-ford Flowers(FLO)細(xì)粒度數(shù)據(jù)集庵芭,102類妹懒,8189張圖像,沒有屬性注釋双吆。論文中說明使用《Learning Deep Representations of Fine-Grained Visual Descriptions》一文中收集的細(xì)粒度視覺描述眨唬。
關(guān)于stc:每張圖片十個簡單描述語句,由《Learning Deep Representations of Fine-Grained Visual Descriptions》一文標(biāo)注好乐,目前沒有找到帶描述的數(shù)據(jù)集匾竿,根據(jù)這篇論文所述方法提取1024維字符級別的CNN-RNN特征作為c(u)和c(s)。
大規(guī)模ImageNet蔚万。在總共21K類中岭妖,1K類用于訓(xùn)練(200個類進(jìn)行驗(yàn)證),測試使用所有剩余的21K類或其子集反璃,根據(jù)類和類的總體之間的層次距離來確定這些子集昵慌。
評價標(biāo)準(zhǔn)
在測試時,在ZSL設(shè)置中淮蜈,目標(biāo)是為測試圖像分配一個unseen類標(biāo)簽斋攀,即u,在GZSL設(shè)置中梧田,搜索空間包括seen或unseen類淳蔼。使用“Zero-shot learning - the good, the bad and the ugly”中提出的統(tǒng)一評估協(xié)議。在ZSL設(shè)置中裁眯,在將累積和除以類的數(shù)量之前肖方,為每個類獨(dú)立計(jì)算平均準(zhǔn)確度; 也就是說,測量平均每類top1精度(T1)未状。 在GZSL設(shè)置中俯画,計(jì)算了所表示為s的所見類別(Ys)的平均每類top1精度,表示為u的未見類別(Yu)的平均每類top1精度及其調(diào)和平均值司草,即H = 2 *(s * u)/(s + u)艰垂。
實(shí)驗(yàn)配置
在所有f-xGAN模型中泡仗,發(fā)生器和鑒別器都是具有LeakyReLU激活的MLP。 該生成器由一個隱藏層組成猜憎,具有4096個隱藏單元娩怎。 它的輸出層是ReLU,因?yàn)槟繕?biāo)是學(xué)習(xí)ResNet-101的最大最大池化數(shù)胰柑。 雖然f-GAN的鑒別器有一個隱藏層截亦,有1024個隱藏單元以穩(wěn)定GAN訓(xùn)練,但f-WGAN和f-CLSWGAN的鑒別器有一個隱藏層有4096個隱藏單元柬讨,因?yàn)閃GAN 沒有不穩(wěn)定性問題崩瓤,因此可以在這里應(yīng)用更強(qiáng)的判別器。 不應(yīng)用batch normalization踩官,經(jīng)驗(yàn)評估表明却桶,當(dāng)使用batch normalization時,準(zhǔn)確度會顯著降低蔗牡。?噪聲z是從單位高斯繪制的颖系,具有與類嵌入相同的維數(shù)。 λ= 10和所有數(shù)據(jù)集中的β= 0.01辩越。
實(shí)驗(yàn)結(jié)果
在不同情況下分析f-xGAN
①穩(wěn)定性和泛化性
數(shù)據(jù)集:FLO嘁扼,CUB
比較的對象:Generative Moment Matching Networks
結(jié)果: 訓(xùn)練softmax分類器,生成seen類的特征并報(bào)告在測試集上的分類準(zhǔn)確性黔攒。而不是使用Parzen基于窗口的對數(shù)似然偷拔,因?yàn)椴环€(wěn)定。在這兩個數(shù)據(jù)集中亏钩,觀察到穩(wěn)定的訓(xùn)練趨勢莲绰。在FLO上,與用真實(shí)圖像獲得的監(jiān)督分類準(zhǔn)確性相比(用虛線標(biāo)記上限)姑丑,f-GAN即使收斂后仍然很弱蛤签,這表明f-GAN有不足之處。
強(qiáng)有力的替代方案是f-GMMN導(dǎo)致顯著的準(zhǔn)確性提升栅哀,然而f-WGAN和f-CLSWGAN的改進(jìn)超過f-GMMN并幾乎達(dá)到監(jiān)督上限震肮。
在確定f-xGAN訓(xùn)練表現(xiàn)得很穩(wěn)定,并產(chǎn)生高度概括的特征后留拾,評估f-xGAN生成器對于unseen類的泛化能力戳晌。使用預(yù)先訓(xùn)練的模型,生成unseen的類的CNN特征痴柔。然后使用這些unseen類的合成的CNN特征以及seen類的真實(shí)特征訓(xùn)練softmax分類器 具有真實(shí)CNN功能的看不見的類的功能沦偎。
下圖顯示了隨著unseen類生成特征從1到100的增加,準(zhǔn)確率的顯著提高,例如CUB為28.2%到56.5%豪嚎,F(xiàn)LO為37.9%至66.5%搔驼。根據(jù)生成seen類特征的情況,順序是 在CUB上侈询,f-GAN<f-WGAN<f-GMMN<f-CLSWGAN
在FLO上舌涨,f-GAN<f-GMMN<f-WGAN<f-CLSWGAN。有了這些結(jié)果扔字,認(rèn)為如果生成模型可以很好地推廣到以前unseen的數(shù)據(jù)分布囊嘉,例如在GZSL任務(wù)上表現(xiàn)很好,則他們有實(shí)用性用于各種實(shí)際應(yīng)用革为。因此扭粱,關(guān)于GZSL任務(wù)的生成模型,建議定量評估其性能篷角。
②CNN架構(gòu)的影響
數(shù)據(jù)集:CUB
比較對象:ResNet焊刹、GoogLeNet
結(jié)論: ResNet功能強(qiáng)于GoogLeNet系任。
此外恳蹲,在CNN架構(gòu)中,f-xGAN大幅超越“none”俩滥。GoogleNet特征的準(zhǔn)確率從25.8%提高到36.9%嘉蕾,ResNet特征由34.4%到49.7%。 表示f-xGAN不僅適用于ResNet-101也適用于其他CNN特征架構(gòu)霜旧。
③class embedding的影響
數(shù)據(jù)集:CUB
比較對象:ATT和SRC
結(jié)論:CUB上評估兩個不同的類嵌入错忱,每類屬性(att)和每類句子(stc),因?yàn)檫@是唯一同時具有這兩者的數(shù)據(jù)集挂据。在表4中以清,首先觀察到以ATT作為class embedding時,f-CLSWGAN特征生成不僅精度更高(49.7%對34.4%)崎逃,而且S和u更加平衡(57.7%和43.7%對62.8%和23.7%)掷倔。
最后,使用每類stc生成的f-CLSWGAN特征顯著改善了att的結(jié)果个绍,在H度量中達(dá)到54.0%勒葱,并且在不損害s精度(58.3%)的情況下得到了很好的u精度(50.3%)。這是由于STC能夠得到更高品質(zhì)的特征[35]反映了高度描述性的語義內(nèi)容的語言需要巴柿,它表明f-CLSWGAN 能夠?qū)W習(xí)更高質(zhì)量的CNN特征給予了較高質(zhì)量的調(diào)節(jié)信號凛虽。
大規(guī)模實(shí)驗(yàn)
數(shù)據(jù)集:ImageNet Att由Word2Vec來生成
比較對象:ALE
結(jié)論: 大規(guī)模實(shí)驗(yàn)遵循相同的ZSL數(shù)據(jù)分割。首先广恢,在ImageNet 上進(jìn)行了實(shí)驗(yàn)凯旋,它是最大規(guī)模的單標(biāo)簽圖像數(shù)據(jù)集,即具有21K類和14M圖像。其次瓦阐,由于ImageNet不包含att蜗侈,用(弱)調(diào)節(jié)信號Word2Vec [28]生成f-CLSWGAN特征。下圖表明softmax作為分類器獲得了在ImageNet上的ZSL和GZSL的現(xiàn)有技術(shù)睡蟋,顯著超越ALE [2]踏幻。這些結(jié)果表明f-CLSWGAN在Word2Vec作為類嵌入時也能夠產(chǎn)生高質(zhì)量的CNN特征。
對于ZSL戳杀,2H劃分中该面,本方法的表現(xiàn)幾乎是ALE的翻倍(5.38%至10.00%),在一個極端情況下,例如L1K劃分信卡,準(zhǔn)確性從2.85%提高到3.62%隔缀。對于GZSL,同樣的觀察結(jié)果傍菇,即ALE與本方法之間的差距是2.18 vs 4.38猾瘸,2H劃分,1.21 vs 2.50丢习,L1K劃分牵触。
請注意,[46]中表明SYNC [8]的結(jié)果最高咐低,本方法也改善了SYNC揽思,如2H劃分,9.26%vs2.00%,L1K劃分3.23%比3.56%见擦。這些結(jié)果強(qiáng)調(diào)钉汗,在監(jiān)督和Word2Vec信號一樣弱的情況下,本模型能夠生成unseen類的CNN特征鲤屡,并在ImageNet這樣大的規(guī)模運(yùn)作损痰。 本模型既適用于ZSL也適用于GZSL,適用于真實(shí)的圖像分類酒来。
生成特征與圖像的比較
數(shù)據(jù)集:CUB/FLO
比較對象:StackGAN【48】Stackgan: Text to photo-realistic image synthe- sis with stacked generative adversarial networks.
結(jié)論: 本文主要目標(biāo)是解決缺乏視覺訓(xùn)練樣本的GZSL任務(wù)卢未,其中一個很自然想法是圖像生成能夠達(dá)到同樣的目的。因此役首,這里比較在GZSL任務(wù)中生成圖像和圖像特征得到的精度尝丐。使用StackGAN [48]以句子為條件生成256×256的圖像。
在表5中衡奥,比較了none獲得的GZSL結(jié)果爹袁,即seen類在真實(shí)圖像上訓(xùn)練的ALE模型 ,Image矮固,即從StackGAN生成的256×256的合成圖像中提取的圖像特征[48]失息,CNN特征譬淳,即由f-CLSWGAN生成。
在“none”和“Image”之間盹兢,觀察到生成unseen類的圖像提高了性能邻梆,即FLO上的調(diào)和平均值(“Image”為49.0%vs 21.9%對于“none”),但在CUB上的表現(xiàn)降低了(31:9%“Image”vs 45:1%“none”)绎秒。這是因?yàn)樯渗B類比生成花的圖像更艱巨浦妄。觀察到盡管許多圖像具有像鳥或花那樣的精確視覺外觀,但是它們?nèi)狈Ρ匾谋鎰e細(xì)節(jié)以被正確分類并且所生成的圖像不是類一致的见芹。另一方面剂娄,產(chǎn)生CNN特征可以顯著提高準(zhǔn)確度,例如: CUB為54.0%玄呛,F(xiàn)LO為65.6%阅懦,明顯高于沒有生成,即none徘铝,和生成圖像耳胎。
本文認(rèn)為圖像特征生成具有以下優(yōu)點(diǎn): 首先,生成的圖像特征的數(shù)量是無限的惕它。 其次怕午,圖像特征生成從在大型數(shù)據(jù)集(如ImageNet)上訓(xùn)練的深度網(wǎng)絡(luò)獲得的緊湊不變表示中學(xué)習(xí),因此特征生成網(wǎng)絡(luò)可以非常簡潔怠缸,因此計(jì)算效率高诗轻。 第三钳宪,生成的CNN特征是高度辨別的揭北,即它們導(dǎo)致ZSL和GZSL的性能的顯著提升。 最后吏颖,圖像特征生成是一項(xiàng)更容易的任務(wù)搔体,因?yàn)樯傻臄?shù)據(jù)比識別所需的高質(zhì)量圖像的維度低得多。