零樣本圖像識別 | Feature Generating Networks for Zero-Shot Learning簡單論文筆記

創(chuàng)新:提出f-GAN 溅呢、 f-WGAN f-CLSWGAN劲适、將WGAN的loss和Classficationloss結(jié)合去讓generator生成的features更容易被鑒別出來尺栖。在本文中漓骚,提出了解決廣義零鏡頭學(xué)習(xí)的方法:通過一個新的GAN模型給unseen類生成 CNN 特征俯树。


問題定義:

可見類集合


零樣本類集合

U中樣本不可見废境,且 S\cap U=\oslash(可見類與零樣本類不相交),ZSL任務(wù)學(xué)習(xí) f_{zsl} =X \rightarrow Y^u,GZSL任務(wù)學(xué)習(xí)f_{gzsl} =X\rightarrow Y^s \cup Y^u

模型:

提出了三個有條件的GAN變種畜挨,即 f-GAN 、 f-WGAN f-CLSWGAN噩凹,來生成圖像特征而不是圖像像素巴元。模型只是訓(xùn)練可見類數(shù)據(jù),但也可以生成unseen類的圖像特征驮宴,實(shí)驗(yàn)證明f-CLSWGAN效果最好逮刨。

f-GAN

給出訓(xùn)練數(shù)據(jù)S,學(xué)習(xí)一個條件生成器G:Z\times C\rightarrow X,采用隨機(jī)高斯噪聲z和類嵌入(語義)c(y)作為輸入,輸出對應(yīng)類別的CNN特征\tilde{x} 堵泽,訓(xùn)練后可以輸入c(u)生成對應(yīng)的零樣本類別圖像特征修己。優(yōu)化目標(biāo)為(1)

f-GAN loss

discriminator D是一個多層感知器,以?sigmoid 函數(shù)作為最后一層。 D讓loss最大迎罗,G讓其最小箩退。

f-WGAN

WGAN與原始GAN第一種形式相比,只改了四點(diǎn):

①判別器最后一層去掉sigmoid ②生成器和判別器的loss不取log ③每次更新判別器的參數(shù)之后把它們的絕對值截?cái)嗟讲怀^一個固定常數(shù)c ④不用基于動量的優(yōu)化算法(包括momentum和Adam)佳谦,推薦RMSProp戴涝,SGD

通過將類嵌入 c (y) 集成到生成器和鑒別器中,改進(jìn)的方法擴(kuò)展了傳統(tǒng)的WGAN钻蔑。

f-WGAN loss

方程2中的前兩個項(xiàng)近似 Wasserstein 距離啥刻,第三個項(xiàng)是梯度下降,強(qiáng)制梯度 D 沿直線在一對的真實(shí)和生成的點(diǎn)之間具有單位范數(shù)咪笑。\lambda 是梯度下降系數(shù)可帽。

f-CLSWGAN

f-WGAN不能保證生成的 CNN 特征非常適合訓(xùn)練一個discriminative分類器。猜想這個問題可以通過鼓勵生成器構(gòu)造能夠被訓(xùn)練在輸入數(shù)據(jù)上的 discriminative 分類器正確分類的特征來解決窗怒。為此映跟,我們提出了在 f-CLSWGAN 公式中蓄拣,最大限度地減小classification loss。使用負(fù)log最大似然函數(shù):

CLS loss

P(y|\tilde{x} ;\theta )\tilde{x} 被預(yù)測成正確標(biāo)簽y的概率努隙,條件概率是由一個線性的被\theta 參數(shù)化的softmax 分類器計(jì)算的球恤,softmax 分類器預(yù)先由真實(shí)的seen類的特征訓(xùn)練過。classification loss可以被認(rèn)為是一個規(guī)則器去加強(qiáng)生成器來構(gòu)造discriminative特征荸镊。優(yōu)化目標(biāo)變?yōu)椋?/p>

f-CLSWGAN loss
f-CLSWGAN網(wǎng)絡(luò)結(jié)構(gòu)圖

主要觀點(diǎn)是咽斧,以類特定的語義向量(屬性、語句描述)為條件躬存,生成unseen類的圖像特征张惹,訓(xùn)練分類器使之可以分類零樣本圖像。這減輕了 seen 和 unseen 類之間的不平衡岭洲,可以生成的 CNN 特征數(shù)量是沒有限制的宛逗。


實(shí)驗(yàn):

數(shù)據(jù)集和預(yù)處理

在CUB、FLO盾剩、SUN拧额、AWA1上進(jìn)行了實(shí)驗(yàn),從整個圖像中提取了101層的ResNet 的2048維頂層池化單元CNN特征彪腔。不進(jìn)行任何圖像預(yù)處理侥锦,例如裁剪或使用任何其他數(shù)據(jù)增強(qiáng)技術(shù)。 ResNet在ImageNet 1K上經(jīng)過預(yù)先培訓(xùn)德挣,未經(jīng)過微調(diào)恭垦。 作為嵌入類,使用AWA(85-dim)格嗅,CUB(312-dim)和SUN(102-dim)的每類屬性番挺。此外,對于CUB和Flowers屯掖,提取1024-dim基于字符的CNN-RNN 具有細(xì)粒度的視覺描述(每個圖像10個句子)玄柏。 在訓(xùn)練CNN-RNN期間沒有看到任何u句子。 通過平均屬于同一類的CNN-RNN特征建立每個類別的句子贴铜。

數(shù)據(jù)集 AWA粪摘,SUN,CUB和FLO

訓(xùn)練集即是seen類绍坝,測試集即是unseen類徘意, 隨機(jī)選擇但測試集中不包含ImageNet中包含的類

在大規(guī)模的實(shí)驗(yàn)中使用ImageNet

AWA是粗粒度數(shù)據(jù)集共30,475張圖片,50類轩褐,40個類用于訓(xùn)練(隨機(jī)選擇13個進(jìn)行驗(yàn)證)椎咧,10個進(jìn)行測試。 AWA有85個屬性把介。

Caltech-UCSD-Birds 200-2011(CUB)細(xì)粒度數(shù)據(jù)集勤讽,200類蟋座,11,788幅圖像。 312個屬性脚牍。150個訓(xùn)練類(50個驗(yàn)證類)和50個測試類向臀。

?SUN細(xì)粒度數(shù)據(jù)集,717類莫矗,14340個圖像,102個屬性砂缩。645類進(jìn)行訓(xùn)練(隨機(jī)選擇65表示val)作谚,72類測試。

Ox-ford Flowers(FLO)細(xì)粒度數(shù)據(jù)集庵芭,102類妹懒,8189張圖像,沒有屬性注釋双吆。論文中說明使用《Learning Deep Representations of Fine-Grained Visual Descriptions》一文中收集的細(xì)粒度視覺描述眨唬。

關(guān)于stc:每張圖片十個簡單描述語句,由《Learning Deep Representations of Fine-Grained Visual Descriptions》一文標(biāo)注好乐,目前沒有找到帶描述的數(shù)據(jù)集匾竿,根據(jù)這篇論文所述方法提取1024維字符級別的CNN-RNN特征作為c(u)和c(s)。

大規(guī)模ImageNet蔚万。在總共21K類中岭妖,1K類用于訓(xùn)練(200個類進(jìn)行驗(yàn)證),測試使用所有剩余的21K類或其子集反璃,根據(jù)類和類的總體之間的層次距離來確定這些子集昵慌。


評價標(biāo)準(zhǔn)

在測試時,在ZSL設(shè)置中淮蜈,目標(biāo)是為測試圖像分配一個unseen類標(biāo)簽斋攀,即u,在GZSL設(shè)置中梧田,搜索空間包括seen或unseen類淳蔼。使用“Zero-shot learning - the good, the bad and the ugly”中提出的統(tǒng)一評估協(xié)議。在ZSL設(shè)置中裁眯,在將累積和除以類的數(shù)量之前肖方,為每個類獨(dú)立計(jì)算平均準(zhǔn)確度; 也就是說,測量平均每類top1精度(T1)未状。 在GZSL設(shè)置中俯画,計(jì)算了所表示為s的所見類別(Ys)的平均每類top1精度,表示為u的未見類別(Yu)的平均每類top1精度及其調(diào)和平均值司草,即H = 2 *(s * u)/(s + u)艰垂。


實(shí)驗(yàn)配置

在所有f-xGAN模型中泡仗,發(fā)生器和鑒別器都是具有LeakyReLU激活的MLP。 該生成器由一個隱藏層組成猜憎,具有4096個隱藏單元娩怎。 它的輸出層是ReLU,因?yàn)槟繕?biāo)是學(xué)習(xí)ResNet-101的最大最大池化數(shù)胰柑。 雖然f-GAN的鑒別器有一個隱藏層截亦,有1024個隱藏單元以穩(wěn)定GAN訓(xùn)練,但f-WGAN和f-CLSWGAN的鑒別器有一個隱藏層有4096個隱藏單元柬讨,因?yàn)閃GAN 沒有不穩(wěn)定性問題崩瓤,因此可以在這里應(yīng)用更強(qiáng)的判別器。 不應(yīng)用batch normalization踩官,經(jīng)驗(yàn)評估表明却桶,當(dāng)使用batch normalization時,準(zhǔn)確度會顯著降低蔗牡。?噪聲z是從單位高斯繪制的颖系,具有與類嵌入相同的維數(shù)。 λ= 10和所有數(shù)據(jù)集中的β= 0.01辩越。


實(shí)驗(yàn)結(jié)果


ZSL任務(wù)與GZSL任務(wù)實(shí)驗(yàn)結(jié)果

在不同情況下分析f-xGAN

①穩(wěn)定性和泛化性

數(shù)據(jù)集:FLO嘁扼,CUB

比較的對象:Generative Moment Matching Networks

結(jié)果: 訓(xùn)練softmax分類器,生成seen類的特征并報(bào)告在測試集上的分類準(zhǔn)確性黔攒。而不是使用Parzen基于窗口的對數(shù)似然偷拔,因?yàn)椴环€(wěn)定。在這兩個數(shù)據(jù)集中亏钩,觀察到穩(wěn)定的訓(xùn)練趨勢莲绰。在FLO上,與用真實(shí)圖像獲得的監(jiān)督分類準(zhǔn)確性相比(用虛線標(biāo)記上限)姑丑,f-GAN即使收斂后仍然很弱蛤签,這表明f-GAN有不足之處。

強(qiáng)有力的替代方案是f-GMMN導(dǎo)致顯著的準(zhǔn)確性提升栅哀,然而f-WGAN和f-CLSWGAN的改進(jìn)超過f-GMMN并幾乎達(dá)到監(jiān)督上限震肮。

在確定f-xGAN訓(xùn)練表現(xiàn)得很穩(wěn)定,并產(chǎn)生高度概括的特征后留拾,評估f-xGAN生成器對于unseen類的泛化能力戳晌。使用預(yù)先訓(xùn)練的模型,生成unseen的類的CNN特征痴柔。然后使用這些unseen類的合成的CNN特征以及seen類的真實(shí)特征訓(xùn)練softmax分類器 具有真實(shí)CNN功能的看不見的類的功能沦偎。

下圖顯示了隨著unseen類生成特征從1到100的增加,準(zhǔn)確率的顯著提高,例如CUB為28.2%到56.5%豪嚎,F(xiàn)LO為37.9%至66.5%搔驼。根據(jù)生成seen類特征的情況,順序是 在CUB上侈询,f-GAN<f-WGAN<f-GMMN<f-CLSWGAN

在FLO上舌涨,f-GAN<f-GMMN<f-WGAN<f-CLSWGAN。有了這些結(jié)果扔字,認(rèn)為如果生成模型可以很好地推廣到以前unseen的數(shù)據(jù)分布囊嘉,例如在GZSL任務(wù)上表現(xiàn)很好,則他們有實(shí)用性用于各種實(shí)際應(yīng)用革为。因此扭粱,關(guān)于GZSL任務(wù)的生成模型,建議定量評估其性能篷角。


四種模型效果對比
訓(xùn)練次數(shù)以及預(yù)測時生成unseen樣本數(shù)量對結(jié)果的影響

②CNN架構(gòu)的影響

數(shù)據(jù)集:CUB

比較對象:ResNet焊刹、GoogLeNet

結(jié)論: ResNet功能強(qiáng)于GoogLeNet系任。

此外恳蹲,在CNN架構(gòu)中,f-xGAN大幅超越“none”俩滥。GoogleNet特征的準(zhǔn)確率從25.8%提高到36.9%嘉蕾,ResNet特征由34.4%到49.7%。 表示f-xGAN不僅適用于ResNet-101也適用于其他CNN特征架構(gòu)霜旧。


使用不同CNN模型提取特征的效果對比

③class embedding的影響

數(shù)據(jù)集:CUB

比較對象:ATT和SRC

結(jié)論:CUB上評估兩個不同的類嵌入错忱,每類屬性(att)和每類句子(stc),因?yàn)檫@是唯一同時具有這兩者的數(shù)據(jù)集挂据。在表4中以清,首先觀察到以ATT作為class embedding時,f-CLSWGAN特征生成不僅精度更高(49.7%對34.4%)崎逃,而且S和u更加平衡(57.7%和43.7%對62.8%和23.7%)掷倔。

最后,使用每類stc生成的f-CLSWGAN特征顯著改善了att的結(jié)果个绍,在H度量中達(dá)到54.0%勒葱,并且在不損害s精度(58.3%)的情況下得到了很好的u精度(50.3%)。這是由于STC能夠得到更高品質(zhì)的特征[35]反映了高度描述性的語義內(nèi)容的語言需要巴柿,它表明f-CLSWGAN 能夠?qū)W習(xí)更高質(zhì)量的CNN特征給予了較高質(zhì)量的調(diào)節(jié)信號凛虽。


class embedding的影響

大規(guī)模實(shí)驗(yàn)

數(shù)據(jù)集:ImageNet Att由Word2Vec來生成

比較對象:ALE

結(jié)論: 大規(guī)模實(shí)驗(yàn)遵循相同的ZSL數(shù)據(jù)分割。首先广恢,在ImageNet 上進(jìn)行了實(shí)驗(yàn)凯旋,它是最大規(guī)模的單標(biāo)簽圖像數(shù)據(jù)集,即具有21K類和14M圖像。其次瓦阐,由于ImageNet不包含att蜗侈,用(弱)調(diào)節(jié)信號Word2Vec [28]生成f-CLSWGAN特征。下圖表明softmax作為分類器獲得了在ImageNet上的ZSL和GZSL的現(xiàn)有技術(shù)睡蟋,顯著超越ALE [2]踏幻。這些結(jié)果表明f-CLSWGAN在Word2Vec作為類嵌入時也能夠產(chǎn)生高質(zhì)量的CNN特征。

對于ZSL戳杀,2H劃分中该面,本方法的表現(xiàn)幾乎是ALE的翻倍(5.38%至10.00%),在一個極端情況下,例如L1K劃分信卡,準(zhǔn)確性從2.85%提高到3.62%隔缀。對于GZSL,同樣的觀察結(jié)果傍菇,即ALE與本方法之間的差距是2.18 vs 4.38猾瘸,2H劃分,1.21 vs 2.50丢习,L1K劃分牵触。

請注意,[46]中表明SYNC [8]的結(jié)果最高咐低,本方法也改善了SYNC揽思,如2H劃分,9.26%vs2.00%,L1K劃分3.23%比3.56%见擦。這些結(jié)果強(qiáng)調(diào)钉汗,在監(jiān)督和Word2Vec信號一樣弱的情況下,本模型能夠生成unseen類的CNN特征鲤屡,并在ImageNet這樣大的規(guī)模運(yùn)作损痰。 本模型既適用于ZSL也適用于GZSL,適用于真實(shí)的圖像分類酒来。


ImageNet 上的實(shí)驗(yàn)效果

生成特征與圖像的比較

數(shù)據(jù)集:CUB/FLO

比較對象:StackGAN【48】Stackgan: Text to photo-realistic image synthe- sis with stacked generative adversarial networks.

結(jié)論: 本文主要目標(biāo)是解決缺乏視覺訓(xùn)練樣本的GZSL任務(wù)卢未,其中一個很自然想法是圖像生成能夠達(dá)到同樣的目的。因此役首,這里比較在GZSL任務(wù)中生成圖像和圖像特征得到的精度尝丐。使用StackGAN [48]以句子為條件生成256×256的圖像。

在表5中衡奥,比較了none獲得的GZSL結(jié)果爹袁,即seen類在真實(shí)圖像上訓(xùn)練的ALE模型 ,Image矮固,即從StackGAN生成的256×256的合成圖像中提取的圖像特征[48]失息,CNN特征譬淳,即由f-CLSWGAN生成。

在“none”和“Image”之間盹兢,觀察到生成unseen類的圖像提高了性能邻梆,即FLO上的調(diào)和平均值(“Image”為49.0%vs 21.9%對于“none”),但在CUB上的表現(xiàn)降低了(31:9%“Image”vs 45:1%“none”)绎秒。這是因?yàn)樯渗B類比生成花的圖像更艱巨浦妄。觀察到盡管許多圖像具有像鳥或花那樣的精確視覺外觀,但是它們?nèi)狈Ρ匾谋鎰e細(xì)節(jié)以被正確分類并且所生成的圖像不是類一致的见芹。另一方面剂娄,產(chǎn)生CNN特征可以顯著提高準(zhǔn)確度,例如: CUB為54.0%玄呛,F(xiàn)LO為65.6%阅懦,明顯高于沒有生成,即none徘铝,和生成圖像耳胎。

本文認(rèn)為圖像特征生成具有以下優(yōu)點(diǎn): 首先,生成的圖像特征的數(shù)量是無限的惕它。 其次怕午,圖像特征生成從在大型數(shù)據(jù)集(如ImageNet)上訓(xùn)練的深度網(wǎng)絡(luò)獲得的緊湊不變表示中學(xué)習(xí),因此特征生成網(wǎng)絡(luò)可以非常簡潔怠缸,因此計(jì)算效率高诗轻。 第三钳宪,生成的CNN特征是高度辨別的揭北,即它們導(dǎo)致ZSL和GZSL的性能的顯著提升。 最后吏颖,圖像特征生成是一項(xiàng)更容易的任務(wù)搔体,因?yàn)樯傻臄?shù)據(jù)比識別所需的高質(zhì)量圖像的維度低得多。


生成圖像與生成特征的結(jié)果對比
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末半醉,一起剝皮案震驚了整個濱河市疚俱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缩多,老刑警劉巖呆奕,帶你破解...
    沈念sama閱讀 216,744評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異衬吆,居然都是意外死亡梁钾,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評論 3 392
  • 文/潘曉璐 我一進(jìn)店門逊抡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姆泻,“玉大人,你說我怎么就攤上這事∧床” “怎么了四苇?”我有些...
    開封第一講書人閱讀 163,105評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長方咆。 經(jīng)常有香客問我月腋,道長,這世上最難降的妖魔是什么瓣赂? 我笑而不...
    開封第一講書人閱讀 58,242評論 1 292
  • 正文 為了忘掉前任罗售,我火速辦了婚禮,結(jié)果婚禮上钩述,老公的妹妹穿的比我還像新娘寨躁。我一直安慰自己,他們只是感情好牙勘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,269評論 6 389
  • 文/花漫 我一把揭開白布职恳。 她就那樣靜靜地躺著,像睡著了一般方面。 火紅的嫁衣襯著肌膚如雪放钦。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,215評論 1 299
  • 那天恭金,我揣著相機(jī)與錄音操禀,去河邊找鬼。 笑死横腿,一個胖子當(dāng)著我的面吹牛颓屑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播耿焊,決...
    沈念sama閱讀 40,096評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼揪惦,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了罗侯?” 一聲冷哼從身側(cè)響起器腋,我...
    開封第一講書人閱讀 38,939評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎钩杰,沒想到半個月后纫塌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,354評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡讲弄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,573評論 2 333
  • 正文 我和宋清朗相戀三年措左,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垂睬。...
    茶點(diǎn)故事閱讀 39,745評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡媳荒,死狀恐怖抗悍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情钳枕,我是刑警寧澤缴渊,帶...
    沈念sama閱讀 35,448評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站鱼炒,受9級特大地震影響衔沼,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜昔瞧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,048評論 3 327
  • 文/蒙蒙 一指蚁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧自晰,春花似錦凝化、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至混巧,卻和暖如春枪向,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背咧党。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評論 1 269
  • 我被黑心中介騙來泰國打工秘蛔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人傍衡。 一個月前我還...
    沈念sama閱讀 47,776評論 2 369
  • 正文 我出身青樓深员,卻偏偏與公主長得像,于是被迫代替她去往敵國和親聪舒。 傳聞我的和親對象是個殘疾皇子辨液,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,652評論 2 354

推薦閱讀更多精彩內(nèi)容