論文閱讀:《Few-Shot Unsupervised Image-to-Image Translation》

十二月了 時(shí)間過得太快 2020 過得太快又太慢
忙里偷閑的十二月 有太多值得期待 攢了好久 終于來更新了

論文名稱:《Few-Shot Unsupervised Image-to-Image Translation》
論文地址:https://arxiv.org/abs/1905.01723
論文翻譯:https://blog.csdn.net/a312863063/article/details/90728788
論文閱讀參考:https://blog.csdn.net/zaf0516/article/details/103298511
論文代碼:https://github.com/NVlabs/FUNIT
代碼解讀參考:https://zhuanlan.zhihu.com/p/88824696
本篇文章只記錄個(gè)人閱讀論文的筆記具温,具體翻譯沿癞、代碼等不展開,詳細(xì)可見上述的鏈接.

Background

Unsupervised image-to-image translation methods learn to map images in a given class to an analogous image in a different class, drawing on unstructured (non-registered) datasets of images. While remarkably successful, current methods require access to many images in both source and destination classes at training time.
無監(jiān)督的圖像到圖像轉(zhuǎn)換方法學(xué)習(xí)將給定類中的圖像映射到不同類中的類似圖像,利用圖像的非結(jié)構(gòu)化(無標(biāo)記)數(shù)據(jù)集捉偏。雖然非常成功,但是當(dāng)前的方法需要在訓(xùn)練時(shí)訪問源類和目標(biāo)類中的許多圖像。我們認(rèn)為這極大地限制了它們的使用。從人類具備的能夠從少數(shù)幾個(gè)例子中發(fā)現(xiàn)新物體本質(zhì)的能力中汲取靈感冲粤,并從這一點(diǎn)推廣,我們尋求少樣本無監(jiān)督的圖像到圖像的轉(zhuǎn)換算法页眯。
總結(jié)一下:
第一梯捕,傳統(tǒng)的無監(jiān)督方法通常需要在訓(xùn)練時(shí)看到目標(biāo)類的大量圖像
其二,模型的泛化能力弱餐茵,無法用到其他類的圖像上

Work

We propose the Few-shot UNsupervised Image-to-image Translation (FUNIT) framework, aiming at learning an image-to-image translation model for mapping an image of a source class to an analogous image of a target class by leveraging few images of the target class given at test time
我們提出了無監(jiān)督的圖像到圖像轉(zhuǎn)換(FUNIT) 框架科阎,旨在學(xué)習(xí)圖像到圖像的轉(zhuǎn)換模型,通過利用目標(biāo)的少量圖像將源類圖像映射到目標(biāo)類的分析圖像在測(cè)試時(shí)給出的類別模式忿族。該模型在訓(xùn)練期間從未顯示目標(biāo)類的圖像,但要求在測(cè)試時(shí)生成其中一些蝌矛。
舉個(gè)例子:
輸入一只金毛道批,在訓(xùn)練過程當(dāng)中,即便第一次看到一種新動(dòng)物入撒,也能讓它像金毛那樣吐舌頭

Method

整個(gè)過程可以這樣理解:


在訓(xùn)練過程隆豹,我們使用來自一組對(duì)象類(例如各種動(dòng)物物種的圖像)中的圖像,稱為源類(source classes)茅逮。
我們不假設(shè)任何兩個(gè)類之間存在配對(duì)的圖像(即璃赡,不同物種的任何兩個(gè)動(dòng)物都不會(huì)是完全相同的姿勢(shì))判哥。
我們使用源類里的圖像來訓(xùn)練一個(gè)multi-class無監(jiān)督圖像到圖像轉(zhuǎn)換模型。
在測(cè)試過程中碉考,我們從一個(gè)稱為目標(biāo)類(target class)的新對(duì)象類中提供少量幾張圖像塌计。模型必須利用少量的目標(biāo)圖像來將源類里的任何圖像轉(zhuǎn)換為目標(biāo)類里的類似圖像。
整個(gè)框架的部分分為生成網(wǎng)絡(luò)侯谁,條件圖像生成網(wǎng)絡(luò)和多任務(wù)對(duì)抗判別網(wǎng)絡(luò)锌仅。

生成網(wǎng)絡(luò)


如上圖所示,在具體結(jié)構(gòu)上面墙贱,條件圖像生成網(wǎng)絡(luò)是由內(nèi)容編碼器(Content encoder)热芹、類別編碼器(Class encoder)、解碼器(Decoder)三部分組成惨撇。
首先伊脓,借鑒了生成對(duì)抗網(wǎng)絡(luò)的思想,但與現(xiàn)有的無監(jiān)督圖像到圖像轉(zhuǎn)換框架中的條件圖像生成器不同,它采用一個(gè)圖像作為輸入,我們的生成器G同時(shí)采用內(nèi)容圖像x和一組類別圖像K:{(y_1魁衙,…y_K)}作為輸入并產(chǎn)生輸出圖像\overline{X}=G(x,\left\{ y_1丽旅,…y_K\right\})
即可以這樣理解,輸入為一張“內(nèi)容圖”和一組“類別圖”纺棺,輸出則會(huì)在結(jié)構(gòu)上與內(nèi)容圖類似榄笙,但在類別上與類別圖一樣,實(shí)現(xiàn)圖像風(fēng)格轉(zhuǎn)移祷蝌。

內(nèi)容編碼器
將輸入的內(nèi)容圖像映射到內(nèi)容潛在編碼茅撞,得到一個(gè)特征圖,含有 4 個(gè)二維卷積層和 2 層殘差網(wǎng)絡(luò)巨朦。
類別編碼器:
將一組K類圖像映射到類的潛在編碼米丘,該類的潛在編碼是向量并且是指定的類,這部分含有 5 個(gè)二維卷積層和 1 個(gè)均值池化糊啡,分別將每個(gè)類別圖像進(jìn)行向量化拄查,再取均值作為類別編碼。
解碼器
解碼器含有多個(gè)自適應(yīng)實(shí)例標(biāo)準(zhǔn)化殘差網(wǎng)絡(luò)棚蓄,即殘差網(wǎng)絡(luò)模型利用 AdaIN做歸一化層堕扶。
AdaIN 是風(fēng)格遷移模型中的一個(gè)手段,本質(zhì)是對(duì) Instance Normalization(實(shí)例標(biāo)準(zhǔn)化)的改進(jìn)梭依,可以進(jìn)行任意風(fēng)格的圖像遷移稍算。除此之外,解碼器還存有多個(gè)卷積層役拴,將內(nèi)容編碼做仿射變換(即風(fēng)格遷移糊探,仿射變換的參數(shù)由類別編碼經(jīng)過全連接層變換得到),得到具有內(nèi)容圖像特征的類別圖像類似圖。
通俗來講科平,編碼解碼后實(shí)現(xiàn)了將豹哥(抽取類別圖像獵豹面部特征)轉(zhuǎn)換成大眼賣萌的獵豹(內(nèi)容圖像是大眼賣萌狗子)褥紫。

判別網(wǎng)絡(luò)

與傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)GAN 中的 D類似。它需要判斷圖像是真實(shí)圖像還是條件圖像生成網(wǎng)絡(luò)產(chǎn)生的轉(zhuǎn)換圖像瞪慧。
而與傳統(tǒng)的判別網(wǎng)絡(luò)不同髓考,FUNIT 的判別模型為 Patch GAN discriminator,有 1 個(gè)卷積層和 10 個(gè)殘差網(wǎng)絡(luò) 汞贸,和直接輸出真?zhèn)蔚膫鹘y(tǒng)判別網(wǎng)絡(luò)相比绳军,Patch GAN 判別網(wǎng)絡(luò)的輸出是一個(gè) NN 矩陣,每個(gè)矩陣元素代表對(duì)輸入的某一圖塊的真?zhèn)闻袛唷?/strong>
該框架的判別器通過同時(shí)解決多個(gè)對(duì)抗分類任務(wù)來訓(xùn)練每個(gè)任務(wù)是二分類任務(wù),確定輸入圖像是源類的實(shí)際圖像還是來自G的轉(zhuǎn)換輸出
這邊的損失包括:GAN損失矢腻、內(nèi)容圖像重建損失和特征匹配損失
內(nèi)容重建損失有助于G學(xué)習(xí)轉(zhuǎn)換模型门驾。具體地, 當(dāng)對(duì)輸入內(nèi)容圖像和輸入類圖像使用相同圖像時(shí)(在這種情況下 K= 1)多柑,損失促使G生成與輸入相同的輸出圖像奶是。特征匹配損失使訓(xùn)練正常化竣灌。

Experiment

先上一些結(jié)果


從上到下分別是來自動(dòng)物面孔聂沙、鳥、花和食物數(shù)據(jù)集的結(jié)果初嘹。每個(gè)示例隨機(jī)展示了2張目標(biāo)類中的圖像及汉,輸入內(nèi)容圖像x,以及轉(zhuǎn)換后的輸出圖像x屯烦。
結(jié)果表明坷随,模型能夠成功地將源類的圖像轉(zhuǎn)換為新的類中的相似圖像。對(duì)象在輸入內(nèi)容圖像x和相應(yīng)輸出圖像x中的姿態(tài)基本保持不變驻龟。輸出圖像也非常逼真温眉,類似于目標(biāo)類中的圖像。
FUNIT在Animal Faces數(shù)據(jù)集的1-shot和5-shot設(shè)置上分別達(dá)到82.36和96.05 的Top-5 測(cè)試精度翁狐,以及在North American Birds數(shù)據(jù)集上分別達(dá)到60.19和75.75的Top-5 測(cè)試精度类溢。這些指標(biāo)都明顯優(yōu)于相應(yīng)的基準(zhǔn)模型。
測(cè)試結(jié)果最右側(cè)的 FUNIT 結(jié)果說明露懒,即使訓(xùn)練集中沒有目標(biāo)圖像(即以前沒見過汪 y1闯冷,y2),當(dāng)測(cè)試集中出現(xiàn) y1隐锭,y2 時(shí)(即看見新汪)窃躲,可以成功模擬出新汪內(nèi)容圖像(Input x)做的動(dòng)作.

Limitations


FUNIT依賴于幾個(gè)工作條件:
1)內(nèi)容編碼器是否可以學(xué)習(xí)類不變的潛在編碼
2)類編碼器是否可以學(xué)習(xí)類特定的潛在編碼
3)類編碼器是否可以推廣到看不見的對(duì)象類的圖像。
我們觀察到,當(dāng)新類在視覺上與源類相關(guān)時(shí),這些條件很容易滿足钦睡。但是,當(dāng)新對(duì)象類的外觀與源類的外觀顯著不同時(shí), FUNIT無法實(shí)現(xiàn)如上圖所示的轉(zhuǎn)換。在這種情況下, FUNIT傾向于生成輸入內(nèi)容圖像的顏色改變版本這是不可取的,但可以理解,因?yàn)橥庥^分布發(fā)生了巨大變化解決這個(gè)限制是我們未來的工作。


Ending\衽洒琢!十二月要爭(zhēng)氣鴨!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末褐桌,一起剝皮案震驚了整個(gè)濱河市衰抑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌荧嵌,老刑警劉巖呛踊,帶你破解...
    沈念sama閱讀 218,546評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異啦撮,居然都是意外死亡谭网,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門赃春,熙熙樓的掌柜王于貴愁眉苦臉地迎上來愉择,“玉大人,你說我怎么就攤上這事织中∽短椋” “怎么了?”我有些...
    開封第一講書人閱讀 164,911評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵狭吼,是天一觀的道長(zhǎng)层坠。 經(jīng)常有香客問我,道長(zhǎng)刁笙,這世上最難降的妖魔是什么破花? 我笑而不...
    開封第一講書人閱讀 58,737評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮采盒,結(jié)果婚禮上旧乞,老公的妹妹穿的比我還像新娘。我一直安慰自己磅氨,他們只是感情好尺栖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著烦租,像睡著了一般延赌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上叉橱,一...
    開封第一講書人閱讀 51,598評(píng)論 1 305
  • 那天挫以,我揣著相機(jī)與錄音,去河邊找鬼窃祝。 笑死掐松,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播大磺,決...
    沈念sama閱讀 40,338評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼抡句,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了杠愧?” 一聲冷哼從身側(cè)響起待榔,我...
    開封第一講書人閱讀 39,249評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎流济,沒想到半個(gè)月后锐锣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡绳瘟,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評(píng)論 3 336
  • 正文 我和宋清朗相戀三年雕憔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片稽荧。...
    茶點(diǎn)故事閱讀 40,013評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡橘茉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出姨丈,到底是詐尸還是另有隱情畅卓,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評(píng)論 5 346
  • 正文 年R本政府宣布蟋恬,位于F島的核電站翁潘,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏歼争。R本人自食惡果不足惜拜马,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望沐绒。 院中可真熱鬧俩莽,春花似錦、人聲如沸乔遮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蹋肮。三九已至出刷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間坯辩,已是汗流浹背不恭。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工承桥, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留后德,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,203評(píng)論 3 370
  • 正文 我出身青樓却音,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親淌喻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子僧家,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容