十二月了 時(shí)間過得太快 2020 過得太快又太慢
忙里偷閑的十二月 有太多值得期待 攢了好久 終于來更新了
論文名稱:《Few-Shot Unsupervised Image-to-Image Translation》
論文地址:https://arxiv.org/abs/1905.01723
論文翻譯:https://blog.csdn.net/a312863063/article/details/90728788
論文閱讀參考:https://blog.csdn.net/zaf0516/article/details/103298511
論文代碼:https://github.com/NVlabs/FUNIT
代碼解讀參考:https://zhuanlan.zhihu.com/p/88824696
本篇文章只記錄個(gè)人閱讀論文的筆記具温,具體翻譯沿癞、代碼等不展開,詳細(xì)可見上述的鏈接.
Background
Unsupervised image-to-image translation methods learn to map images in a given class to an analogous image in a different class, drawing on unstructured (non-registered) datasets of images. While remarkably successful, current methods require access to many images in both source and destination classes at training time.
無監(jiān)督的圖像到圖像轉(zhuǎn)換方法學(xué)習(xí)將給定類中的圖像映射到不同類中的類似圖像,利用圖像的非結(jié)構(gòu)化(無標(biāo)記)數(shù)據(jù)集捉偏。雖然非常成功,但是當(dāng)前的方法需要在訓(xùn)練時(shí)訪問源類和目標(biāo)類中的許多圖像。我們認(rèn)為這極大地限制了它們的使用。從人類具備的能夠從少數(shù)幾個(gè)例子中發(fā)現(xiàn)新物體本質(zhì)的能力中汲取靈感冲粤,并從這一點(diǎn)推廣,我們尋求少樣本無監(jiān)督的圖像到圖像的轉(zhuǎn)換算法页眯。
總結(jié)一下:
第一梯捕,傳統(tǒng)的無監(jiān)督方法通常需要在訓(xùn)練時(shí)看到目標(biāo)類的大量圖像
其二,模型的泛化能力弱餐茵,無法用到其他類的圖像上
Work
We propose the Few-shot UNsupervised Image-to-image Translation (FUNIT) framework, aiming at learning an image-to-image translation model for mapping an image of a source class to an analogous image of a target class by leveraging few images of the target class given at test time
我們提出了無監(jiān)督的圖像到圖像轉(zhuǎn)換(FUNIT) 框架科阎,旨在學(xué)習(xí)圖像到圖像的轉(zhuǎn)換模型,通過利用目標(biāo)的少量圖像將源類圖像映射到目標(biāo)類的分析圖像在測(cè)試時(shí)給出的類別模式忿族。該模型在訓(xùn)練期間從未顯示目標(biāo)類的圖像,但要求在測(cè)試時(shí)生成其中一些蝌矛。
舉個(gè)例子:
輸入一只金毛道批,在訓(xùn)練過程當(dāng)中,即便第一次看到一種新動(dòng)物入撒,也能讓它像金毛那樣吐舌頭
Method
整個(gè)過程可以這樣理解:
在訓(xùn)練過程隆豹,我們使用來自一組對(duì)象類(例如各種動(dòng)物物種的圖像)中的圖像,稱為源類(source classes)茅逮。
我們不假設(shè)任何兩個(gè)類之間存在配對(duì)的圖像(即璃赡,不同物種的任何兩個(gè)動(dòng)物都不會(huì)是完全相同的姿勢(shì))判哥。
我們使用源類里的圖像來訓(xùn)練一個(gè)multi-class無監(jiān)督圖像到圖像轉(zhuǎn)換模型。
在測(cè)試過程中碉考,我們從一個(gè)稱為目標(biāo)類(target class)的新對(duì)象類中提供少量幾張圖像塌计。模型必須利用少量的目標(biāo)圖像來將源類里的任何圖像轉(zhuǎn)換為目標(biāo)類里的類似圖像。
整個(gè)框架的部分分為生成網(wǎng)絡(luò)侯谁,條件圖像生成網(wǎng)絡(luò)和多任務(wù)對(duì)抗判別網(wǎng)絡(luò)锌仅。生成網(wǎng)絡(luò)
如上圖所示,在具體結(jié)構(gòu)上面墙贱,條件圖像生成網(wǎng)絡(luò)是由內(nèi)容編碼器(Content encoder)热芹、類別編碼器(Class encoder)、解碼器(Decoder)三部分組成惨撇。
首先伊脓,借鑒了生成對(duì)抗網(wǎng)絡(luò)的思想,但與現(xiàn)有的無監(jiān)督圖像到圖像轉(zhuǎn)換框架中的條件圖像生成器不同,它采用一個(gè)圖像作為輸入,我們的生成器G同時(shí)采用內(nèi)容圖像x和一組類別圖像作為輸入并產(chǎn)生輸出圖像
即可以這樣理解,輸入為一張“內(nèi)容圖”和一組“類別圖”纺棺,輸出則會(huì)在結(jié)構(gòu)上與內(nèi)容圖類似榄笙,但在類別上與類別圖一樣,實(shí)現(xiàn)圖像風(fēng)格轉(zhuǎn)移祷蝌。內(nèi)容編碼器:
將輸入的內(nèi)容圖像映射到內(nèi)容潛在編碼茅撞,得到一個(gè)特征圖,含有 4 個(gè)二維卷積層和 2 層殘差網(wǎng)絡(luò)巨朦。
類別編碼器:
將一組K類圖像映射到類的潛在編碼米丘,該類的潛在編碼是向量并且是指定的類,這部分含有 5 個(gè)二維卷積層和 1 個(gè)均值池化糊啡,分別將每個(gè)類別圖像進(jìn)行向量化拄查,再取均值作為類別編碼。
解碼器:
解碼器含有多個(gè)自適應(yīng)實(shí)例標(biāo)準(zhǔn)化殘差網(wǎng)絡(luò)棚蓄,即殘差網(wǎng)絡(luò)模型利用 AdaIN做歸一化層堕扶。
AdaIN 是風(fēng)格遷移模型中的一個(gè)手段,本質(zhì)是對(duì) Instance Normalization(實(shí)例標(biāo)準(zhǔn)化)的改進(jìn)梭依,可以進(jìn)行任意風(fēng)格的圖像遷移稍算。除此之外,解碼器還存有多個(gè)卷積層役拴,將內(nèi)容編碼做仿射變換(即風(fēng)格遷移糊探,仿射變換的參數(shù)由類別編碼經(jīng)過全連接層變換得到),得到具有內(nèi)容圖像特征的類別圖像類似圖。
通俗來講科平,編碼解碼后實(shí)現(xiàn)了將豹哥(抽取類別圖像獵豹面部特征)轉(zhuǎn)換成大眼賣萌的獵豹(內(nèi)容圖像是大眼賣萌狗子)褥紫。判別網(wǎng)絡(luò)
與傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)GAN 中的 D類似。它需要判斷圖像是真實(shí)圖像還是條件圖像生成網(wǎng)絡(luò)產(chǎn)生的轉(zhuǎn)換圖像瞪慧。
而與傳統(tǒng)的判別網(wǎng)絡(luò)不同髓考,FUNIT 的判別模型為 Patch GAN discriminator,有 1 個(gè)卷積層和 10 個(gè)殘差網(wǎng)絡(luò) 汞贸,和直接輸出真?zhèn)蔚膫鹘y(tǒng)判別網(wǎng)絡(luò)相比绳军,Patch GAN 判別網(wǎng)絡(luò)的輸出是一個(gè) NN 矩陣,每個(gè)矩陣元素代表對(duì)輸入的某一圖塊的真?zhèn)闻袛唷?/strong>
該框架的判別器通過同時(shí)解決多個(gè)對(duì)抗分類任務(wù)來訓(xùn)練每個(gè)任務(wù)是二分類任務(wù),確定輸入圖像是源類的實(shí)際圖像還是來自G的轉(zhuǎn)換輸出
這邊的損失包括:GAN損失矢腻、內(nèi)容圖像重建損失和特征匹配損失
內(nèi)容重建損失有助于G學(xué)習(xí)轉(zhuǎn)換模型门驾。具體地, 當(dāng)對(duì)輸入內(nèi)容圖像和輸入類圖像使用相同圖像時(shí)(在這種情況下 K= 1)多柑,損失促使G生成與輸入相同的輸出圖像奶是。特征匹配損失使訓(xùn)練正常化竣灌。
Experiment
先上一些結(jié)果
從上到下分別是來自動(dòng)物面孔聂沙、鳥、花和食物數(shù)據(jù)集的結(jié)果初嘹。每個(gè)示例隨機(jī)展示了2張目標(biāo)類中的圖像及汉,輸入內(nèi)容圖像x,以及轉(zhuǎn)換后的輸出圖像x屯烦。
結(jié)果表明坷随,模型能夠成功地將源類的圖像轉(zhuǎn)換為新的類中的相似圖像。對(duì)象在輸入內(nèi)容圖像x和相應(yīng)輸出圖像x中的姿態(tài)基本保持不變驻龟。輸出圖像也非常逼真温眉,類似于目標(biāo)類中的圖像。FUNIT在Animal Faces數(shù)據(jù)集的1-shot和5-shot設(shè)置上分別達(dá)到82.36和96.05 的Top-5 測(cè)試精度翁狐,以及在North American Birds數(shù)據(jù)集上分別達(dá)到60.19和75.75的Top-5 測(cè)試精度类溢。這些指標(biāo)都明顯優(yōu)于相應(yīng)的基準(zhǔn)模型。測(cè)試結(jié)果最右側(cè)的 FUNIT 結(jié)果說明露懒,即使訓(xùn)練集中沒有目標(biāo)圖像(即以前沒見過汪 y1闯冷,y2),當(dāng)測(cè)試集中出現(xiàn) y1隐锭,y2 時(shí)(即看見新汪)窃躲,可以成功模擬出新汪內(nèi)容圖像(Input x)做的動(dòng)作.Limitations
FUNIT依賴于幾個(gè)工作條件:
1)內(nèi)容編碼器是否可以學(xué)習(xí)類不變的潛在編碼
2)類編碼器是否可以學(xué)習(xí)類特定的潛在編碼
3)類編碼器是否可以推廣到看不見的對(duì)象類的圖像。
我們觀察到,當(dāng)新類在視覺上與源類相關(guān)時(shí),這些條件很容易滿足钦睡。但是,當(dāng)新對(duì)象類的外觀與源類的外觀顯著不同時(shí), FUNIT無法實(shí)現(xiàn)如上圖所示的轉(zhuǎn)換。在這種情況下, FUNIT傾向于生成輸入內(nèi)容圖像的顏色改變版本這是不可取的,但可以理解,因?yàn)橥庥^分布發(fā)生了巨大變化解決這個(gè)限制是我們未來的工作。
Ending\衽洒琢!十二月要爭(zhēng)氣鴨!