【論文翻譯】Visual Object Networks: Image Generation with Disentangled 3D Representation

論文原文:http://papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations

完整的圖副编、表及引用見原文傲宜,用于學(xué)習(xí)記錄,與有需要的人分享。

摘要

最近在深度生成模型方面的進(jìn)展導(dǎo)致了圖像生成方面的巨大突破。然而庵寞,雖然現(xiàn)有的模型可以合成逼真的圖像,但它們?nèi)狈?duì)我們潛在的3D世界的理解闪朱。我們提出了一種新的生成模型——視覺對(duì)象網(wǎng)絡(luò)(VON)月匣,它綜合了物體的自然圖像和一個(gè)解糾纏的三維表示。受經(jīng)典圖形渲染管道的啟發(fā)奋姿,我們將我們的圖像形成過(guò)程分解為三個(gè)條件獨(dú)立的因素形狀锄开、視角和紋理,并提出了一個(gè)端到端的對(duì)抗學(xué)習(xí)框架称诗,聯(lián)合建模三維形狀和二維圖像萍悴。我們的模型首先學(xué)習(xí)合成與真實(shí)形狀難以區(qū)分的三維形狀。然后渲染對(duì)象的2.5D草圖(即寓免,剪影和深度地圖)從其形狀下采樣的觀點(diǎn)癣诱。最后,它學(xué)會(huì)了為這些2.5D的草圖添加逼真的紋理來(lái)生成自然圖像袜香。馮不僅生成圖像,更現(xiàn)實(shí)的最先進(jìn)的2 d圖像合成方法,但也使許多3 d等操作生成的圖像的角度變化,編輯形狀和紋理,紋理和形狀空間線性插值,將出現(xiàn)在不同的對(duì)象和觀點(diǎn)撕予。

1?介紹

現(xiàn)代深層生成模型學(xué)習(xí)合成真實(shí)的圖像。圖1a顯示了由最近的模型生成的幾輛汽車[Gulrajani et al.蜈首, 2017]实抡。然而,大多數(shù)方法只關(guān)注于生成二維圖像欢策,而忽略了世界的三維本質(zhì)吆寨。因此,他們無(wú)法回答一些對(duì)人類來(lái)說(shuō)毫不費(fèi)力的問(wèn)題踩寇,例如:從另一個(gè)角度看一輛汽車會(huì)是什么樣子?如果我們把它的紋理應(yīng)用到卡車上呢?我們可以混合不同的3D設(shè)計(jì)嗎?因此啄清,二維視角不可避免地限制了model s在機(jī)器人、虛擬現(xiàn)實(shí)和游戲等領(lǐng)域的實(shí)際應(yīng)用姑荷。

在本文中盒延,我們提出了一個(gè)端到端生成模型缩擂,通過(guò)一個(gè)解糾纏的對(duì)象表示來(lái)聯(lián)合合成三維形狀和二維圖像。具體來(lái)說(shuō)添寺,我們將我們的圖像生成模型分解為三個(gè)條件獨(dú)立的因素:形狀胯盯、視角和紋理,借鑒經(jīng)典圖形渲染引擎的思想[Kajiya, 1986]计露。我們的模型首先學(xué)習(xí)合成與真實(shí)形狀難以區(qū)分的三維形狀博脑。然后用一個(gè)可微投影模塊從一個(gè)采樣的視點(diǎn)計(jì)算它的2.5D草圖[Barrow and Tenenbaum, 1978, Marr, 1982]。最后票罐,它學(xué)會(huì)了為2.5D的草圖添加多樣化叉趣、逼真的紋理,并生成與真實(shí)照片難以區(qū)分的2D圖像该押。我們稱我們的模型為可視對(duì)象網(wǎng)絡(luò)(VON)疗杉。

條件獨(dú)立性中的連接減少了我們對(duì)密集注釋數(shù)據(jù)的需求:與經(jīng)典的morphable face模型不同[Blanz and Vetter, 1999],我們的訓(xùn)練不需要在兩者之間匹配數(shù)據(jù)二維圖像和三維形狀蚕礼,三維數(shù)據(jù)中沒(méi)有密集的對(duì)應(yīng)注釋烟具。這一優(yōu)勢(shì)使我們能夠利用二維圖像數(shù)據(jù)集和三維形狀集合[Chang et al., 2015]奠蹬,并合成不同形狀和紋理的對(duì)象朝聋。

通過(guò)大量的實(shí)驗(yàn),我們證明馮生成的圖像樣本比最近的二維深度生成模型更真實(shí)囤躁。我們還演示了許多通過(guò)我們的解糾纏表示實(shí)現(xiàn)的3D應(yīng)用冀痕,包括旋轉(zhuǎn)一個(gè)對(duì)象、調(diào)整對(duì)象形狀和紋理狸演、在紋理和形狀空間中獨(dú)立地插入兩個(gè)對(duì)象言蛇,以及將真實(shí)圖像的外觀轉(zhuǎn)移到新的對(duì)象和視點(diǎn)。

2?相關(guān)工作

GANs用于二維圖像合成严沥。發(fā)明以來(lái),生成對(duì)抗網(wǎng)(甘斯)(好-的et al ., 2014),許多研究人員采用了敵對(duì)的學(xué)習(xí)對(duì)各種圖像合成的任務(wù),從圖像生成[雷德福et al ., 2016年,Arjovsky et al ., 2017年猜极。卡拉et al ., 2018), image-to-image翻譯[伊索拉et al ., 2017年,朱et al ., 2017), text-to-image合成(Zhang et al ., 2017年,里德et al ., 2016),和交互式圖像編輯(朱et al ., 2016年,王et al ., 2018),到經(jīng)典的視覺和圖形任務(wù)消玄,如inpainting [Pathak et al.跟伏, 2016]和super-resolution [Ledig et al., 2017]翩瓜。盡管在二維圖像合成方面取得了巨大的進(jìn)展受扳,但上述方法大多是在二維空間上進(jìn)行的,忽略了我們物理世界的三維本質(zhì)兔跌。因此勘高,三維結(jié)構(gòu)的缺乏不可避免地限制了這些生成模型的一些實(shí)際應(yīng)用。相比之下,我們提出了一種基于解糾纏三維表示的圖像合成方法华望。它允許用戶很容易地改變視角蕊蝗,以及獨(dú)立地編輯對(duì)象的形狀或紋理。Dosovitskiy等人[2015]使用監(jiān)督CNNs生成給定對(duì)象樣式赖舟、視角和顏色的合成圖像蓬戚。我們的不同之處在于,我們的目標(biāo)是在不使用標(biāo)簽數(shù)據(jù)的情況下生成具有3D幾何和自然紋理的對(duì)象宾抓。

三維形狀的一代子漩。利用深度生成模型合成三維形狀的興趣越來(lái)越大,尤其是GANs模型石洗。流行的代表包括體素(Wu et al.幢泼, 2016)、點(diǎn)云(Gadelha et al.讲衫, 2017b, Achlioptas et al.缕棵, 2018)和八度音階樹(Tatarchenko et al., 2017)涉兽。其他方法從二維圖像中學(xué)習(xí)三維形狀先驗(yàn)[Rezende et al.挥吵, 2016, Gadelha et al., 2017a]花椭。近期的工作還探索了利用深度生成模型進(jìn)行局部掃描的三維形狀補(bǔ)全[Dai et al., 2017, Wang et al.房午, 2017, Wu et al.矿辽, 2018],包括對(duì)未知物體類別的泛化[Zhang et al.郭厌, 2018]袋倔。不像以前的方法,只合成無(wú)紋理的三維形狀折柠,我們的方法學(xué)習(xí)生成真實(shí)的形狀和圖像宾娜。最近和同時(shí)進(jìn)行的工作已經(jīng)學(xué)會(huì)了從二維圖像中推斷紋理和三維形狀,比如參數(shù)化網(wǎng)格(Kanazawa et al.扇售, 2018)前塔、點(diǎn)云(Tatarchenko et al., 2016)或彩色體素(Tulsiani et al.承冰, 2017, Sun et al.华弓, 2018b)。當(dāng)他們專注于三維重建時(shí)困乒,我們的目標(biāo)是學(xué)習(xí)一個(gè)無(wú)條件的生成模型的形狀和圖像的對(duì)象紋理寂屏,形狀和姿態(tài)的解糾纏表示。

3?規(guī)劃

我們的目標(biāo)是學(xué)習(xí)一個(gè)(隱式)生成模型,該模型可以從形狀代碼z形狀迁霎、視點(diǎn)代碼z視圖和紋理代碼z紋理三個(gè)方面對(duì)圖像x R H W 3進(jìn)行采樣吱抚。紋理代碼描述對(duì)象的外觀,包括對(duì)象的反照率考廉、反射率和環(huán)境光照秘豹。這三個(gè)因素是分離的,有條件地相互獨(dú)立芝此。我們的模型是特定于類別的憋肖,因?yàn)閷?duì)象的視覺外觀取決于類。我們進(jìn)一步假設(shè)所有代碼都位于它們自己的低維空間中婚苹。在訓(xùn)練過(guò)程中岸更,我們得到一個(gè)三維形狀集合{v i} N i,其中v i R W W W是一個(gè)二元體素網(wǎng)格膊升,一個(gè)二維圖像集合{x j} M j怎炊,其中x j R H W 3。我們的模型訓(xùn)練不需要3D和2D數(shù)據(jù)之間的對(duì)齊廓译。我們假設(shè)每個(gè)訓(xùn)練圖像都有一個(gè)干凈的背景评肆,并且只包含感興趣的對(duì)象。這個(gè)假設(shè)使我們的模型專注于生成對(duì)象的真實(shí)圖像非区,而不是復(fù)雜的背景瓜挽。

圖2說(shuō)明了我們的模型。首先征绸,我們學(xué)習(xí)了一個(gè)三維形狀生成網(wǎng)絡(luò)久橙,該網(wǎng)絡(luò)在給定形狀代碼z shape(3.1節(jié))的情況下生成真實(shí)的體素v = G shape (z shape)。然后管怠,我們開發(fā)了一個(gè)可微投影模塊P淆衷,該模塊通過(guò)v 2.5D = P(v,z視圖)將3D體素網(wǎng)格v投影到2.5D草圖中,給定一個(gè)特定的視角z視圖(第3.2節(jié))渤弛。接下來(lái)祝拯,我們學(xué)習(xí)在3.3節(jié)中使用我們的紋理合成網(wǎng)絡(luò)x = G紋理(v 2.5D,z紋理),生成給定2.5D草圖和隨機(jī)采樣的紋理代碼z紋理的最終圖像她肯。第3.4節(jié)總結(jié)了我們的完整模型佳头,第3.5節(jié)包含了實(shí)現(xiàn)細(xì)節(jié)。我們的整個(gè)模型是可微的晴氨,可以端到端的訓(xùn)練畜晰。在測(cè)試過(guò)程中,我們從潛在碼中抽取圖像x = G紋理(P(G shape (z shape)瑞筐,z view)凄鼻,z紋理)作為樣本腊瑟。

3.1?學(xué)習(xí)3D形狀先驗(yàn)

我們的第一步是從大型形狀集合中學(xué)習(xí)一個(gè)分類特定的三維形狀先驗(yàn)[Chang et al., 2015]块蚌。這個(gè)先驗(yàn)依賴于對(duì)象類闰非,但有條件地獨(dú)立于其他因素,如3個(gè)視點(diǎn)和紋理峭范。為了對(duì)三維形狀進(jìn)行先驗(yàn)建模并生成逼真的形狀财松,我們采用了Wu等人最近提出的三維生成對(duì)抗網(wǎng)絡(luò)[2016]。

考慮一個(gè)體素化的3D對(duì)象集合{v i} N i纱控,其中v i R W W W辆毡。我們學(xué)習(xí)了一個(gè)G形發(fā)生器來(lái)映射形狀代碼z形,從高斯分布隨機(jī)采樣甜害,到一個(gè)W W W體素網(wǎng)格舶掖。同時(shí),我們訓(xùn)練了一個(gè)三維判別器D形來(lái)區(qū)分形狀是真實(shí)的還是生成的尔店。鑒別器和發(fā)生器都包含完全的體積卷積和反卷積層眨攘。我們發(fā)現(xiàn)原始的3D-GAN [Wu et al., 2016]有時(shí)會(huì)出現(xiàn)模式崩潰嚣州。為了提高結(jié)果的質(zhì)量和多樣性鲫售,我們使用WGAN-GP的Wasserstein距離[Arjovsky et al., 2017, Gulrajani et al.该肴, 2017]情竹。

執(zhí)行李普希茨約束在瓦瑟斯坦甘斯(Arjovsky et al ., 2017),我們添加一個(gè)梯度,罰款損失λGP E?v ((??v D形狀(?v)?1) 2] Eqn。1,?v是一個(gè)隨機(jī)采樣點(diǎn)之間沿直線生成真正的形狀和形狀,和λGP控制D形狀的能力匀哄。由于使用GANs對(duì)二進(jìn)制數(shù)據(jù)建模往往具有挑戰(zhàn)性鲤妥,因此我們還使用距離函數(shù)(DF)表示進(jìn)行了實(shí)驗(yàn)[Curless and Levoy, 1996],該函數(shù)在三維體素空間上是連續(xù)的拱雏。定量評(píng)價(jià)見第4.1節(jié)。

3.2?生成2.5D草圖

給定一個(gè)合成體素化的形狀v = G (z)底扳,我們?nèi)绾螌⑺B接到一個(gè)二維圖像?受近期3D重建工作的啟發(fā)[Wu et al.铸抑, 2017],我們使用2.5D草圖[Barrow and Tenenbaum, 1978, Marr, 1982]來(lái)彌合3D和2D之間的差距衷模。這種中間表達(dá)方式有三個(gè)主要優(yōu)點(diǎn)鹊汛。首先,從3D體素網(wǎng)格生成2.5D的草圖很簡(jiǎn)單阱冶,因?yàn)橥队霸谳斎胄螤詈鸵晥D上都是可微的刁憋。其次,2.5D草圖的二維圖像合成可以轉(zhuǎn)換為圖像到圖像的轉(zhuǎn)換問(wèn)題[Isola et al.木蹬, 2017]至耻,現(xiàn)有方法在沒(méi)有配對(duì)數(shù)據(jù)的情況下也取得了成功[Zhu et al., 2017a]。第三尘颓,與彩色體素等替代方法相比走触,我們的方法能夠生成分辨率更高的圖像。

在這里疤苹,我們描述了將體素投影到2.5D草圖中的可微模塊互广。該模塊的輸入為相機(jī)參數(shù)和三維體素。每個(gè)體素的值存儲(chǔ)它存在的概率卧土。為了在透視相機(jī)下渲染來(lái)自體素的2.5D草圖惫皱,我們首先生成一個(gè)光線集合,每個(gè)光線來(lái)自相機(jī)的s中心尤莺,并通過(guò)圖像平面上的一個(gè)像素s中心旅敷。為了渲染2.5D的草圖,我們需要計(jì)算給定的光線是否會(huì)擊中體素缝裁,如果是扫皱,則需要計(jì)算該光線的相應(yīng)深度值。為此捷绑,我們首先對(duì)每條射線上等距深度的點(diǎn)進(jìn)行采樣韩脑。接下來(lái),對(duì)于每個(gè)點(diǎn)粹污,我們使用輸入體素的可微三線性插值計(jì)算擊中輸入體素的概率[Jaderberg et al.段多, 2015]。與Tulsiani等[2017]類似壮吩,我們計(jì)算出每條射線的能見度和深度的期望进苍。具體地說(shuō),給定一個(gè)含有N個(gè)樣本r1 r2…鸭叙, rn沿著其路徑觉啊,我們計(jì)算出可見光(剪影)作為入射體素的期望:pnj = 1qj1k =1 (1rk) rj。同樣沈贝,期望深度可以計(jì)算為pnj = 1dj qj 1k =1 (1rk) rj杠人,其中dj為樣本rj的深度。這個(gè)過(guò)程是完全可微的宋下,因?yàn)樘荻瓤梢酝ㄟ^(guò)期望計(jì)算和三線性插值反傳播嗡善。

觀點(diǎn)的評(píng)估。我們的二維視點(diǎn)編碼z視點(diǎn)編碼相機(jī)的仰角和方位角学歧。我們從訓(xùn)練圖像中提取相機(jī)姿態(tài)的經(jīng)驗(yàn)分布p數(shù)據(jù)(z視圖)作為z視圖的樣本罩引。為了估計(jì)p數(shù)據(jù)(z視圖),我們首先在均勻采樣的相機(jī)姿態(tài)下渲染幾個(gè)候選3D模型的輪廓枝笨。對(duì)于每個(gè)輸入圖像袁铐,我們將其剪影與呈現(xiàn)的2D視圖進(jìn)行比較揭蜒,并選擇相交大于并集值最大的位姿。更多細(xì)節(jié)可以在附錄中找到昭躺。

3.3?學(xué)習(xí)2D紋理先驗(yàn)

接下來(lái)忌锯,我們學(xué)習(xí)合成真實(shí)的二維圖像給定的投影2.5D草圖編碼的觀點(diǎn)和對(duì)象形狀。特別地领炫,我們學(xué)習(xí)了一個(gè)紋理網(wǎng)絡(luò)G紋理偶垮,它以隨機(jī)采樣的紋理代碼z紋理和投影2.5D草圖v 2.5D作為輸入,生成一個(gè)二維圖像x = G紋理(v 2.5D,z紋理)帝洪。這個(gè)紋理網(wǎng)絡(luò)既需要對(duì)物體紋理進(jìn)行建模似舵,也需要對(duì)環(huán)境光照進(jìn)行建模,還需要對(duì)可微渲染方程進(jìn)行建模[Kajiya, 1986]葱峡。幸運(yùn)的是砚哗,這個(gè)映射問(wèn)題可以轉(zhuǎn)換為一個(gè)非成對(duì)的圖像到圖像的翻譯問(wèn)題[Zhu et al., 2017a, Yi et al.砰奕, 2017, Liu et al.蛛芥, 2017]。我們采用最近提出的周期一致對(duì)抗網(wǎng)絡(luò)(CycleGAN) [Zhu等人军援,2017a]作為我們的基線仅淑。稍后,我們將放松CycleGAN中的一對(duì)一映射限制胸哥,以處理從2.5D草圖到2D圖像的一對(duì)多映射涯竟。

在這里我們引入兩個(gè)編碼器E紋理和E 2.5D來(lái)估計(jì)紋理代碼z紋理和2.5D草圖v 2.5D。我們通過(guò)對(duì)抗性損失[Goodfellow et al.空厌, 2014]和循環(huán)一致性損失[Zhu et al.庐船, 2017a, Yi et al., 2017]聯(lián)合訓(xùn)練G織構(gòu)嘲更、E織構(gòu)和E 2.5D筐钟。我們?cè)谧罱K生成的圖像上使用以下的對(duì)抗性損失:

3.4?我們整個(gè)模型

3.5?實(shí)施細(xì)節(jié)

形成網(wǎng)絡(luò)。在形狀生成方面赋朦,我們采用了Wu等[2016]的3D-GAN架構(gòu)篓冲。其中,鑒別器D形包含6個(gè)體積卷積層北发,生成器G形包含6個(gè)條紋卷積層。按照WGAN-GP論文[Gulrajani et al.喷屋, 2017]的建議琳拨,我們將批量歸一化層[Ioffe和Szegedy, 2015]去掉G形爸舒。

結(jié)構(gòu)網(wǎng)絡(luò)坚冀。對(duì)于紋理生成,我們使用ResNet編碼器-解碼器[Zhu et al.舀透, 2017a, Huang et al., 2018]密任,將紋理代碼z紋理連接到編碼器的中間層颜启。對(duì)于鑒別器,我們使用雙尺度PatchGAN分類器[Isola et al.浪讳, 2017, Zhu et al.缰盏, 2017a]對(duì)重疊的patch進(jìn)行真假分類。我們使用LS-GAN [Mao et al.淹遵, 2017]中的最小二乘目標(biāo)來(lái)進(jìn)行穩(wěn)定的培訓(xùn)口猜。我們使用ResNet編碼器[He et al., 2015]來(lái)制作E紋理和E 2.5D

可微投影模塊透揣。我們假設(shè)相機(jī)與物體中心的固定距離為2米济炎,焦距為50毫米(相當(dāng)于35毫米膠片)。渲染后的效果圖分辨率為128×128辐真,我們沿著每條相機(jī)光線平均采樣128個(gè)點(diǎn)须尚。我們也假設(shè)沒(méi)有平面內(nèi)旋轉(zhuǎn),也就是說(shuō)侍咱,在像平面上沒(méi)有傾斜耐床。我們實(shí)現(xiàn)了一個(gè)自定義的CUDA內(nèi)核,用于沿投影光線采樣并計(jì)算停止概率放坏。

培訓(xùn)的細(xì)節(jié)咙咽。我們訓(xùn)練我們的模型128 128 128形狀(體素或距離函數(shù))和128 128 3圖像。在訓(xùn)練過(guò)程中淤年,我們首先在三維形狀集合上訓(xùn)練形狀生成器G形狀钧敞,然后在給定地面真實(shí)三維形狀數(shù)據(jù)和圖像數(shù)據(jù)的情況下訓(xùn)練紋理生成器G紋理。最后麸粮,我們對(duì)兩個(gè)模塊進(jìn)行了微調(diào)溉苛。我們從標(biāo)準(zhǔn)高斯分布N(0,I)中采樣形狀碼z和紋理碼z紋理,碼長(zhǎng)|z形狀| = 200弄诲,|z紋理| = 8愚战。整個(gè)訓(xùn)練通常需要兩到三天。hyperparameters,我們組KL = 0.05λ,λGP = 10,λ本體形象= 10,λ本體,2.5 d = 25,λ幕布材質(zhì)= 1,形狀和λ= 0.05齐遵。我們使用Adam求解器[Kingma and Ba, 2015]寂玲,形狀生成學(xué)習(xí)率為0.0002,紋理生成學(xué)習(xí)率為0.0001梗摇。

我們觀察到紋理生成器G紋理在渲染2.5D草圖v 2.5D(即拓哟,深度和蒙版)。為了解決這個(gè)問(wèn)題伶授,我們顯式地用v 2.5D的輪廓來(lái)屏蔽生成的2D圖像:断序, G紋理(v 2.5D,z紋理)=掩牧魑疲·G紋理(深度)+(1掩模)·1,其中1為背景白色违诗,生成G紋理合成給定深度圖的圖像漱凝。同樣,我們重新構(gòu)造了E 2.5D (x) = (E 2.5D (x)·mask gt,mask gt)诸迟,其中編碼器E 2.5D只預(yù)測(cè)深度茸炒,使用輸入對(duì)象掩碼。此外亮蒋,我們添加了一個(gè)小的掩模一致性損失||e 2.5D (x)掩模gt || 1扣典,以鼓勵(lì)預(yù)測(cè)的深度映射與目標(biāo)掩模一致。由于我們的訓(xùn)練圖像具有干凈的背景慎玖,我們可以用一個(gè)簡(jiǎn)單的閾值來(lái)估計(jì)目標(biāo)掩模贮尖。

4?實(shí)驗(yàn)

我們首先比較了我們的視覺對(duì)象網(wǎng)絡(luò)(VON)與最近兩個(gè)數(shù)據(jù)集上的2D GAN變體。我們使用定量的度量和定性的人類感知研究來(lái)評(píng)估結(jié)果趁怔。然后湿硝,我們對(duì)我們的形狀生成網(wǎng)絡(luò)的目標(biāo)功能進(jìn)行消融研究。最后润努,我們演示了由我們的解糾纏三維表示啟用的幾個(gè)應(yīng)用程序关斜。完整的結(jié)果和數(shù)據(jù)集可以在我們的網(wǎng)站上找到。請(qǐng)?jiān)贕itHub上找到我們的實(shí)現(xiàn)铺浇。

4.1?評(píng)估

數(shù)據(jù)集痢畜。我們使用ShapeNet [Chang et al., 2015]來(lái)學(xué)習(xí)生成三維形狀鳍侣。ShapeNet是一個(gè)包含55個(gè)對(duì)象類別的大型形狀存儲(chǔ)庫(kù)丁稀。這里我們使用的是椅類和車類,分別有6777和3513個(gè)CAD模型倚聚。對(duì)于2D數(shù)據(jù)集线衫,我們使用最近發(fā)布的Pix3D數(shù)據(jù)集獲取了1515張椅子及其輪廓的RGB圖像[Sun et al., 2018a]惑折,并從谷歌圖像搜索中抓取了448張干凈的背景圖像授账。我們還抓取了2605張汽車圖片。

我們將我們的方法與文獻(xiàn)中常用的三種常見的GAN變體進(jìn)行比較:標(biāo)準(zhǔn)交叉熵?fù)p失的DCGAN [Goodfellow et al.惨驶, 2014, Radford et al.白热, 2016]、LSGAN [Mao et al.粗卜, 2017]和WGAN-GP [Gulrajani et al.屋确, 2017]。我們對(duì)所有三個(gè)GAN模型使用相同的類dcgan生成器和鑒別器架構(gòu)。對(duì)于WGAN-GP乍恐,我們用InstanceNorm [Ulyanov et al., 2016]替換了判別器中的BatchNorm测砂,并在每個(gè)生成器迭代中訓(xùn)練判別器5次茵烈。

指標(biāo)。為了評(píng)估圖像生成模型砌些,我們計(jì)算生成的圖像與真實(shí)圖像之間的Frechet起始距離呜投,這是一個(gè)與人類感知高度相關(guān)的度量標(biāo)準(zhǔn)[Heusel et al., 2017, Lucic et al.存璃, 2018]仑荐。將每一組圖像輸入ImageNet訓(xùn)練的Inception網(wǎng)絡(luò)[Szegedy et al., 2015] [Deng et al.纵东, 2009]粘招,利用最后一個(gè)全連通層之前的層特征計(jì)算Frechet Inception距離。

其次偎球,我們從馮和最先進(jìn)的模型中提取了200對(duì)生成的圖像樣本(DCGAN洒扎、LSGAN和WGAN-GP),并在Amazon MTurk上向五名受試者展示每一對(duì)衰絮。受試者被要求在這兩組中選擇一個(gè)更真實(shí)的結(jié)果袍冷。

結(jié)果我們的馮始終優(yōu)于二維生成模型。特別地猫牡,表1顯示了我們的結(jié)果具有最小的Frechet起始距離;在表2中胡诗,74% - 85%的響應(yīng)更傾向于我們的結(jié)果。這種性能的提高表明淌友,學(xué)習(xí)的3D先驗(yàn)有助于合成更真實(shí)的圖像煌恢。這些方法之間的定性比較見圖3。

形狀生成分析亩进。對(duì)于形狀生成症虑,我們將我們的方法與Wu等人[2016]以前的3D- GAN工作在體素網(wǎng)格和距離函數(shù)表示上進(jìn)行了比較。3D-GAN使用相同的架構(gòu)归薛,但訓(xùn)練時(shí)存在交叉熵?fù)p失谍憔。我們使用生成的形狀與實(shí)際形狀之間的Frechet起始距離(FID)來(lái)評(píng)估形狀生成模型。為了提取每組生成/真實(shí)形狀的統(tǒng)計(jì)數(shù)據(jù)主籍,我們對(duì)ShapeNet中所有55類形狀訓(xùn)練基于resnet的三維形狀分類器[He et al.习贫, 2015];分類器分別在體素和距離函數(shù)表示上進(jìn)行訓(xùn)練。Weextractthefeaturesfromthelayerbeforethelastfully-connected層千元。表3表明苫昌,我們的方法在FID方面取得了較好的效果。圖4a顯示了Wasserstein距離增加了結(jié)果的質(zhì)量幸海。由于我們對(duì)體素和距離函數(shù)使用不同的分類器祟身,所以Frechet初始距離在不同的表示之間是不可比較的奥务。

4.2?應(yīng)用

我們將我們的視覺對(duì)象網(wǎng)絡(luò)應(yīng)用到幾個(gè)3D操作應(yīng)用中,這是之前的2D生成模型無(wú)法實(shí)現(xiàn)的[Goodfellow et al.袜硫, 2014, Kingma and Welling, 2014]氯葬。

改變觀點(diǎn)。由于我們的VON首先生成一個(gè)3D形狀婉陷,我們可以在保持相同的形狀和紋理代碼的同時(shí)帚称,將形狀投射到給定不同視角z視圖的圖像平面上。圖1c和圖5a顯示了一些示例秽澳。

形狀和紋理編輯闯睹。通過(guò)我們學(xué)習(xí)的解纏三維表示,我們可以輕松地只更改形狀代碼或紋理代碼担神,這允許我們分別編輯形狀和紋理楼吃。看到圖1c和圖5a給出了一些示例妄讯。

進(jìn)行插值所刀。給出了我們的解糾纏三維表示,我們可以選擇以不同的方式在兩個(gè)對(duì)象之間進(jìn)行交互捞挥。例如,我們可以插入對(duì)象形狀空間αz 1形狀+(1α)z 2形狀相同的紋理,或者紋理空間αz 1結(jié)構(gòu)+(1α)z 2紋理相同的形狀,或兩者兼而有之,α[0,1]浮创。圖5c顯示了潛在空間中的線性插值。

基于實(shí)例結(jié)構(gòu)轉(zhuǎn)移砌函。我們可以用紋理編碼器z紋理= E紋理(x)從實(shí)際圖像x中推斷紋理代碼z紋理斩披,并將代碼應(yīng)用于新的形狀。圖6顯示了使用真實(shí)圖像和生成的形狀在汽車和椅子上的紋理傳輸結(jié)果讹俊。

5?討論

在本文中垦沉,我們提出了一種用于圖像和形狀合成的完全可微三維感知生成模型——視覺對(duì)象網(wǎng)絡(luò)(VON)。我們的核心思想是將圖像生成過(guò)程分解為三個(gè)因素:形狀仍劈、視角和紋理厕倍。這種解糾纏的三維表示允許我們?cè)谝粋€(gè)對(duì)抗性學(xué)習(xí)框架下從3D和2D可視化數(shù)據(jù)集合中學(xué)習(xí)模型。與現(xiàn)有的二維生成模型相比贩疙,我們的模型合成了更多的真實(shí)感圖像;它還支持各種3D操作讹弯,這是不可能與之前的2D方法。

未來(lái)这溅,我們有興趣將粗到細(xì)的建模(Karras et al.组民, 2017)結(jié)合起來(lái),以產(chǎn)生更高分辨率的形狀和圖像悲靴。另一個(gè)值得探索的有趣方向是將紋理進(jìn)一步分解到光照和外觀中(例如反照率)臭胜,這可以提高不同視角和光照條件下外觀的一致性。最后,由于我們沒(méi)有針對(duì)整個(gè)場(chǎng)景的大規(guī)模三維幾何數(shù)據(jù)耸三,所以我們目前的方法只適用于單個(gè)對(duì)象乱陡。合成自然景觀也是有意義的下一步。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末仪壮,一起剝皮案震驚了整個(gè)濱河市蛋褥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌睛驳,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,599評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膜廊,死亡現(xiàn)場(chǎng)離奇詭異乏沸,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)爪瓜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門蹬跃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人铆铆,你說(shuō)我怎么就攤上這事蝶缀。” “怎么了薄货?”我有些...
    開封第一講書人閱讀 158,084評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵翁都,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我谅猾,道長(zhǎng)柄慰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,708評(píng)論 1 284
  • 正文 為了忘掉前任税娜,我火速辦了婚禮坐搔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘敬矩。我一直安慰自己概行,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,813評(píng)論 6 386
  • 文/花漫 我一把揭開白布弧岳。 她就那樣靜靜地躺著凳忙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪禽炬。 梳的紋絲不亂的頭發(fā)上消略,一...
    開封第一講書人閱讀 50,021評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音瞎抛,去河邊找鬼艺演。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的胎撤。 我是一名探鬼主播晓殊,決...
    沈念sama閱讀 39,120評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼伤提!你這毒婦竟也來(lái)了巫俺?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,866評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤肿男,失蹤者是張志新(化名)和其女友劉穎介汹,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舶沛,經(jīng)...
    沈念sama閱讀 44,308評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嘹承,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,633評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了如庭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片叹卷。...
    茶點(diǎn)故事閱讀 38,768評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖坪它,靈堂內(nèi)的尸體忽然破棺而出骤竹,到底是詐尸還是另有隱情,我是刑警寧澤往毡,帶...
    沈念sama閱讀 34,461評(píng)論 4 333
  • 正文 年R本政府宣布蒙揣,位于F島的核電站,受9級(jí)特大地震影響开瞭,放射性物質(zhì)發(fā)生泄漏鸣奔。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,094評(píng)論 3 317
  • 文/蒙蒙 一惩阶、第九天 我趴在偏房一處隱蔽的房頂上張望挎狸。 院中可真熱鬧,春花似錦断楷、人聲如沸锨匆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)恐锣。三九已至,卻和暖如春舞痰,著一層夾襖步出監(jiān)牢的瞬間土榴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工响牛, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留玷禽,地道東北人赫段。 一個(gè)月前我還...
    沈念sama閱讀 46,571評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像矢赁,于是被迫代替她去往敵國(guó)和親糯笙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,666評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容

  • 大學(xué)畢業(yè)一年撩银。這段時(shí)間看了套房给涕,88平,昨天交了認(rèn)籌金额获,預(yù)計(jì)是下周六交首付够庙。30年的貸款時(shí)間,我意識(shí)不到這是什么概...
    瓜子呢閱讀 183評(píng)論 0 1
  • 29日早晨到達(dá)戴高樂(lè)機(jī)場(chǎng)抄邀,經(jīng)過(guò)十幾個(gè)小時(shí)的舟車勞頓耘眨,我和小臻姐在機(jī)場(chǎng)尋找合適的交通工具去酒店。在機(jī)場(chǎng)吃了一個(gè)牛角包...
    DaisyCaiCai閱讀 639評(píng)論 0 1
  • 今天是江蘇高二年級(jí)學(xué)生參加四門副科考試的日子撤摸,俗稱小高考。 昨天晚上和女兒通過(guò)電話褒纲,是希望她考試的時(shí)候能夠...
    徐清朗閱讀 255評(píng)論 0 0