Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

題目

Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

摘要

本文提出了一種基于語義布局的層次化文本圖像合成方法丛楚。該算法不是學(xué)習(xí)從文本到圖像的直接映射插勤,而是將生成過程分解為多個步驟,首先通過布局生成器從文本中構(gòu)造語義布局唉匾,然后通過圖像生成器將布局轉(zhuǎn)換為圖像凄硼。所提出的布局生成器通過生成對象邊界框并通過估計框內(nèi)的對象形狀來細(xì)化每個框铅协,以從粗到細(xì)的方式漸進(jìn)地構(gòu)建語義布局。圖像生成器根據(jù)推斷出的語義布局合成圖像摊沉,該語義布局提供與文本描述匹配的圖像的有用語義結(jié)構(gòu)狐史。我們的模型不僅生成語義上更有意義的圖像,而且允許通過修改生成的場景布局來自動注釋生成的圖像和用戶控制的生成過程。我們證明了該模型在挑戰(zhàn)MS-COCO數(shù)據(jù)集上的能力骏全,并且表明該模型可以顯著地改善圖像質(zhì)量苍柏、輸出的可解釋性以及對輸入文本的語義對齊。

簡介

從文本描述生成圖像一直是計算機(jī)視覺中一個活躍的研究課題姜贡。通過允許用戶用自然語言描述視覺概念试吁,它為圖像生成提供了自然而靈活的接口。近年來楼咳,基于條件生成對抗網(wǎng)絡(luò)(GAN)的文本到圖像合成任務(wù)顯示出良好的結(jié)果[21熄捍,34,23]爬橡。通過對文本的生成器和鑒別器進(jìn)行調(diào)節(jié)治唤,這些方法能夠生成既不同又與輸入文本相關(guān)的真實圖像〔谏辏基于條件GAN框架宾添,最近提出的方法通過生成高分辨率圖像[34]或增強(qiáng)文本信息[6,4]來進(jìn)一步提高預(yù)測質(zhì)量柜裸。然而缕陕,現(xiàn)有方法的成功主要局限于簡單的數(shù)據(jù)集,如鳥類[33]和花[17]疙挺,而生成復(fù)雜的真實世界扛邑。

然而,現(xiàn)有方法的成功主要局限于簡單的數(shù)據(jù)集铐然,如鳥類[33]和花[17]蔬崩,而生成復(fù)雜的、真實世界的圖像搀暑,如MS-COCO[13]仍然是一個公開的挑戰(zhàn)沥阳。如圖1所示,從句子“人們騎著大象穿過河流”生成圖像需要對多種視覺概念進(jìn)行多種推理自点,比如對象類別(人和大象)桐罕、對象的空間配置(騎馬)、場景上下文(穿過河流)等等桂敛。這比在simpler數(shù)據(jù)集[33功炮,17]中生成單個的大對象更復(fù)雜。由于從一般圖像學(xué)習(xí)直接文本到像素映射的復(fù)雜性术唬,現(xiàn)有方法無法為這種復(fù)雜的文本描述生成合理的圖像薪伏。

與學(xué)習(xí)從文本到圖像的直接映射不同的是,我們提出了一種替代方法碴开,將語義布局構(gòu)造為文本和圖像之間的中間表示毅该。語義布局基于對象實例定義場景的結(jié)構(gòu)博秫,并提供場景的細(xì)粒度信息潦牛,如對象的數(shù)量眶掌、對象類別、位置巴碗、大小朴爬、形狀等(圖1)。通過引入顯式地將圖像語義結(jié)構(gòu)與文本對齊的機(jī)制橡淆,該方法可以生成匹配復(fù)雜文本描述的復(fù)雜圖像召噩。此外,根據(jù)語義結(jié)構(gòu)調(diào)整圖像生成允許我們的模型生成語義上更有意義的圖像逸爵,這些圖像易于識別和解釋具滴。

我們的層次化文本到圖像合成模型包括兩部分:布局生成器,從文本描述構(gòu)造語義標(biāo)簽映射师倔;圖像生成器构韵,通過考慮文本將估計的布局轉(zhuǎn)換為圖像。由于學(xué)習(xí)從文本到細(xì)粒度語義布局的直接映射仍然是一個難題趋艘,因此我們將任務(wù)進(jìn)一步分解為兩個可管理的子任務(wù):首先使用框生成器估計圖像的邊界框布局疲恢,然后使用形狀生成器細(xì)化框內(nèi)的每個對象的形狀。然后瓷胧,生成的布局用于指導(dǎo)圖像生成器進(jìn)行像素級合成显拳。盒子生成器、形狀生成器和圖像生成器由獨立的神經(jīng)網(wǎng)絡(luò)實現(xiàn)搓萧,并與相應(yīng)的監(jiān)督并行訓(xùn)練杂数。

我們的層次化文本到圖像合成模型包括兩部分:布局生成器,從文本描述構(gòu)造語義標(biāo)簽映射瘸洛;圖像生成器揍移,通過考慮文本將估計的布局轉(zhuǎn)換為圖像。由于學(xué)習(xí)從文本到細(xì)粒度語義布局的直接映射仍然是一個難題货矮,因此我們將任務(wù)進(jìn)一步分解為兩個可管理的子任務(wù):首先使用框生成器估計圖像的邊界框布局羊精,然后使用形狀生成器細(xì)化框內(nèi)的每個對象的形狀。然后囚玫,生成的布局用于指導(dǎo)圖像生成器進(jìn)行像素級合成喧锦。盒子生成器、形狀生成器和圖像生成器由獨立的神經(jīng)網(wǎng)絡(luò)實現(xiàn)抓督,并與相應(yīng)的監(jiān)督并行訓(xùn)練燃少。

生成語義布局不僅提高了文本到圖像合成的質(zhì)量,而且提供了許多潛在的好處铃在。首先阵具,語義布局在生成的圖像上提供基于實例的注釋碍遍,這些注釋可以直接用于自動場景解析和對象重新篩選。其次阳液,為控制圖像的生成過程提供了一個交互式界面怕敬,用戶可以通過刪除/添加對象、改變對象的大小和位置等方式修改精簡布局帘皿,生成期望的圖像东跪。

這篇文章的貢獻(xiàn)如下:
本文提出了一種從復(fù)雜文本描述合成圖像的新方法。該模型從文本描述出發(fā)鹰溜,明確構(gòu)建語義布局虽填,并利用推理出的語義布局指導(dǎo)圖像生成。

通過在顯式布局預(yù)測上調(diào)節(jié)圖像生成曹动,我們的方法能夠生成語義有意義且與輸入描述良好對齊的圖像斋日。

我們對具有挑戰(zhàn)性的MS-COCO數(shù)據(jù)集進(jìn)行了廣泛的定量和定性評估,并證明與現(xiàn)有工程相比墓陈,生成圖像質(zhì)量顯著提高恶守。

論文的其余部分組織如下。我們簡要回顧了第二節(jié)中的相關(guān)工作跛蛋,并提供了第三節(jié)中建議的方法的概述熬的。我們的布局和圖像生成模型分別在第4節(jié)和第5節(jié)中介紹。我們在第六節(jié)討論了MS-COCO數(shù)據(jù)集上的實驗結(jié)果赊级。

相關(guān)工作

從文本描述生成圖像最近引起了研究界的廣泛關(guān)注押框。為了將任務(wù)作為條件圖像生成問題來研究,基于變分自動編碼器(VAE)[14]理逊、自回歸模型[22]橡伞、優(yōu)化技術(shù)[16]等提出了多種方法。近年來晋被,基于條件生成對抗網(wǎng)絡(luò)(GAN)[7]的應(yīng)用在文本到圖像之間顯示出良好的合成結(jié)果[21,23,34,6,4]兑徘。里德等人[21]提出以文本嵌入為條件學(xué)習(xí)生成器和鑒別器。張等[34]采用兩級GAN提高圖像分辨率羡洛,提高了圖像質(zhì)量挂脑。其他方法包括通過用合成的字幕擴(kuò)充文本數(shù)據(jù)來改進(jìn)條件泛型[6],或在類標(biāo)簽上添加條件[4]欲侮。雖然這些方法在特定類別(例如崭闲,鳥類[33]和花[17])的數(shù)據(jù)集上顯示了令人印象深刻的生成結(jié)果,但是在具有復(fù)雜圖像的數(shù)據(jù)集(例如威蕉,MS-COCO[13])上刁俭,生成的感知質(zhì)量趨向于顯著降低。通過對推理語義布局的生成條件進(jìn)行調(diào)整韧涨,研究了一種提高一般圖像文本到圖像合成的方法牍戚。

最近[3,10,12,22]研究了從逐像素語義標(biāo)簽生成圖像的問題侮繁。在這些方法中,圖像生成的任務(wù)是作為將語義標(biāo)簽翻譯成像素如孝。伊索拉等宪哩。[10]提出了一種將密集的像素級標(biāo)簽轉(zhuǎn)換為圖像的像素對像素轉(zhuǎn)換網(wǎng)絡(luò),以及Chen[3]提出了一種級聯(lián)細(xì)化網(wǎng)絡(luò)暑竟,用于生成密集語義標(biāo)簽的高分辨率輸出斋射∮祝卡拉坎等[12]使用密集布局和屬性向量來使用條件GAN生成圖像但荤。尤其里德等[22]像我們的方法一樣利用稀疏標(biāo)簽映射。與以前要求生成基本真值布局的方法不同涧至,我們的方法推斷精義布局腹躁,因此更一般地適用于各種生成任務(wù)。注意南蓬,我們的主要貢獻(xiàn)是對這些方法的補(bǔ)充纺非,并且可以集成現(xiàn)有的像素分割生成方法,以生成根據(jù)由我們的方法推斷的布局調(diào)整的圖像赘方。

用于圖像生成的場景結(jié)構(gòu)推斷的思想并不新鮮烧颖,因為最近一些領(lǐng)域的工作已經(jīng)對它進(jìn)行了探索。例如窄陡,王等人[32]提出將表面法線圖推斷為生成室內(nèi)場景圖像的中間結(jié)構(gòu)炕淮,以及Villegas等[29]預(yù)測用于未來幀預(yù)測的人體關(guān)節(jié)。與我們的方法最相關(guān)的工作是Reed等[23]跳夭,用于預(yù)測鳥類或人類的局部關(guān)鍵點涂圆,用于文本-圖像合成。與以往的預(yù)測這種特定類型的圖像生成結(jié)構(gòu)的方法不同币叹,我們提出的方法旨在預(yù)測語義標(biāo)簽映射润歉,這是自然圖像的一般表示。

綜述

建議的框架的整個流水線如圖2所示颈抚。給定文本描述踩衩,我們的模型通過利用以下生成序列細(xì)化圖像的語義結(jié)構(gòu)來逐步構(gòu)建場景:

邊界框生成器以文本嵌入s作為輸入,并通過在圖像中按原樣組合對象來生成粗略布局贩汉∏唬框生成器的輸出是一組邊界框B 1:T={B 1,...雾鬼,B T}萌朱,其中每個邊界框B t定義第t個對象的位置、大小和類別標(biāo)簽策菜。

形狀生成器從框生成器中獲取一組邊界框晶疼,并預(yù)測框內(nèi)的對象的形狀酒贬。形狀生成器的輸出是一組二進(jìn)制掩碼M 1:T={M 1,...翠霍,M T}锭吨,其中每個掩碼M T定義第t個對象的前景形狀。

圖像生成器采用通過聚合實例化掩碼獲得的語義標(biāo)簽映射M和文本嵌入作為輸入寒匙,并通過將語義布局轉(zhuǎn)換為匹配文本描述的像素來生成圖像零如。

從文本中推斷語義布局

邊界框生成

給定輸入文本嵌入s,我們首先以目標(biāo)邊界框的形式生成圖像的粗略布局锄弱。我們將每個邊界框B t與一個類標(biāo)簽相關(guān)聯(lián)考蕾,以定義要放置的對象的類和位置,這對于確定場景的全局布局起著關(guān)鍵作用会宪。特別地肖卧,我們將第t個對象的標(biāo)記邊界框表示為B t=(b t,l t)掸鹅,其中b t=[b t塞帐,x,b t巍沙,y葵姥,b t,w句携,b t榔幸,h]∈R 4表示邊界框的位置和大小,并且l t∈{0务甥,1}L+1是L類上的一個熱類標(biāo)簽牡辽。我們保留第(L+1)類作為序列末尾的特殊指示符。

邊界框生成器G框定義從輸入文本s到一組T對象邊界框B 1:T={B 1,...,B T}的隨機(jī)映射:

模型敞临。我們采用自回歸譯碼器作為盒生成器态辛,通過將條件聯(lián)合邊界Q T盒概率分解為p(B 1:T|s)=t=1p(B 1:t_1,s)挺尿,其中條件由LSTM[9]近似奏黑。在生成過程中,我們首先為第t個對象采樣一個類標(biāo)簽l t编矾,然后生成條件為l t的箱坐標(biāo)b t熟史,即p(B t|·)=p(b t,l t|·)=p(l t|·)p(b t|l t,·)窄俏。這兩個條件分別由高斯混合模型(GMM)和分類分布[8]建模:

訓(xùn)練蹂匹。我們通過最小化真值邊界框的負(fù)對數(shù)可能性來訓(xùn)練盒生成器:

在測試時,我們分別通過等式(2)和(3)對框坐標(biāo)和類標(biāo)簽進(jìn)行祖先采樣來生成邊界框凹蜈。當(dāng)采樣的類標(biāo)簽對應(yīng)于終止指示符(L+1)時限寞,我們終止采樣忍啸,從而基于文本自適應(yīng)地確定對象的數(shù)量。

形狀生成器

給定由邊界框生成器獲得的一組邊界邊界框履植,形狀生成器以對象掩碼的形式預(yù)測更詳細(xì)的圖像結(jié)構(gòu)计雌。具體地,對于由等式(1)得到的每個對象包圍盒B t玫霎,我們生成一個二進(jìn)制掩碼MT∈R H×W凿滤,它定義了盒內(nèi)對象的形狀。為此庶近,我們首先將離散邊界盒的輸出{B t}轉(zhuǎn)換為二元張量B t∈{0翁脆,1}H×W×L,其元素是1當(dāng)且僅當(dāng)它包含在相應(yīng)的類標(biāo)號盒中拦盹。使用符號M 1:T={M 1鹃祖,...,M T}普舆,我們將形狀生成器G掩碼定義為

生成精確的對象形狀應(yīng)滿足兩個要求:(i)首先,每個實例式掩模MT都應(yīng)該匹配B t的位置和類信息校读,并且可以識別為單個實例(實例式約束)沼侣。(ii)第二,每個物體形狀必須與其周圍環(huán)境(全局約束)對齊歉秫。為了滿足兩者蛾洛,我們將形狀發(fā)生器設(shè)計成遞歸神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)通過如下描述的兩個條件對抗損失進(jìn)行訓(xùn)練雁芙。

模型轧膘。我們使用卷積遞歸神經(jīng)網(wǎng)絡(luò)[25]構(gòu)建形狀生成器G掩碼,如圖2所示兔甘。在每個步驟t谎碍,模型通過編碼CNN取B t,并通過雙向卷積LSTM(Bi-convLSTM)對所有對象實例的信息進(jìn)行編碼洞焙。在第t步的convLSTM輸出之上蟆淀,通過空間平鋪和連接來添加噪聲z t,并通過解碼器CNN轉(zhuǎn)發(fā)來生成掩碼MT澡匪。

訓(xùn)練熔任。形狀生成器的訓(xùn)練基于GAN框架[7],其中發(fā)生器和鑒別器交替訓(xùn)練唁情。為了執(zhí)行前面討論的全局約束和實例約束疑苔,我們使用兩個條件對抗性損失[15],其中實例鑒別器D inst和全局鑒別器D.甸鸟。

首先惦费,我們鼓勵每個對象掩碼與由對象邊界框編碼的類和位置信息兼容赛惩。我們通過優(yōu)化下列實例的對抗損失來訓(xùn)練實例鑒別器D inst:

另一方面,全局丟失鼓勵所有基于實例的掩碼形成全局一致的上下文趁餐。為了考慮不同對象之間的關(guān)系喷兼,我們將它們聚合為一個全局掩碼1G全局(B 1:T,z 1:T)=P(t)t G掩碼(B 1:t后雷,z 1:t)季惯,并計算類似于等式(6)的全局對抗損失。

最后臀突,我們另外強(qiáng)加一個重建損失L rec勉抓,它鼓勵預(yù)測的實例掩碼與地面事實相似。我們使用感知損耗[11,3,31,2]來實現(xiàn)這個想法候学,它測量在預(yù)訓(xùn)練CNN的特征空間中真實圖像和偽圖像的距離藕筋。

結(jié)合等式(6)、(7)和(8)梳码,形狀生成器的總體訓(xùn)練目標(biāo)變?yōu)?/p>

從文本和布局中合成圖像

布局生成器的輸出定義對象的位置隐圾、大小、形狀和類信息掰茶,這些信息提供與文本相關(guān)的場景的語義結(jié)構(gòu)暇藏。給定語義結(jié)構(gòu)和文本,圖像生成器的目標(biāo)是生成符合這兩種條件的圖像濒蒋。為此盐碱,我們首先將二進(jìn)制對象掩碼M 1:T聚集到一個語義標(biāo)簽映射M∈{0,1}H×W×L沪伙,使得M i j k=1當(dāng)且僅當(dāng)存在掩碼M T覆蓋像素(i瓮顽,j)的k類對象。然后围橡,給定語義布局M和文本s暖混,圖像生成器被定義為

模型。圖3說明了圖像生成器的總體架構(gòu)某饰。我們的發(fā)生器網(wǎng)絡(luò)是基于卷積編譯碼器網(wǎng)絡(luò)[10]儒恋,經(jīng)過若干修改。首先通過幾個下采樣層對語義布局M進(jìn)行編碼黔漂,構(gòu)造布局特征A∈R h×w×d诫尽。我們考慮布局特征沿通道維度對輸入布局的各種上下文信息進(jìn)行編碼。為了自適應(yīng)地選擇與文本相關(guān)的上下文炬守,我們將注意力放在布局特征上牧嫉。具體地,我們從文本嵌入中計算一個d維向量,并在空間上復(fù)制它來構(gòu)造S∈R h×w×d酣藻。然后曹洽,我們用A g=A_(S)對布局特征進(jìn)行門控,其中是sigmoid非線性度辽剧,而_表示元素乘法送淆。為了進(jìn)一步對背景中的文本信息進(jìn)行編碼,我們計算另一個嵌入有獨立全連通層的文本怕轿,并將其空間復(fù)制到大小h×w上偷崩,然后將柵極布局特征A g、文本嵌入和噪聲沿通道維進(jìn)行級聯(lián)撞羽,然后依次饋入多個剩余塊并解碼阐斜。der被映射到圖像。我們采用級聯(lián)網(wǎng)絡(luò)[3]作為解碼器诀紊,將語義布局M作為每個上采樣層的常規(guī)輸入谒出。我們發(fā)現(xiàn),級聯(lián)網(wǎng)絡(luò)增強(qiáng)了對布局結(jié)構(gòu)的調(diào)節(jié)邻奠,產(chǎn)生了更好的對象邊界笤喳。

對于鑒別器網(wǎng)絡(luò)D img,我們首先將生成的圖像X和語義布局M連接起來惕澎,通過一系列下采樣塊進(jìn)行饋電莉测,得到大小為h′×w′的特征圖。我們將其與空間平鋪的文本嵌入連接起來唧喉,從中我們計算鑒別器的決策得分。

訓(xùn)練忍抽。在[20]所提取的語義布局M和文本嵌入s的條件下八孝,圖像生成器G img與鑒別器D img聯(lián)合訓(xùn)練。我們用L img=λaLadv+λrLrec定義目標(biāo)函數(shù)鸠项,其中

實驗

實驗裝置

數(shù)據(jù)集干跛。我們使用MS-COCO數(shù)據(jù)集[13]來評估我們的模型。它包含超過80個語義類的164000個訓(xùn)練圖像祟绊,其中每個圖像與逐個實例的注釋(即楼入,對象邊界框和分割掩碼)和5個文本描述相關(guān)聯(lián)。數(shù)據(jù)集具有復(fù)雜場景牧抽,其中許多對象在不同的上下文中嘉熊,這使得生成非常具有挑戰(zhàn)性。我們分別使用MS-COCO 2014的正式訓(xùn)練和驗證片段來訓(xùn)練和評價我們的模型扬舒。

評估度量阐肤。我們使用各種度量來評估文本條件圖像生成性能:初始評分、標(biāo)題生成和人類評價。

初始分?jǐn)?shù)-我們通過對合成圖像應(yīng)用預(yù)先訓(xùn)練的分類器并調(diào)查其得分分布的統(tǒng)計來計算初始分?jǐn)?shù)[24]孕惜。它測量生成的圖像的可識別性和多樣性愧薛,并且已知與人們對視覺質(zhì)量的感知相關(guān)[18]。我們使用ImageNet[5]上預(yù)訓(xùn)練的Inception-v3[27]網(wǎng)絡(luò)進(jìn)行評估衫画,并測量所有驗證圖像的得分毫炉。

字幕生成-除了初始評分,評估文本條件圖像生成的性能需要測量生成的圖像與輸入文本的相關(guān)性削罩。為此瞄勾,我們從合成圖像中生成句子,并測量輸入文本和預(yù)測語句之間的相似度鲸郊》崃瘢基本的直覺是,如果生成的圖像與輸入文本相關(guān)秆撮,并且其內(nèi)容是可識別的四濒,那么應(yīng)該能夠從合成圖像中猜測原始文本。我們使用在MS-COCO上訓(xùn)練的圖像字幕生成器[30]來生成句子职辨,其中每個圖像通過貪婪解碼生成一個句子盗蟆。我們報告了三種標(biāo)準(zhǔn)的語言相似性度量:BLEU[19]、METEOR[1]和CIDER[28]舒裤。

人類評價-基于字幕生成的評價對大規(guī)模評價是有益的喳资,但是可能引入字幕生成器的意外偏倚。為了驗證基于字幕的評估的有效性腾供,我們使用AmazonMachineryTurk進(jìn)行人性化評估仆邓。對于從MS-COCO驗證集中隨機(jī)選擇的每個文本,我們給出了用不同方法生成的5幅圖像伴鳖,并要求用戶根據(jù)生成的圖像與文本的相關(guān)性對它們進(jìn)行排序节值。我們收集了1000個句子的結(jié)果,每個句子由5個用戶注釋榜聂。我們根據(jù)每種方法被評為最佳方法的比率搞疗,以及我們與基線的一對一比較來報告結(jié)果。

定量分析

我們將我們的方法與基于條件GAN的兩種最新方法[21须肆,34]進(jìn)行比較匿乃。表1和表2總結(jié)了定量評價結(jié)果。

與其他方法的比較豌汇。我們首先給出基于初始評分和字幕生成性能的系統(tǒng)評估結(jié)果幢炸。結(jié)果總結(jié)在表1中。所提出的方法顯著優(yōu)于基于兩個評估度量的現(xiàn)有方法瘤礁。在初始評分方面阳懂,我們的方法以相當(dāng)大的優(yōu)勢優(yōu)于現(xiàn)有的方法,可能是因為我們的方法生成了更多可識別的對象。字幕生成性能表明岩调,從合成圖像中生成的字幕與輸入文本的關(guān)聯(lián)性比基線更強(qiáng)巷燥。這表明,我們的方法生成的圖像與去腳本更好地對齊号枕,并且更容易識別語義內(nèi)容缰揪。

表2總結(jié)了基于人類評價的比較結(jié)果。當(dāng)要求用戶根據(jù)圖像與輸入文本的相關(guān)性對圖像進(jìn)行排序時葱淳,他們選擇由我們的方法生成的圖像作為所有呈現(xiàn)文本的大約60%中的最佳钝腺,這大大高于基線(約20%)。這與表1中的字幕生成結(jié)果一致赞厕,在表1中艳狐,我們的方法的性能顯著優(yōu)于基線,而它們的性能是可比的皿桑。

圖4說明了定性比較毫目。由于通用的訓(xùn)練,由其他方法生成的圖像诲侮,尤其是StackGAN[34]镀虐,趨向于清晰并顯示高頻細(xì)節(jié)。然而沟绪,由于圖像往往不能預(yù)測物體和場景的重要語義結(jié)構(gòu)刮便,因此很難從圖像中識別出內(nèi)容。作為結(jié)果绽慈,從生成的圖像中重構(gòu)的標(biāo)題通常與輸入文本不相關(guān)恨旱。與它們相比,我們的方法通過利用推斷的語義布局來調(diào)節(jié)生成的條件坝疼,從而生成更加可識別和語義有意義的圖像窖杀,并且能夠重構(gòu)與輸入句子更好地對齊的描述。

燒蝕分析裙士。為了理解預(yù)測的語義布局的質(zhì)量及其重要性,我們用基本事實逐步替換布局生成器預(yù)測的邊界框和掩模布局管毙,進(jìn)行消融研究腿椎。表1總結(jié)了定量評估結(jié)果。正如它顯示的夭咬,將預(yù)測的布局替換為基本事實將導(dǎo)致逐漸的性能改進(jìn)啃炸,這顯示了邊界框和掩碼布局中的預(yù)測錯誤。

定性分析

圖5顯示了我們方法的定性結(jié)果卓舵。對于每個文本南用,我們將生成的圖像與預(yù)測的語義布局一起呈現(xiàn)。與前一節(jié)一樣,我們還給出了以基本事實布局為條件的結(jié)果裹虫。如它所示肿嘲,我們的方法生成合理的語義布局和匹配輸入文本的圖像;生成與文本中嵌入的細(xì)粒度場景結(jié)構(gòu)(即對象類別筑公、對象數(shù)量)相對應(yīng)的邊界框雳窟,以及捕獲特定于類的視覺屬性以及與其他對象的關(guān)系的對象掩碼。根據(jù)推斷的布局匣屡,我們的圖像生成器生成正確的對象外觀和與文本兼容的背景封救。用基本事實替換預(yù)測的布局使得生成的圖像具有與原始圖像類似的上下文。

樣本的多樣性捣作。為了評估生成中的多樣性誉结,我們在固定輸入文本的同時對多個圖像進(jìn)行采樣。圖6說明了我們的方法生成的示例圖像券躁。我們的方法根據(jù)相同的文本描述生成不同的語義結(jié)構(gòu)惩坑,同時保留語義細(xì)節(jié),如對象數(shù)量和對象類別嘱朽。

文本條件生成旭贬。為了了解我們的模型在生成過程中如何結(jié)合文本描述,我們在修改部分描述的同時生成圖像搪泳。圖7說明了示例結(jié)果稀轨。在改變對象類別、對象數(shù)量岸军、對象空間組成奋刽、背景模式等描述上下文時,該方法根據(jù)文本修改后的部分正確地調(diào)整語義結(jié)構(gòu)和圖像艰赞。

可控制圖像生成佣谐。我們通過修改邊界框布局來演示可控圖像生成。圖8說明了示例結(jié)果方妖。我們的方法基于修改后的語義布局(例如狭魂,添加新對象、改變對象的空間配置)更新對象形狀和上下文党觅,并生成合理的圖像雌澄。

結(jié)論

我們提出了一種文本到圖像的合成方法,它顯式地推斷和利用語義布局作為文本到圖像的中間表示杯瞻。我們的模型通過一系列生成器以從粗到細(xì)的方式分層地構(gòu)建語義布局镐牺。通過將圖像生成條件限定在顯式布局預(yù)測上,我們的方法生成了保留語義細(xì)節(jié)并且與文本描述高度相關(guān)的復(fù)雜圖像魁莉。我們還表明睬涧,所預(yù)測的布局可以用于控制生成過程募胃。我們相信,對布局和圖像生成的端到端的訓(xùn)練將是今后有趣的工作畦浓。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末痹束,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子宅粥,更是在濱河造成了極大的恐慌参袱,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秽梅,死亡現(xiàn)場離奇詭異抹蚀,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)企垦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進(jìn)店門环壤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人钞诡,你說我怎么就攤上這事郑现。” “怎么了荧降?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵接箫,是天一觀的道長。 經(jīng)常有香客問我朵诫,道長辛友,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任剪返,我火速辦了婚禮废累,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘脱盲。我一直安慰自己邑滨,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布钱反。 她就那樣靜靜地躺著掖看,像睡著了一般。 火紅的嫁衣襯著肌膚如雪面哥。 梳的紋絲不亂的頭發(fā)上乙各,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天,我揣著相機(jī)與錄音幢竹,去河邊找鬼。 笑死恩静,一個胖子當(dāng)著我的面吹牛焕毫,可吹牛的內(nèi)容都是我干的蹲坷。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼邑飒,長吁一口氣:“原來是場噩夢啊……” “哼循签!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起疙咸,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤县匠,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后撒轮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乞旦,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年题山,在試婚紗的時候發(fā)現(xiàn)自己被綠了兰粉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡顶瞳,死狀恐怖玖姑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情慨菱,我是刑警寧澤焰络,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站符喝,受9級特大地震影響闪彼,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜洲劣,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一备蚓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧囱稽,春花似錦郊尝、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至吞获,卻和暖如春况凉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背各拷。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工刁绒, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人烤黍。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓知市,卻偏偏與公主長得像傻盟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子嫂丙,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容