CVPR 2019 | 微軟文字轉(zhuǎn)圖像技術(shù)又進(jìn)化傻寂，提出兩種 GAN 的升級模型

文章發(fā)布于公號【數(shù)智物語】?（ID：decision_engine）戏罢，關(guān)注公號不錯過每一篇干貨烁兰。

來源 | AI科技評論

能顯著提高生成圖像的質(zhì)量~

編者按：目前基于描述的繪圖機(jī)器人在圖像生成質(zhì)量以及包含多個目標(biāo)和豐富關(guān)系的更復(fù)雜場景中生成圖像仍然存在較大挑戰(zhàn)。來自微軟人工智能研究院靖诗、JD 人工智能研究院及紐約州立大學(xué)奧爾巴尼分校的眾多相關(guān)學(xué)者正在開發(fā)一項新的人工智能技術(shù)郭怪，相關(guān)機(jī)器人可以從類似于說明的日常場景描述文本中生成圖像，其顯著提高了生成圖像的質(zhì)量刊橘，相關(guān)成果發(fā)表在微軟官網(wǎng)博客上鄙才。

如果你被要求畫這樣一張圖片——幾個穿著滑雪服的人站在雪地里，你很可能會先在畫布中間合理位置畫出三四個人的輪廓促绵，然后繼續(xù)畫他們腳下的滑雪板攒庵。雖然沒有具體說明，但你可能會決定給每個滑雪者都增加一個背包败晴，以配合他們預(yù)期的運動浓冒。最后，你會仔細(xì)地填充細(xì)節(jié)尖坤，也許把他們的衣服涂成藍(lán)色稳懒，圍巾涂成粉色，把所有的背景都涂成白色慢味，讓這些人看起來更真實场梆，并確保他們周圍的環(huán)境符合描述墅冷。最后，為了使場景更加生動辙谜，你甚至可以用一些棕色的石頭與白雪對比突出表示這些滑雪者在山里俺榆。

現(xiàn)在有一個機(jī)器人可以做到這一切。

微軟研究院正在開發(fā)的新的人工智能技術(shù)可以理解自然語言描述装哆，繪制圖像布局草圖罐脊，合成圖像，然后根據(jù)提供的布局和單個詞匯細(xì)化細(xì)節(jié)蜕琴。換句話說萍桌，這個機(jī)器人可以從類似于說明的日常場景描述文本中生成圖像。根據(jù)于加利福利亞州長灘市舉行的 CVPR 2019 上發(fā)表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述凌简，標(biāo)準(zhǔn)測試結(jié)果表明上炎，相對于前一代最先進(jìn)的復(fù)雜日常場景文本轉(zhuǎn)圖像技術(shù)，上述機(jī)器人有成熟的機(jī)制雏搂，可顯著提高生成圖像的質(zhì)量藕施。該論文是微軟人工智能研究院 Pengchuan Zhang、 Qiuyuan Huang凸郑、 Jianfeng Gao裳食，微軟的 Lei Zhang，JD 人工智能研究院的 Xiaodong He芙沥，以及紐約州立大學(xué)奧爾巴尼分校 Wenbo Li诲祸、Siwei Lyu（Wenbo Li 曾在微軟人工智能研究院實習(xí)）合作的成果。

基于描述的繪圖機(jī)器人面臨兩個主要挑戰(zhàn)而昨。第一個挑戰(zhàn)是在日常場景中會出現(xiàn)很多種類的物體救氯，機(jī)器人應(yīng)該能理解所有種類的物體并將其畫出來。前述文本轉(zhuǎn)圖像生成方法使用圖像—說明對歌憨，這些方法僅為生成單個目標(biāo)提供非常粗粒度的監(jiān)督信號着憨，限制了它們對物體的圖像生成質(zhì)量。在這項新技術(shù)中躺孝，研究人員使用了 COCO 數(shù)據(jù)集享扔，該數(shù)據(jù)集包含 80 個常見目標(biāo)分類里面 150 萬個目標(biāo)實例的標(biāo)簽和分割圖，使得機(jī)器人能夠?qū)W習(xí)這些目標(biāo)的概念和外觀植袍。這種用于目標(biāo)生成的細(xì)粒度監(jiān)督信號顯著提高了這些常見目標(biāo)類型的生成質(zhì)量惧眠。

第二個挑戰(zhàn)是理解和生成一個場景中多個目標(biāo)之間的關(guān)系。在幾個特定領(lǐng)域于个，例如人臉氛魁、鳥類和常見目標(biāo)，在生成只包含一個主要目標(biāo)的圖像方面已經(jīng)取得了巨大的成功。然而秀存，在文本轉(zhuǎn)圖像的生成技術(shù)中捶码，在包含多個目標(biāo)和豐富關(guān)系的更復(fù)雜場景中生成圖像仍然是一個重大的挑戰(zhàn)。這個新的繪圖機(jī)器人從 COCO 數(shù)據(jù)集共現(xiàn)模式中學(xué)會了生成目標(biāo)的布局或链，然后根據(jù)預(yù)先生成的布局生成圖像惫恼。

目標(biāo)驅(qū)動的專注圖像生成

微軟人工智能研究院的繪圖機(jī)器人核心是一種被稱為生成式對抗網(wǎng)絡(luò)（ GAN）的技術(shù)。GAN 由兩個機(jī)器學(xué)習(xí)模型組成：一個是根據(jù)文本描述生成圖像的生成器澳盐，另一個是根據(jù)文本描述判斷生成圖像可靠性的鑒別器祈纯。生成器試圖讓假照片通過鑒別器，而鑒別器不希望被愚弄叼耙。兩者共同工作腕窥，鑒別器推動生成器趨向完美。

繪圖機(jī)器人在一個包含 10 萬幅圖像的數(shù)據(jù)集上進(jìn)行訓(xùn)練筛婉，每個圖像都有突出的目標(biāo)標(biāo)簽和分割圖簇爆，以及五個不同的標(biāo)題，允許模型構(gòu)思單個目標(biāo)和目標(biāo)之間的語義關(guān)系爽撒。例如入蛆，GAN 在比較有狗和沒有狗的描述的圖像時，學(xué)習(xí)狗應(yīng)該是什么樣子硕勿。

GANs 在生成只包含一個突出目標(biāo)安寺，例如人臉、鳥類或狗的圖像時表現(xiàn)很好首尼，但是在生成更復(fù)雜的日常場景時，圖像生成的質(zhì)量就會停滯不前言秸，比如描述為「一個戴頭盔的女人正在騎馬」的場景（參見圖 1）软能。這是因為這類場景包含了多個目標(biāo)（女人、頭盔举畸、馬）查排，這些目標(biāo)之間有著豐富的語義關(guān)系（女人戴頭盔、女人騎馬）抄沮。機(jī)器人首先必須理解這些概念跋核，并將它們放在具有意義的布局的圖像中。然后叛买，需要一個更強(qiáng)的監(jiān)督信號來教 GANs 進(jìn)行目標(biāo)生成和布局生成砂代，從而完成語言理解與圖像生成任務(wù)。

圖 1：具有多個目標(biāo)和關(guān)系的復(fù)雜場景

當(dāng)人類繪制這些復(fù)雜的場景時率挣，我們首先決定繪制的主要目標(biāo)刻伊，并通過在畫布上為這些目標(biāo)設(shè)置邊框來進(jìn)行布局。然后，通過反復(fù)檢查該目標(biāo)相應(yīng)的描述來實現(xiàn)對每個目標(biāo)的聚焦捶箱。為了捕捉人類的上述特點智什，研究人員創(chuàng)造了一種被他們稱為目標(biāo)驅(qū)動的專注 GAN，或 ObjGAN丁屎，來對人類以目標(biāo)為注意力中心的行為進(jìn)行數(shù)學(xué)建模荠锭。ObjGAN 通過將輸入文本分解成單獨的單詞并將這些單詞與圖像中的特定目標(biāo)進(jìn)行匹配，從而實現(xiàn)上述人類的特點晨川。

人類通常會從兩個方面來改進(jìn)繪圖：單個目標(biāo)的真實感和圖像補丁的質(zhì)量证九。ObjGAN 通過引入兩個鑒別器來模擬這種行為---智能目標(biāo)鑒別器和智能補丁鑒別器。智能目標(biāo)鑒別器試圖確定生成的目標(biāo)是否真實础爬，以及該目標(biāo)是否與語句描述一致甫贯。智能補丁鑒別器試圖判斷這個補丁是否真實，以及這個補丁是否與語句描述一致看蚜。

相關(guān)工作：故事可視化

最先進(jìn)的文本轉(zhuǎn)圖像模型能夠基于單一語句描述生成真實的鳥類圖像叫搁。然而，文本轉(zhuǎn)圖像生成技術(shù)可以遠(yuǎn)遠(yuǎn)不止基于單一語句合成單一圖像供炎。由微軟研究院 Jianfeng Gao渴逻，微軟動態(tài) 365 人工智能研究員 Zhe Gan、Jingjing Liu 和 Yu Cheng音诫，杜克大學(xué) Yitong Li惨奕、David Carlson 和 Lawrence Carin，騰訊人工智能研究院 Yelong Shen竭钝，以及卡耐基梅隆大學(xué) Yuexin Wu 所著的論文「StoryGAN: A Sequential Conditional GAN for Story Visualization」中更進(jìn)一步的提出了一個稱之為故事可視化的新任務(wù)梨撞。給定一個多語句段落，該段落構(gòu)成的完整故事可以被可視化香罐，即生成一系列的圖像卧波，且每個語句對應(yīng)一個圖像。這是一個具有挑戰(zhàn)性的任務(wù)庇茫，因為繪圖機(jī)器人不僅需要想象一個適合故事的場景港粱，為故事中出現(xiàn)的不同角色之間的交互建模，而且還必須能夠在動態(tài)場景和角色之間保持全局一致性旦签。這一挑戰(zhàn)還沒有任何單一圖像或視頻生成方法能夠解決查坪。

研究人員提出了一種基于序列條件 GAN 框架新的故事-圖像-序列生成模型，稱之為 StoryGAN宁炫。該模型的獨特之處在于偿曙，它由一個可以動態(tài)跟蹤故事流的深層上下文編碼器和兩個故事與圖像層級的鑒別器組成，從而增強(qiáng)圖像質(zhì)量和生成序列的一致性淋淀。StoryGAN 還可以自然地擴(kuò)展為交互式圖像編輯遥昧，其可以根據(jù)文本指令按順序編輯輸入的圖像覆醇。在這種情況下，一系列用戶指令將作為「故事」輸入炭臭。因此永脓，研究人員修改了現(xiàn)有的數(shù)據(jù)集，創(chuàng)建了 CLEVR-SV 和 Pororo-SV 數(shù)據(jù)集鞋仍，如圖 2 所示常摧。

圖 2：簡單圖像生成 VS 故事可視化

實際應(yīng)用 —— 一個真實的故事

在實際應(yīng)用中，文本轉(zhuǎn)圖像生成技術(shù)可以作為畫家和室內(nèi)設(shè)計師的素描助手威创，也可以作為聲控照片編輯工具落午。隨著計算能力的提高，研究人員設(shè)想了一種基于劇本生成動畫電影的技術(shù)肚豺，能使動畫制作者的工作產(chǎn)量變大溃斋，同時省去一些手工勞動。

目前吸申，生成的圖像與照片的真實感相差甚遠(yuǎn)梗劫。生成的圖像中單個物體幾乎都會暴露出缺陷，比如模糊的人臉或變形的公交車截碴。這些缺陷清楚地表明梳侨，該圖像是電腦生成而非人類創(chuàng)造。盡管如此日丹，ObjGAN 圖像的質(zhì)量明顯好于以前同類中最好的 GAN 圖像走哺，并且在通往通用人工智能的道路上起到了里程碑作用。

人工智能和人類要共享同一個世界哲虾，就必須要有一種與他人互動的方式丙躏。語言和視覺是人類和機(jī)器相互作用最重要的兩種方式。文本轉(zhuǎn)圖像生成技術(shù)是語言視覺多模態(tài)智能研究的重要內(nèi)容之一束凑。

ObjGAN 和 StoryGAN 的開源代碼請在 GitHub 上查看彼哼。

via：Microsoft blog

ObjGAN：https://arxiv.org/pdf/1902.10740.pdf

StoryGAN：https://arxiv.org/abs/1812.02784

AI 科技評論編譯整理。

星標(biāo)我湘今，每天多一點智慧

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市剪菱，隨后出現(xiàn)的幾起案子摩瞎，更是在濱河造成了極大的恐慌，老刑警劉巖孝常，帶你破解...
沈念sama閱讀 218,451評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件旗们，死亡現(xiàn)場離奇詭異，居然都是意外死亡构灸，警方通過查閱死者的電腦和手機(jī)上渴，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,172評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人稠氮，你說我怎么就攤上這事曹阔。” “怎么了隔披？”我有些...
開封第一講書人閱讀 164,782評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵赃份，是天一觀的道長。經(jīng)常有香客問我奢米，道長抓韩，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,709評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任鬓长，我火速辦了婚禮谒拴，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘涉波。我一直安慰自己英上，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,733評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布怠蹂。她就那樣靜靜地躺著善延，像睡著了一般。火紅的嫁衣襯著肌膚如雪城侧。梳的紋絲不亂的頭發(fā)上易遣，一...
開封第一講書人閱讀 51,578評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音嫌佑，去河邊找鬼豆茫。笑死，一個胖子當(dāng)著我的面吹牛屋摇，可吹牛的內(nèi)容都是我干的揩魂。我是一名探鬼主播，決...
沈念sama閱讀 40,320評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼炮温，長吁一口氣：“原來是場噩夢啊……” “哼火脉！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起柒啤，我...
開封第一講書人閱讀 39,241評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤倦挂，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后担巩，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體方援，經(jīng)...
沈念sama閱讀 45,686評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,878評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年涛癌，在試婚紗的時候發(fā)現(xiàn)自己被綠了犯戏。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片送火。...
茶點故事閱讀 39,992評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖先匪，靈堂內(nèi)的尸體忽然破棺而出种吸，到底是詐尸還是另有隱情，我是刑警寧澤胚鸯，帶...
沈念sama閱讀 35,715評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布骨稿，位于F島的核電站，受9級特大地震影響姜钳，放射性物質(zhì)發(fā)生泄漏坦冠。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,336評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一哥桥、第九天我趴在偏房一處隱蔽的房頂上張望辙浑。院中可真熱鬧，春花似錦拟糕、人聲如沸判呕。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,912評論 0贊 22
一樁弒父案送滞，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽侠草。三九已至，卻和暖如春犁嗅，著一層夾襖步出監(jiān)牢的瞬間边涕，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,040評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工褂微，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留功蜓，地道東北人。一個月前我還...
沈念sama閱讀 48,173評論 3贊 370
代替公主和親
正文我出身青樓宠蚂，卻偏偏與公主長得像式撼，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子求厕，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,947評論 2贊 355

CVPR 2019 | 微軟文字轉(zhuǎn)圖像技術(shù)又進(jìn)化，提出兩種 GAN 的升級模型

CVPR 2019 | 微軟文字轉(zhuǎn)圖像技術(shù)又進(jìn)化傻寂，提出兩種 GAN 的升級模型

推薦閱讀更多精彩內(nèi)容