【英偉達NIPS論文AI腦洞大開】用GAN讓晴天下大雨,小貓變獅子来涨,黑夜轉(zhuǎn)白天
來源:research.nvidia.com
作者:費欣欣 常佩琦
【新智元導(dǎo)讀】英偉達最近GAN相關(guān)研究和應(yīng)用方面進展迅猛图焰。在最新的一項工作中,英偉達研究人員利用生成對抗網(wǎng)絡(luò)(GAN)和無監(jiān)督學習蹦掐,創(chuàng)建了一個擁有“想象力”系統(tǒng)技羔,僅需一次數(shù)據(jù)輸入僵闯,即可模擬出其他情形,比如將冬日拍攝的照片想象為夏日藤滥,將貓想象為獅子鳖粟、老虎,大大減少網(wǎng)絡(luò)訓(xùn)練所需的標簽數(shù)據(jù)拙绊。對于在醫(yī)療向图、自動駕駛這樣標注數(shù)據(jù)少的領(lǐng)域,擁有極大應(yīng)用潛力标沪。
只“看”一次张漂,把貓“想象”成獅子,冬日變?yōu)橄奶?/p>
“在無監(jiān)督學習中使用GAN并不是新鮮事谨娜,但我們?nèi)〉昧饲八从械某晒皆埽庇ミ_在最新發(fā)表的一篇官博文章中表示。不僅如此趴梢,這項工作還能有效減少訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的標注數(shù)據(jù)數(shù)量漠畜。
這項成果指的是今年NIPS上英偉達的論文《無監(jiān)督圖像翻譯網(wǎng)絡(luò)》(Unsupervised Image-to-Image Translation Networks)。在這篇論文中坞靶,研究人員展示了一款具有“想象力”的機器學習系統(tǒng)憔狞,可以把圖像中的白天轉(zhuǎn)換成黑夜,貓變成獅子彰阴,等等瘾敢。
研究人員首先假設(shè),相似的圖像都享有一個共同的latent空間尿这,都可以映射為這個共享空間中的同一個latent表示簇抵。基于這個假設(shè)射众,他們提出了基于生成對抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)的一個框架碟摆。在圖像轉(zhuǎn)換(翻譯)的過程中,首先叨橱,使用VAE-GAN對每個圖像域進行建模典蜕。對抗訓(xùn)練目標與權(quán)重共享約束相互作用,強制共享latent空間在兩個域中生成相應(yīng)的圖像罗洗,然后VAE將翻譯后的圖像與各個域中的輸入圖像相關(guān)聯(lián)愉舔,最后就得到了“想象結(jié)果”。
論文中不同種類的狗的轉(zhuǎn)換結(jié)果伙菜,左邊一列是輸入
英偉達的研究人員表示轩缤,這個框架在多種無監(jiān)督圖像翻譯問題中,都生成了高清質(zhì)量的圖像。此外典奉,將這個框架應(yīng)用于領(lǐng)域自適應(yīng)(domain adaptation)問題躺翻,也在基準數(shù)據(jù)集上取得了state-of-the-art的結(jié)果丧叽。
最關(guān)鍵的是卫玖,在高質(zhì)量標注數(shù)據(jù)稀缺的當下,這種方法大大減少了網(wǎng)絡(luò)訓(xùn)練所需的標簽數(shù)據(jù)踊淳,進而減少AI的訓(xùn)練時間假瞬。研究人員表示,“以無人駕駛為例迂尝,只需捕獲一次訓(xùn)練數(shù)據(jù)脱茉,便可在不同的虛擬情景下使用,如晴天垄开、多云琴许、下雪天、雨天溉躲、夜晚榜田。”
無需預(yù)訓(xùn)練網(wǎng)絡(luò)锻梳,合成2048×1024圖像箭券,添一棵樹,加上胡子疑枯,任君編輯
類似的辩块,就在上周,英偉達和伯克利合作荆永,發(fā)布了一個名為pix2pixHD的項目废亭。Pix2pixHD利用條件GAN進行高清圖像合成和處理(分辨率2048x1024),輸入語義標注圖具钥,系統(tǒng)能夠生成逼真的現(xiàn)實世界圖像滔以,例如街景、人臉氓拼。
作者在論文《使用條件GAN進行高清圖像合成和語義操縱》(High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs)中介紹了他們的方法你画。他們提出了一種多尺度的生成器和判別器架構(gòu),結(jié)合新的對抗學習目標函數(shù)桃漾。實驗結(jié)果表明坏匪,條件GAN能夠合成高分辨率、照片級逼真的圖像撬统,不需要任何手工損失或預(yù)訓(xùn)練的網(wǎng)絡(luò)适滓。
不僅如此,作者還提出了一種方法恋追,讓用戶能夠交互式地編輯物體的外觀凭迹,大大豐富了生成的數(shù)據(jù)類型罚屋。例如,在下面的視頻中嗅绸,你可以發(fā)現(xiàn)用戶能夠選擇更換街景中車輛的顏色和型號脾猛,給街景圖增加一些樹木,或者改變街道類型(例如將水泥路變成十字路)鱼鸠。類似地猛拴,利用語義標注圖合成人臉時,給定語義標注的人臉圖像蚀狰,你可以選擇組合人的五官愉昆,調(diào)整大小膚色,添加胡子等麻蹋。
作者在文中指出跛溉,他們的方法可以擴展到其他領(lǐng)域,尤其是醫(yī)療圖像這樣缺乏預(yù)訓(xùn)練網(wǎng)絡(luò)的領(lǐng)域扮授。
在這里芳室,還不得不提一下英偉達此前在官網(wǎng)發(fā)表了一篇已經(jīng)提交給 ICLR 2018 的論文“Progressive Growing of GANs for Improved Quality, Stability, and Variation”,提出了一種以漸進增大的方式訓(xùn)練GAN的方法糙箍。作者表示渤愁,這不僅穩(wěn)定了訓(xùn)練,還生成了迄今質(zhì)量最高的GAN生成的圖像深夯。
例如上面的人像抖格,忽略背景,幾乎與真實照片無異咕晋。
英偉達:積極推進GAN在醫(yī)療圖像和自動駕駛落地
這些研究充分證明了生成模型的潛力雹拄,尤其是在無監(jiān)督的情況下。現(xiàn)在的英偉達掌呜,已經(jīng)遠遠不止一家專注游戲的GPU公司滓玖,一直在試圖將其硬件推向邊緣設(shè)備,并使用人工智能作為實現(xiàn)這一點的手段和工具质蕉。
上周势篡,英偉達宣布與通用電氣醫(yī)療(GE Healthcare)達成協(xié)議,通過Revolution Frontier CT模暗,更新全球部署的500,000臺醫(yī)療成像設(shè)備禁悠,以便在醫(yī)院進行更好的成像。而英偉達在自動駕駛領(lǐng)域更是布局已久兑宇,今年10月還發(fā)布了全球首款A(yù)I自動駕駛平臺碍侦,瞄準L5級自動駕駛。而上述研究無一例外,均在醫(yī)療圖像和自動駕駛領(lǐng)域有應(yīng)用潛力瓷产。
英偉達第三季度財報顯示站玄,截至10月29日的第三季度英偉達營收26.4億美元,同比增長31.5%濒旦,再次創(chuàng)新記錄株旷。其中,數(shù)據(jù)中心業(yè)務(wù)達到5.01億美元疤估,汽車業(yè)務(wù)收入1.44億美元灾常,增長至13.3%霎冯。截至目前铃拇,英偉達依靠其在人工智能和無人駕駛方面的優(yōu)勢,股價已經(jīng)上漲了約92%沈撞。
了解更多
Unsupervised Image-to-Image Translation Networks:http://papers.nips.cc/paper/6672-unsupervised-image-to-image-translation-networks.pdf
High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs:https://tcwang0509.github.io/pix2pixHD/
Progressive Growing of GANs for Improved Quality, Stability, and Variation:https://arxiv.org/abs/1710.10196