文章提出了兩階段的對抗生成網(wǎng)絡(luò)媳荒,第一階段是根據(jù)文字生成草圖和大致顏色酷宵,第二部分根據(jù)第一部分的結(jié)果和文本描述作為輸入生成有照片真是細(xì)節(jié)的高分辨率的圖像将硝。
StackGan是基于CGAN的塔淤,類別與之前的reed64*64的生成結(jié)果卻是不錯的,而且論文中有兩個亮點:
1. 首先流礁,StackGan 沒有采用直接優(yōu)化生成高清圖,而是利用了CGAN的條件輸入罗丰,我們把第一步生成的結(jié)果神帅,作為條件Gan的輔助輸入,這樣必然能夠生成較好結(jié)果萌抵。
2.沒有直接利用文本描述作為網(wǎng)絡(luò)的輸入找御,而是對文本加入正態(tài)擾動,最終實驗證明了隨機擾動是生成較多樣化的背景绍填。
在做實驗的時候發(fā)現(xiàn)霎桅,分辨率變大,訓(xùn)練難度也增加了讨永,時間變長很多滔驶,感覺這個第二部訓(xùn)練大概十個小時就做了60個epoch。
缺點呢卿闹,由于沒有像reeds做的增加文字是否匹配圖片的匹配對揭糕,所以會出現(xiàn)圖文不符的情況。