無監(jiān)督的跨領域圖片生成
摘要:
我們研究了將一個領域中的樣本轉(zhuǎn)換成另一個領域中類似的樣本的問題。給定兩個相關的領域S和T口渔,我們想要學習一個生成函數(shù)G將來自S領域的輸入樣本映射到領域T晾捏,以至于接受兩個領域的輸入的給定函數(shù)f的輸出會保持不變蒿涎。除了用于訓練函數(shù)f的數(shù)據(jù),其他訓練數(shù)據(jù)是無監(jiān)督的惦辛,并由來自兩個領域的樣本集組成劳秋。
我們提出的領域轉(zhuǎn)換網(wǎng)絡使用了混合的損失函數(shù),其中包含多類別的對抗生成網(wǎng)絡損失胖齐,f一致性部分和一個鼓勵G映射T中的樣本到它們自己的正則化部分玻淑。我們將我們的方法應用到了包括數(shù)字和人臉圖片的視覺領域,并說明了其能夠生成令人信服的之前未見的實體的新的圖片呀伙,并保留其身份信息补履。
文章提出的領域轉(zhuǎn)換網(wǎng)絡(Domain Transfer Networks,DTN)的結(jié)構(gòu)如下圖所示区匠,其中f和g函數(shù)構(gòu)成了對抗生成網(wǎng)絡中的生成器干像,而分辨器G是一個三分類的分辨器,與此同時驰弄,f函數(shù)本身也是獨立的一部分麻汰,是負責提取feature的提取函數(shù),在DTN的訓練中戚篙,保持不變五鲫。
對于分辨器Discriminator而言,其訓練的Loss設計如下:
這表明分辨器D分別的三個類別分別是:1類為s域轉(zhuǎn)換后的圖片;2類為t域轉(zhuǎn)換后的圖片岔擂;3類為t域的圖片位喂。
因而對應的生成器Generator的訓練loss,對應上述D的Loss為:
loss中兩個項的含義分別是:s域的圖片轉(zhuǎn)換后的圖片要被分類器分為t域的圖片乱灵;t域的圖片轉(zhuǎn)換后的圖片也要被分類器認為是t域的圖片塑崖。(這里有個問題就是,對于G而言痛倚,在訓練的時候规婆,沒有要求其對于D的其他類別有要求,其實應該對于s域圖片轉(zhuǎn)換,在1類別上需要降低等等限制)抒蚜,除此之外掘鄙,對于G的約束的loss還有如下三個(其中d都表示距離,文中都是用歐氏距離實現(xiàn)的):
這個CONST的loss指定的是嗡髓,對于s域的圖片而言操漠,轉(zhuǎn)換前后的feature提取結(jié)果要保持一致。
類似于上面那個饿这,這個TID的loss是要求t域的圖片轉(zhuǎn)換后浊伙,與轉(zhuǎn)換前的圖片保持一致(為什么不feature保持一致?)
最后這個loss是由另外一篇論文中提出的loss蛹稍,這個loss的作用是平滑G生成的圖片吧黄,這個loss的計算量比較大,實際效果唆姐,從論文中給出的其實不是很明顯,因而在節(jié)省計算資源的情況下廓八,可以考慮剔除這個loss奉芦。
因而,對于生成器G而言剧蹂,三個loss并不是一視同仁的声功,組合方式如下:
這三個組合參數(shù)可以根據(jù)實際的需要進行設定。
文中提出的這個架構(gòu)宠叼,因為一般生成器G中的f函數(shù)是由其中一個領域的數(shù)據(jù)進行訓練的先巴,這就導致了這個模型是存在不對稱的問題,比如在S域上訓練的f冒冬,然后進行從S到T域上的轉(zhuǎn)換是沒有問題的伸蚯,但是再從T域到S域轉(zhuǎn)換,就會存在問題简烤,論文發(fā)現(xiàn)了這個不對稱的問題剂邮,并在附錄中嘗試了上述的轉(zhuǎn)換,發(fā)現(xiàn)效果并不是很好横侦。因而這里的預訓練的f函數(shù)其實屬于這個架構(gòu)的瓶頸挥萌。
與此同時,這篇論文中對于領域轉(zhuǎn)換前后feature不變的強約束枉侧,并不一定適用于domain adaption問題的設定引瀑。因為domain adaption問題中,本身就是由于特征空間存在偏移導致的榨馁,因此強約束feature在轉(zhuǎn)換前后一致憨栽,也就是轉(zhuǎn)換前后轉(zhuǎn)換的圖片的特征空間不變,可能并不適合對應的問題。