論文:Vid2Vid
代碼:項目主頁
Vid2Vid作為pix2pix浅妆,pix2pixHD的改進(jìn)版本煤率,重點解決了視頻到視頻轉(zhuǎn)換過程中的前后幀不一致性問題。
視頻生成的難點
GAN在圖像生成領(lǐng)域雖然研究十分廣泛,然而在視頻生成領(lǐng)域卻還存在許多問題洁闰。主要原因在于生成的視頻很難保證前后幀的一致性,容易出現(xiàn)抖動诈闺。對于視頻問題渴庆,最直觀的想法便是加入前后幀的光流信息作為約束,Vid2Vid也不例外雅镊。由于Vid2Vid建立在pix2pixHD基礎(chǔ)之上襟雷,加入時序約束。因此可以實現(xiàn)高分辨率視頻生成
作者給出的方案
- 生成器加入光流約束
- 判別器加入光流信息
- 對前景仁烹、背景分別建模
1.對生成器加入光流約束
符號定義:
- 輸入圖像序列:
- 目標(biāo)圖像序列:
- 生成的圖像序列:
視頻-視頻轉(zhuǎn)換問題可以建模為如下一個條件分布:
那么我們可以訓(xùn)練一個CNN耸弄,將條件分布建模為
進(jìn)一步可以表示為:
上面這個公式有三個未知量,
卓缰,
计呈。這三個未知量都是通過學(xué)習(xí)一個CNN得到的
表示
幀到
幀的光流,光流的計算通過學(xué)習(xí)一個CNN來實現(xiàn)征唬。
表示利用
幀光流信息預(yù)測得到的第
幀的輸出
表示當(dāng)前幀的輸出結(jié)果捌显,也是利用CNN來實現(xiàn)。
表示輸出結(jié)果的模糊程度总寒。
最終輸出的結(jié)果由和
加權(quán)得到扶歪。二者的權(quán)重通過學(xué)習(xí)一個CNN來實現(xiàn),權(quán)重代表
生成結(jié)果的模糊程度摄闸,越模糊善镰,則
的比重越低。
如何學(xué)習(xí)一個計算光流的CNN
這個其實很簡單年枕,用表示生成前后兩幀圖片的光流炫欺,
表示目標(biāo)圖像(Ground truth)前后兩幀的光流。訓(xùn)練時只要最小化二者的重構(gòu)誤差就可以了熏兄。此外品洛,利用第t幀的光流信息以及第
幀的Ground truth
應(yīng)當(dāng)能夠完美重構(gòu)第
幀树姨。所以Loss如下:
第一點改進(jìn)就是這些啦。下面說一下第二點毫别。
2.對判別器器加入光流約束
這里作者使用了兩個判別器娃弓,一個是圖像粒度的判別器。這個比較簡答岛宦,使用CGAN认境。
另一個是視頻粒度的判別器眉孩。輸入為視頻序列及其光流信息苹熏,同樣輸入到CGAN翩蘸。
3. 對前景,背景分別建模
對于語義地圖轉(zhuǎn)換為街景圖這個任務(wù)变汪,作者還分別對前景侠坎,背景進(jìn)行建模,以加快收斂速度裙盾。具體來說实胸,可以把語義地圖中的“行人”,“車輛”當(dāng)做前景番官,“樹木”庐完,“道路”當(dāng)做背景。背景通常都是不動的徘熔,因此光流計算會很準(zhǔn)门躯,所以得到的圖像也會很清晰。因此酷师,我們可以設(shè)置一個mask讶凉,控制前景和背景的透明度。具體公式如下:
和
分別代表前景和背景山孔。二者也是通過CNN實現(xiàn)懂讯,
是背景的不透明度。
整個文章的idea就是上述三點了台颠。對于前兩點域醇,在視頻生成領(lǐng)域非常有借鑒意義。