論文學(xué)習(xí):Learning to Generate Time-Lapse Videos Using Multi-StageDynamic Generative Adversarial Net...

Welcome To My Blog
這篇論文收錄于KDD2018,有關(guān)視頻生成的,論文有個(gè)項(xiàng)目主頁,題目翻譯過來大致是:使用多階段動(dòng)態(tài)生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)生成time-lapse(延時(shí))視頻.
多階段具體來說是兩階段,

  1. 第一階段(Base-Net): 注重每一幀內(nèi)容的真實(shí)性
  2. 第二階段(Refine-Net): 注重幀與幀之間物體的運(yùn)動(dòng)

下圖是模型整體框架,叫做MD-GAN
MD-GAN由base-net和refine-net構(gòu)成

1.png

Base-Net

Generator,G1

G1采用的是encoder-decoder這種結(jié)構(gòu),具體是采用了多個(gè)3D卷積層-反卷積層對(duì);同時(shí)還采用了skip connection(構(gòu)成了U型架構(gòu))的策略,3D卷積和skip connection 對(duì)視頻內(nèi)容進(jìn)行了很好的建模.
skip connections用于連接與encoder對(duì)應(yīng)的decoder的feature maps,從而使decoder再次利用encoder的信息,減少了信息損失.
skip connection是通過identity mapping(恒等映射)實(shí)現(xiàn)的

Discriminator,D1

D1采用的是G1中encoder的網(wǎng)絡(luò),除了最后一層用的是sigmoid激活函數(shù)而不是ReLU了

損失函數(shù)

Lcon是像素級(jí)別的L1距離,L1可以使畫面更加sharpness


7.png

作用

base-net保證內(nèi)容的sharpness

Refine-Net

Generator,G2

G2的網(wǎng)絡(luò)和G1很像,只不過G2中移除了部分skip connections,具體的是溢出了 “conv1” and “deconv6”, “conv2” and “deconv5”之間的skip connection
因?yàn)槭褂肎1中那么多的skip connection對(duì)視頻的動(dòng)態(tài)性不能很好的建模

Discriminator,D2

D2和D1的結(jié)構(gòu)一樣,只不過有3個(gè)D2,分別是Y1,Y2,Y對(duì)應(yīng)的D2
D2的重點(diǎn)是Gram matrix和ranking loss

Gram matrix 建模幀與幀之間物體運(yùn)動(dòng)的動(dòng)態(tài)性

在refine-net中,作者引入Gram matrix作為運(yùn)動(dòng)特征的表示(motion feature representation),用來輔助G2學(xué)到幀與幀之間的動(dòng)態(tài)特性
具體怎么用?

  1. 首先從D2中提取特征,具體的就是以D2的某一層的輸出作為特征,論文中說的是:features of the first and third convolutional layers (after the ReLU layer) of discriminator D2,也就是第一個(gè)和第三個(gè)卷積層+ReLU激活后的輸出作為特征.
  2. 接下來用這些特征去計(jì)算Gram矩陣,這樣做的好處是加入了豐富的時(shí)間信息,而動(dòng)作是隨著時(shí)間進(jìn)行的,所以也就是加入了訓(xùn)練集視頻片段的動(dòng)作信息.
    Gram矩陣的計(jì)算如論文所示,這其實(shí)是求提取自D2中的特征之間的協(xié)方差矩陣,計(jì)算得到的Gram矩陣將會(huì)用于ranking loss.


    2.png

ranking loss

ranking loss是論文的一大特點(diǎn),計(jì)算得到的Gram矩陣將會(huì)用于ranking loss.
D2的結(jié)構(gòu)和D1一樣,針對(duì)D2中某一層的特征,ranking loss計(jì)算公式如下所示,這個(gè)公式引用自ContrastingLoss-Generative Semantic Manipulation with Contrasting這篇論文,原論文用的是l2范式,這里用的是l1范式,也許是因?yàn)閘1范式對(duì)于視頻生成任務(wù)更合適,確切地說是因?yàn)閘1范式會(huì)提升生成視頻的sharpness(清晰度).進(jìn)一步觀察公式,如果ranking loss小,說明:g(Y2;l)接近g(Y;l),同時(shí)g(Y2;l)遠(yuǎn)離g(Y1;l),換句話說就是生成的視頻Y2更接近ground truth Y,同時(shí)比起base-net的輸出Y1,refine-net的Y2有了進(jìn)一步的提升(動(dòng)作上的提升)

3.png

損失函數(shù)

最終的ranking loss是把所有層的結(jié)果加起來(論文中是用了D2的第一層和第三層卷積層輸出)


4.png

注意到三個(gè)D2(Y,Y1,Y2)組成的ranking loss充當(dāng)Discriminator的一部分

refine-net的損失函數(shù),Lcon是像素級(jí)別的L1距離,L1可以是畫面更加sharpness


6.png

算法流程

最大化D,最小化G


5.png

作用

在保證視頻內(nèi)容的清晰度(sharpness)的基礎(chǔ)上,提升畫面的動(dòng)態(tài)性

總結(jié)

  1. 論文提出了MD-GAN,MD-GAN有兩個(gè)網(wǎng)絡(luò):base-net和refine-net
  2. 使用base-net保證內(nèi)容的sharpness
  3. 使用refine-net提升畫面的動(dòng)態(tài)性
  4. Generator中的3D卷積與skip connection(通過恒等映射實(shí)現(xiàn))算是亮點(diǎn)
  5. D2中的Gram matrix和ranking loss算是重點(diǎn)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末栅哀,一起剝皮案震驚了整個(gè)濱河市震肮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌留拾,老刑警劉巖戳晌,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異痴柔,居然都是意外死亡躬厌,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門竞帽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鸿捧,你說我怎么就攤上這事屹篓。” “怎么了匙奴?”我有些...
    開封第一講書人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵堆巧,是天一觀的道長。 經(jīng)常有香客問我泼菌,道長谍肤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任哗伯,我火速辦了婚禮荒揣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘焊刹。我一直安慰自己系任,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開白布虐块。 她就那樣靜靜地躺著俩滥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪贺奠。 梳的紋絲不亂的頭發(fā)上霜旧,一...
    開封第一講書人閱讀 51,182評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音儡率,去河邊找鬼挂据。 笑死以清,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的棱貌。 我是一名探鬼主播玖媚,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼婚脱!你這毒婦竟也來了今魔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤障贸,失蹤者是張志新(化名)和其女友劉穎错森,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體篮洁,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡涩维,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了袁波。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓦阐。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖篷牌,靈堂內(nèi)的尸體忽然破棺而出睡蟋,到底是詐尸還是另有隱情,我是刑警寧澤枷颊,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布戳杀,位于F島的核電站,受9級(jí)特大地震影響夭苗,放射性物質(zhì)發(fā)生泄漏信卡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一题造、第九天 我趴在偏房一處隱蔽的房頂上張望傍菇。 院中可真熱鬧,春花似錦界赔、人聲如沸桥嗤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泛领。三九已至,卻和暖如春敛惊,著一層夾襖步出監(jiān)牢的瞬間渊鞋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锡宋,地道東北人儡湾。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像执俩,于是被迫代替她去往敵國和親徐钠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容