學習情況總述:
1司顿、理論性論文:
· Improved wgan :Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein gans[J]. arXiv preprint arXiv:1704.00028, 2017
2、醫(yī)療應用型論文:
3孤澎、模型實現(xiàn):根據(jù)所提供的improved wgan開源代碼,實現(xiàn)了cifar數(shù)據(jù)生成模型诵闭。
4熊赖、后續(xù):前兩天的CVPR2017所篩選出的論文:
· MDNet:A Semantically and Visually Interpretable Medical Image Diagnosis Network
· Fast PET reconstruction using Multi-scale FCN
· High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis
· Enhanced Deep Residual Networks for Single Image Super-Resolution
論文解讀:
· Improved wgan:現(xiàn)階段最先進的生成對抗網(wǎng)絡。
在WGAN中承二,研究者們發(fā)現(xiàn)失敗的案例通常是由使用權(quán)重剪枝來對critic實施Lipschitz約束導致的榆鼠。蒙特利爾大學的研究者對WGAN進行改進,提出了一種替代WGAN判別器中權(quán)重剪枝的方法亥鸠,下面是他們所做的工作:妆够,
1、通過小數(shù)據(jù)集上的實驗负蚊,概述了判別器中的權(quán)重剪枝是如何導致影響穩(wěn)定性和性能的病態(tài)行為的神妹。
2、提出具有梯度懲罰的WGAN(WGAN with gradient penalty)盖桥,從而避免同樣的問題灾螃。
3题翻、展示該方法相比標準WGAN擁有更快的收斂速度揩徊,并能生成更高質(zhì)量的樣本。
4嵌赠、展示該方法如何提供穩(wěn)定的GAN訓練:幾乎不需要超參數(shù)調(diào)參塑荒,成功訓練多種針對圖片生成和語言模型的GAN架構(gòu)
由于在WGAN中使用權(quán)重剪枝可能會導致不良結(jié)果,研究者考慮在訓練目標上使用Lipschitz約束的一種替代方法:一個可微的函數(shù)是1-Lipschitz姜挺,當且僅當它的梯度具有小于或等于1的范數(shù)時齿税。因此,可以直接約束critic函數(shù)對其輸入的梯度范數(shù)炊豪。新的critic函數(shù)為:
為了展示該方法訓練過程中的穩(wěn)定性凌箕,研究者在LSUN臥室訓練集上訓練了多種不同的GAN架構(gòu)拧篮,除了DCGAN外,研究者還選擇了另外六種較難訓練的架構(gòu)牵舱,如下圖所示:
上圖顯示的樣本都是經(jīng)過200k次迭代的結(jié)果串绩。目前為止,梯度懲罰的WGAN是唯一一種使用同一種默認超參數(shù)芜壁,并在每個架構(gòu)下都成功訓練的方法礁凡。而所有其他方法,都在一些架構(gòu)下不穩(wěn)定慧妄。論文還有更多實驗了論證wgan-gp的性能顷牌。
· DenseNet:CVPR2017 best paper,主要對比了殘差網(wǎng)絡塞淹,性能最好的CNN模型窟蓝。
近幾年來,隨著卷積神經(jīng)網(wǎng)絡(CNNs)的迅速發(fā)展窖铡,學術(shù)界涌現(xiàn)出一大批非常高效的模型疗锐,如 GoogleNet、VGGNet费彼、ResNet 等滑臊,在各種計算機視覺任務上均嶄露頭角。但隨著網(wǎng)絡層數(shù)的加深箍铲,網(wǎng)絡在訓練過程中的前傳信號和梯度信號在經(jīng)過很多層之后可能會逐漸消失雇卷。先前有一些非常好的工作來解決這一問題。如在 Highway 和 ResNet 結(jié)構(gòu)中均提出了一種數(shù)據(jù)旁路(skip-layer)的技術(shù)來使得信號可以在輸入層和輸出層之間高速流通颠猴,核心思想都是創(chuàng)建了一個跨層連接來連通網(wǎng)路中前后層关划。在本文中,作者基于這個核心理念設計了一種全新的連接模式翘瓮。為了最大化網(wǎng)絡中所有層之間的信息流贮折,作者將網(wǎng)絡中的所有層兩兩都進行了連接,使得網(wǎng)絡中每一層都接受它前面所有層的特征作為輸入资盅。由于網(wǎng)絡中存在著大量密集的連接调榄,作者將這種網(wǎng)絡結(jié)構(gòu)稱為 DenseNet。其結(jié)構(gòu)示意圖如下左圖所示:
它主要擁有以下兩個特性:1)一定程度上減輕在訓練過程中梯度消散的問題呵扛。因為從上左圖我們可以看出每庆,在反傳時每一層都會接受其后所有層的梯度信號,所以不會隨著網(wǎng)絡深度的增加今穿,靠近輸入層的梯度會變得越來越小缤灵。2)由于大量的特征被復用,使得使用少量的卷積核就可以生成大量的特征,最終模型的尺寸也比較小腮出。
上右圖所示的是構(gòu)成 DenseNet 的單元模塊帖鸦,看上去和 ResNet 的單元模塊非常相似,但實際上差異較大胚嘲。
1)為了進行特征復用富蓄,在跨層連接時使用的是在特征維度上的 Concatenate 操作,而不是 Element-wise Addition 操作慢逾。
2)由于不需要進行 Elewise-wise 操作立倍,所以在每個單元模塊的最后不需要一個 1X1 的卷積來將特征層數(shù)升維到和輸入的特征維度一致。
3)采用 Pre-activation 的策略來設計單元侣滩,將 BN 操作從主支上移到分支之前口注。(BN->ReLU->1x1Conv->BN->ReLU->3x3Conv)
4)由于網(wǎng)絡中每層都接受前面所有層的特征作為輸入,為了避免隨著網(wǎng)絡層數(shù)的增加君珠,后面層的特征維度增長過快寝志,在每個階段之后進行下采樣的時候,首先通過一個卷積層將特征維度壓縮至當前輸入的一半策添,然后再進行 Pooling 的操作材部。
5)增長率的設置。增長率指的是每個單元模塊最后那個 3x3 的卷積核的數(shù)量唯竹,記為 k乐导。由于每個單元模塊最后是以 Concatenate 的方式來進行連接的,所以每經(jīng)過一個單元模塊浸颓,下一層的特征維度就會增長 k物臂。它的值越大意味著在網(wǎng)絡中流通的信息也越大,相應地網(wǎng)絡的能力也越強产上,但是整個模型的尺寸和計算量也會變大棵磷。作者在本文中使用了 k=32 和 k=48 兩種設置。
在 ImageNet 上的實驗結(jié)果如下:
上左圖表示的是參數(shù)量和錯誤率的關(guān)系晋涣,上右圖表示的是模型測試的計算量和錯誤率的關(guān)系仪媒。我們不難看出,在達到相同精度時谢鹊,DenseNet 的參數(shù)量和計算量均為 ResNet 的一半左右算吩。
總的來說,這是一篇非常有創(chuàng)新性的工作撇贺,提出了共享特征赌莺、任意層間互連的概念很大程度上減輕了深層網(wǎng)絡在訓練過程中梯度消散而難以優(yōu)化的問題冰抢,同時也減小了模型的尺寸和計算量松嘶,在標準數(shù)據(jù)集上獲得了非常好的性能。唯一可能的不足是網(wǎng)絡不能設計地特別「深」挎扰,因為隨著 DenseNet 網(wǎng)絡層數(shù)的增加翠订,模型的特征維度會線性增長巢音,使得在訓練過程中的計算量和顯存開銷也會爆發(fā)地增長。
· ACGAN:我之前的想法與部分內(nèi)容有些雷同了
摘要
合成高分辨率圖像是機器學習中一個長期存在的挑戰(zhàn)尽超,文中介紹了圖像合成的一個改進訓練GANs的新方法官撼。我們運用標簽條件構(gòu)建了一個變種GANs,產(chǎn)生顯示出全局一致性的128×128分辨率的圖像樣本似谁。我們擴展了以前的圖像質(zhì)量評價工作傲绣,提出了兩種新的分析方法,以評價類別條件圖像合成模型的樣本的可區(qū)分性和多樣性巩踏。這些分析表明秃诵,高分辨率樣本提供了在低分辨率樣本中不存在的類別信息。在1000個ImageNet類中塞琼,128×128的樣本比人工調(diào)整的32×32 大小的樣本高出兩倍的可分性菠净。并且,84.7%的類別具有與真實ImageNet 數(shù)據(jù)可比擬的樣本表達多樣性彪杉。
其目的:
1毅往、生成高分辨率圖像改善可分性
構(gòu)建類條件圖像合成模型需要測量合成圖像看起來屬于預期類的程度。特別酸派近,我們想知道一個高分辨率樣本不僅僅是單純的調(diào)整一個低分辨率樣本的大小攀唯。考慮一個簡單的實驗渴丸,假設存在一個合成32×32大小圖像的模型革答。可以通過執(zhí)行雙線性插值來簡單地提升合成圖像的分辨率曙强,但是這些圖像只是低分辨率圖像的模糊版本残拐,是不可分辨的。因此碟嘴,圖像合成模型的目標不是簡單地生成高分辨率圖像溪食,而是生成比地分辨率圖像更可分的高分辨率圖像。
為了測量可分辯性娜扇,我們將合成圖像提供給一個預訓練的初始網(wǎng)絡错沃,并報告了初始網(wǎng)絡分配出正確標簽的樣本分數(shù)。我們在一系列真實和合成圖像上計算這一精度測量雀瓢,這些圖像通過雙線性插值人為地降低了空間分辨率枢析。注意,隨著空間分辨率的降低刃麸,精度也隨之降低醒叁,表明產(chǎn)生的圖像包含較少的類信息。我們通過ImagNet訓練數(shù)據(jù)的所有1000個ImageNet 類別,圖3中的128×128分辨率和64×64 分辨率中總結(jié)出這一發(fā)現(xiàn)把沼。該分析的目的是現(xiàn)實合成更高分辨率的圖像導致可辨別性增加啊易。
2、測量生成圖像的多樣性
醫(yī)學應用性論文:見上次未講的ppt饮睬。
模型實現(xiàn):
根據(jù)論文所提供的代碼租谈,實現(xiàn)了論文中的cifar數(shù)據(jù)集實驗。
大致復原了實驗捆愁,驗證了WGAN-GP的性能割去。
原論文實驗中關(guān)于生成模型的inception_sorce曲線在我的實驗中未跑通實現(xiàn),inception_sorce主要用于定量評價生成圖像的指標昼丑。