跟Honglei一起學(xué)深度生成模型— (一) 簡(jiǎn)介

大家好, 我是Honglei需频,歡迎從今天我們一起開始學(xué)習(xí)斯坦福大學(xué)的深度生成模型課程俊柔,CS236 - Deep Generative Models睛蛛。

生成模型簡(jiǎn)介

復(fù)雜、非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn) (Challenge)

盡管目前人類通過深度學(xué)習(xí)技術(shù)文判,使機(jī)器已經(jīng)在很多任務(wù)上都擁有了非常優(yōu)異的表現(xiàn)过椎,比如圖像分類[1],語音識(shí)別[2]等等戏仓。 但在理解復(fù)雜的(complex)疚宇、非結(jié)構(gòu)化(unstructured)的數(shù)據(jù)方面亡鼠,機(jī)器學(xué)習(xí)仍然有很長一段路要走,比如理解音頻敷待,視頻间涵,文本內(nèi)容,以及它們各自是如何產(chǎn)生的榜揖,人類運(yùn)動(dòng)的控制等等勾哩。

復(fù)雜、非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn)

因此举哟,理解這些復(fù)雜思劳、非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生的過程和內(nèi)容便成了讓機(jī)器擁有智能的關(guān)鍵。引用偉大的物理學(xué)家費(fèi)曼的一句話:”凡是我不能親自創(chuàng)造出來的炎滞,我就不是真正理解敢艰。“册赛。生成模型背后的思想也是來源于此钠导,”凡是我理解的東西,我就一定能夠制造或者生成它“森瘪。

費(fèi)曼:”凡是我不能親自創(chuàng)造出來的牡属,我就不是真正理解《蟛牵“

計(jì)算機(jī)圖形學(xué)

按照上述邏輯逮栅,以圖像為例,我們來看看計(jì)算機(jī)是如何來生成他們的窗宇。利用3D Max建模軟件措伐,我們可以設(shè)計(jì)出非常逼真的3D場(chǎng)景,比如下圖的客廳設(shè)計(jì)军俊,計(jì)算機(jī)通過對(duì)物體的形狀侥加、紋理,燈光粪躬、材質(zhì)等進(jìn)行渲染來達(dá)到逼真的效果担败。

3D建模軟件生的客廳設(shè)計(jì)

再比如《權(quán)力的游戲中》中的視覺特效,而這些要?dú)w功于計(jì)算機(jī)圖形學(xué)(Computer Graphics)方面的技術(shù)镰官。

《權(quán)力的游戲中》視覺特效

計(jì)算機(jī)通過圖形函數(shù)接口(API)來創(chuàng)造并渲染出基本的形狀提前,并設(shè)定具體的屬性值,比如:一個(gè)邊長10厘米藍(lán)色的正方形等泳唠。復(fù)雜的形狀通過組合和更復(fù)雜的指定方式達(dá)到狈网,比如貝塞爾曲線等。

除了生成圖形外,計(jì)算機(jī)也可以反向這個(gè)過程拓哺,通過圖像識(shí)別來理解一張圖像中的物體害淤,而這部分則是機(jī)器學(xué)習(xí)在機(jī)器視覺領(lǐng)域的應(yīng)用[1]。

計(jì)算機(jī)圖形學(xué)生成圖形的過程

如剛才所說拓售,利用計(jì)算機(jī)圖形學(xué)生成圖像的能力來很大程度上依賴于我們的先驗(yàn)知識(shí)(Prior Knowledge)窥摄,比如物理引擎對(duì)物理規(guī)律的依賴,對(duì)材質(zhì)表示的方法等等础淤。

但是對(duì)于圖像生成任務(wù)而言崭放,我們不想對(duì)每一張圖像的生成都人為的指定每一個(gè)屬性,那樣太累人了鸽凶。相反币砂,我們希望讓計(jì)算機(jī)從大量的圖像數(shù)據(jù)中學(xué)習(xí)到其相似的特點(diǎn),比如臥室玻侥,都有床的結(jié)構(gòu)等等决摧。這樣我們就能減少對(duì)認(rèn)為指定先驗(yàn)知識(shí)的依賴。

統(tǒng)計(jì)生成模型

因此凑兰,在下圖中掌桩,我們從對(duì)數(shù)據(jù)依賴性中可以看出,利用計(jì)算機(jī)圖形學(xué)生成圖像需要很強(qiáng)的先驗(yàn)知識(shí)和指定姑食,而統(tǒng)計(jì)生成模型則不需要很強(qiáng)的先驗(yàn)波岛。

統(tǒng)計(jì)生成模型

而本質(zhì)上,一個(gè)統(tǒng)計(jì)生成模型就是一個(gè)概率分布(probability distribution)音半。而學(xué)習(xí)圖像生成的過程就是學(xué)習(xí)出數(shù)據(jù)的分布p(x)的過程则拷。這樣,如果想要生成相似的臥室圖像曹鸠,我們只需從學(xué)習(xí)出的分布p(x)中煌茬,抽取一個(gè)樣本就可以了。而為了更好的學(xué)習(xí)出數(shù)據(jù)的分布彻桃,我們可能需要在模型學(xué)習(xí)過程中加入先驗(yàn)知識(shí)坛善,比如分布的形式是高斯分布還是泊松分布,訓(xùn)練的損失函數(shù)是最大似然叛薯,還是最大后驗(yàn)概率等浑吟。

統(tǒng)計(jì)生成模型的本質(zhì)即概率分布

判別模型和生成模型的關(guān)系

判別模型(Discriminative models)笙纤,通常被用于監(jiān)督學(xué)習(xí)的分類任務(wù)耗溜。其學(xué)習(xí)的目標(biāo)是給定輸入數(shù)據(jù),盡可能正確的對(duì)其進(jìn)行分類省容。

比如輸入一張圖像抖拴,判斷其是否是一張臥室照片。即 P(Y = 臥室 | X = 圖像)。

用統(tǒng)計(jì)的語言來表示即:通過學(xué)習(xí)條件分布阿宅,得到一個(gè)魯棒的決策邊界候衍。常見的判別模型有:邏輯斯蒂回歸(Logistic regression),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional network)等洒放。

而生成模型的目標(biāo)則是:生成與特定類別數(shù)據(jù)盡可能相似的數(shù)據(jù)蛉鹿,比如貓咪的照片。

所以往湿,我們要學(xué)習(xí)出P(Y = 貓咪??, X )的聯(lián)合分布妖异,以便于從分布中進(jìn)行采樣。在判別模型中领追,我們既給出了Y = 貓咪他膳,又給出了X = 貓咪圖像。而在生成模型中绒窑,我們只給出了Y=貓咪棕孙,而并未給出X,這就需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出所有可能X值對(duì)應(yīng)的概率密度些膨。

判別模型vs生成模型

通過貝葉斯公式蟀俊,生成模型和判別模型可以聯(lián)系起來。只是判別模型無需對(duì)P(X)進(jìn)行學(xué)習(xí)订雾,因?yàn)閄總是通過輸入數(shù)據(jù)給出欧漱。這也是為什么判別模型不能很好的學(xué)習(xí)帶有部分缺失值的數(shù)據(jù),即使是深度學(xué)習(xí)模型葬燎。

判別模型vs生成模型

另外误甚,通過貝葉斯公式,我們也可以得到條件生成模型(Conditional Generative Model)谱净,例如規(guī)定更具體的類別:生成”一個(gè)帶有黑色桌子和6張椅子“的圖片窑邦。

因此,通過貝葉斯公式壕探,我們可以看出判別模型只是一種非常簡(jiǎn)單的條件生成模型冈钦。其條件輸入為包含大量信息的圖片,條件輸出則為簡(jiǎn)單的類別標(biāo)簽李请。

條件生成模型

生成模型應(yīng)用

生成模型產(chǎn)生了很多非常令人驚艷的應(yīng)用瞧筛。

人臉生成(Face Generation)

NVIDIA公司在ICLR 2018年發(fā)表的Style-Based GAN(基于風(fēng)格的生成式對(duì)抗網(wǎng)絡(luò))[3]可以生成難辨真假的人臉,圖片中所有都是模型生成的假臉导盅。

Style-Based GAN生成的人臉

而且還可以指定特定的風(fēng)格(例如第一行圖片中的性別较幌,年齡,發(fā)長白翻,姿勢(shì)等)乍炉,來基于第二行最左邊的輸入绢片,產(chǎn)生第二行右邊四張轉(zhuǎn)換風(fēng)格(Style Transfer)之后的臉。

指定特定的風(fēng)格的人臉生成

完整介紹視頻如下:
A Style-Based Generator Architecture for Generative Adversarial Networks - YouTube

語音和音樂合成(Speech & Music Synthesis)

生成模型還可以用于合成一段文字對(duì)應(yīng)的自然的語音(TTS, Text to Speech)岛琼,或者學(xué)習(xí)大量古典音樂而合成新的古典音樂[4]底循。例如Google DeepMind提出的WaveNet,效果令人驚嘆槐瑞!

視頻如下:
WaveNet by Google DeepMind | Two Minute Papers #93 - YouTube

將渣畫質(zhì)的圖片變成高清(Image Super Resolution)

例如將最左列的渣畫質(zhì)轉(zhuǎn)化成右列的超分辨率圖片生成熙涤,不同列為不同模型[5]。其本質(zhì)是學(xué)習(xí)P(高分辨率圖片|低分辨率圖片)的條件概率困檩。

Image Super Resolution

提升音頻清晰度(Audio Super Resolution)

除了應(yīng)用于提升圖片清晰度灭袁,生成模型還可以顯著提升音頻的清晰度[6],尤其是有噪音和被壓縮的音頻窗看,效果也非常棒茸歧!

Audio Super Resolution

機(jī)器翻譯(Machine Translation)

另外,傳統(tǒng)的機(jī)器翻譯任務(wù)显沈,也可以看成是條件生成模型软瞎。比如將中文翻譯成英語可以看成是P(English text| Chinese text)的條件生成模型。

機(jī)器翻譯可以看成條件生成模型

文本生成

另外拉讯,生成模型還可以產(chǎn)生基于給定文本提示的完整段落或文章

文本生成

DeepFake(換臉涤浇、換表情)

前一段時(shí)間利用生成模型惡搞政要的DeepFake更是著實(shí)的火??了一把。其逼真程度引發(fā)了社會(huì)關(guān)于GAN的倫理道德討論魔慷。

DeepFake實(shí)時(shí)換臉

視頻實(shí)時(shí)渲染轉(zhuǎn)換

生成模型還能實(shí)時(shí)的將視頻中特定的物體只锭,轉(zhuǎn)換成另一種風(fēng)格[7],比如下圖中你看到的利用CycleGAN院尔,作者將一匹馬轉(zhuǎn)換成了一匹斑馬蜻展,而且效果足以以假亂真。

視頻實(shí)時(shí)渲染轉(zhuǎn)換

增強(qiáng)學(xué)習(xí)

本質(zhì)上很多增強(qiáng)學(xué)習(xí)的任務(wù)邀摆,例如自動(dòng)駕駛等纵顾,也可以看成條件生成模型的任務(wù)。例如:用P(行為決策| 歷史觀察)表示的自動(dòng)駕駛?cè)蝿?wù)栋盹。

條件生成模型用于自動(dòng)駕駛

生成模型的學(xué)習(xí)路線和關(guān)鍵挑戰(zhàn)

為了表示和訓(xùn)練的生成模型施逾,我們有以下三方面的問題需要研究和解決:

  1. 首先是模型表示的問題:即如何表示大量隨機(jī)變量的聯(lián)合分布。例如如果將一張720x720像素的黑白圖像例获,表示成二值隨機(jī)變量的話汉额,則聯(lián)合分布的參數(shù)空間是 2^(720x720) = 2^518400 參數(shù)。這么龐大的參數(shù)榨汤,即使太陽系的每一個(gè)原子都表示一個(gè)參數(shù)都不夠蠕搜。因此,我們需要更緊致的模型參數(shù)表示件余。

  2. 第二個(gè)問題是:如何根據(jù)訓(xùn)練數(shù)據(jù)來學(xué)習(xí)出數(shù)據(jù)所隱含的分布讥脐?。一個(gè)更基礎(chǔ)的問題是啼器,怎樣比較來自數(shù)據(jù)的分布Pdata和不同模型表示的分布Pmodel旬渠,哪個(gè)Pmodel更好。

  3. 第三個(gè)問題涉及到理解生成過程端壳,我們?cè)趺床拍芊崔D(zhuǎn)生成的過程告丢,例如學(xué)習(xí)到模型生成過程中所采用的高層特征,以便我們做特征提取等损谦。

生成模型的學(xué)習(xí)路線和關(guān)鍵挑戰(zhàn)

課程安排(Syllabus)

CS236的課程安排如下岖免,歡迎大家關(guān)注本系列后續(xù)更新:

CS236課程安排

參考文獻(xiàn)

[1]. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In /Advances in neural information processing systems/ (pp. 1097-1105).

[2]. Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., … & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. /IEEE Signal processing magazine/, /29/(6), 82-97.

[3]. Karras, T., Aila, T., Laine, S., & Lehtinen, J. (2017). Progressive growing of gans for improved quality, stability, and variation. /arXiv preprint arXiv:1710.10196/.

[4]. Oord, A. V. D., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., … & Kavukcuoglu, K. (2016). Wavenet: A generative model for raw audio. /arXiv preprint arXiv:1609.03499/.

[5]. Ledig, C., Theis, L., Huszár, F., Caballero, J., Cunningham, A., Acosta, A., … & Shi, W. (2017). Photo-realistic single image super-resolution using a generative adversarial network. In /Proceedings of the IEEE conference on computer vision and pattern recognition/ (pp. 4681-4690).

[6]. Kuleshov, V., Enam, S. Z., & Ermon, S. (2017). Audio super resolution using neural networks. /arXiv preprint arXiv:1708.00853/.

[7]. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In /Proceedings of the IEEE international conference on computer vision/ (pp. 2223-2232).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市照捡,隨后出現(xiàn)的幾起案子颅湘,更是在濱河造成了極大的恐慌,老刑警劉巖栗精,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闯参,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡悲立,警方通過查閱死者的電腦和手機(jī)鹿寨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來薪夕,“玉大人脚草,你說我怎么就攤上這事≡祝” “怎么了馏慨?”我有些...
    開封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長姑隅。 經(jīng)常有香客問我熏纯,道長,這世上最難降的妖魔是什么粤策? 我笑而不...
    開封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任樟澜,我火速辦了婚禮,結(jié)果婚禮上叮盘,老公的妹妹穿的比我還像新娘秩贰。我一直安慰自己,他們只是感情好柔吼,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開白布毒费。 她就那樣靜靜地躺著,像睡著了一般愈魏。 火紅的嫁衣襯著肌膚如雪觅玻。 梳的紋絲不亂的頭發(fā)上想际,一...
    開封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音溪厘,去河邊找鬼胡本。 笑死,一個(gè)胖子當(dāng)著我的面吹牛畸悬,可吹牛的內(nèi)容都是我干的侧甫。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼蹋宦,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼披粟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起冷冗,我...
    開封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤守屉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后蒿辙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胸梆,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年须板,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碰镜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡习瑰,死狀恐怖绪颖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情甜奄,我是刑警寧澤柠横,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站课兄,受9級(jí)特大地震影響牍氛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜烟阐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一搬俊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蜒茄,春花似錦唉擂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至屿聋,卻和暖如春空扎,著一層夾襖步出監(jiān)牢的瞬間藏鹊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來泰國打工转锈, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盘寡,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓黑忱,卻偏偏與公主長得像宴抚,于是被迫代替她去往敵國和親勒魔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子甫煞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容