貝葉斯神經(jīng)網(wǎng)絡(luò)簡(jiǎn)史 | 機(jī)器之心
https://www.jiqizhixin.com/articles/2016-12-20-5
在剛剛過(guò)去的 NIPS 2016 會(huì)議上康铭,劍橋大學(xué)信息工程學(xué)教授 Zoubin Ghahramani 為我們講述了貝葉斯神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程种樱。本文從研究背景和問(wèn)題應(yīng)用切入,介紹了貝葉斯神經(jīng)網(wǎng)絡(luò)的起源午磁、黃金時(shí)期以及后來(lái)的復(fù)興莺戒,并介紹了每個(gè)發(fā)展階段的幾篇關(guān)鍵研究,是一份簡(jiǎn)明扼要的學(xué)習(xí)資料爽蝴,能夠幫你快速深入理解貝葉斯神經(jīng)網(wǎng)絡(luò)沐批。
P4:上世紀(jì)八十年代的研究背景
《玻爾茲曼機(jī)》于 1985 年出版,1986 年反向傳播網(wǎng)絡(luò)論文發(fā)表蝎亚,接著 1987 年 PDP 大量出現(xiàn)九孩。這一領(lǐng)域過(guò)去也被稱為連接機(jī)制,NIPS 是該領(lǐng)域的主要學(xué)術(shù)會(huì)議发框。
P5-P7:神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)簡(jiǎn)介
神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)系統(tǒng)在很多基準(zhǔn)任務(wù)的表現(xiàn)優(yōu)異躺彬,但是它也有以下缺陷:
需要大量數(shù)據(jù)(常常是數(shù)百萬(wàn)樣本)
訓(xùn)練與部署的計(jì)算量大(云 GPU 資源)
不確定性表征得不太好
常常被對(duì)抗樣本欺騙
對(duì)于優(yōu)化很挑剔:非凸+架構(gòu)選擇,學(xué)習(xí)程序(procedure)缤底,初始化等等顾患,還需要專家知識(shí)(expert knowledge)和實(shí)驗(yàn)
過(guò)程黑箱,無(wú)法解釋个唧,缺少透明性江解,很難信任其結(jié)果。
P8 -12:貝葉斯在這里有什么幫助
處理參數(shù)不確定性的所有來(lái)源
具備處理結(jié)構(gòu)不確定性的能力
貝葉斯定理告訴我們要從數(shù)據(jù)(可衡量的量)當(dāng)中做一些關(guān)于假設(shè)(不確定的量)的推理徙歼。
學(xué)習(xí)和預(yù)測(cè)都可以看作是推理的形式犁河。
校正模型與預(yù)測(cè)不確定性:讓系統(tǒng)知道它們何時(shí)不知道。
自動(dòng)模型復(fù)雜性控制與結(jié)構(gòu)學(xué)習(xí)((Bayesian Occam's Razor))
要清楚的一點(diǎn)是「貝葉斯」屬于算法范疇魄梯,不是模型類桨螺。任何定義好的模型都可以用貝葉斯方法。
P13:貝葉斯神經(jīng)網(wǎng)絡(luò)
P14-16:貝葉斯神經(jīng)網(wǎng)絡(luò)的早期歷史
貝葉斯神經(jīng)網(wǎng)絡(luò)的早期歷史可以從以下幾篇論文中了解:
John Denker, Daniel Schwartz, Ben Wittner, Sara Solla, RichardHoward, Lawrence Jackel, and John Hopfield. Large automaticlearning, rule extraction, and generalization. Complex Systems,1(5):877-922, 1987.
Nafitali Tishby酿秸,Esther Levin灭翔,and Sara A Solla. Consistent inference of probabilities in layered networks: Prediction and generalization. In IJCNN,1989.
......
P17- 20 貝葉斯神經(jīng)網(wǎng)絡(luò)的黃金時(shí)期
David JC Mackay 發(fā)表在神經(jīng)計(jì)算(Neural Computation)上的一篇文章:A Pratical Bayesian Framework For Backpropagation Networks 揭開(kāi)了這一時(shí)期的序幕。
Neal, R.M. 1995 年在多倫多大學(xué)的博士論文:Bayesian learning for neural networks. 這篇論文也奠定了貝葉斯神經(jīng)網(wǎng)絡(luò) (BNN) 和高斯過(guò)程(Gaussian processes)以及自動(dòng)相關(guān)決策機(jī)制(automatic relevance determination ,ARD)之間的關(guān)系辣苏。
P21-24 高斯過(guò)程與貝葉斯神經(jīng)網(wǎng)絡(luò)
高斯過(guò)程可被用于回歸肝箱、分類、排名等稀蟋。
將郎格文動(dòng)力學(xué)(Langevin dynamics煌张,一種 MCMC 的形式)與隨機(jī)梯度下降(SGD)結(jié)合起來(lái)得到一個(gè)基于 minibatch SGD 的高度可擴(kuò)展的近似 MCMC 算法。
這樣一來(lái)退客,貝葉斯推斷就能像運(yùn)行嘈雜的 SGD 那樣簡(jiǎn)單骏融。
一個(gè)帶有一層隱藏層和無(wú)數(shù)隱藏單元的神經(jīng)網(wǎng)絡(luò)和權(quán)重高斯先驗(yàn)
MacKay 和 Neal 的貢獻(xiàn)將特征與架構(gòu)選擇與高斯過(guò)程聯(lián)系起來(lái)
P25- 28 貝葉斯神經(jīng)網(wǎng)絡(luò)中的變分學(xué)習(xí)(variational learning)
Hinton 的一篇論文推導(dǎo)出一個(gè)貝葉斯網(wǎng)絡(luò)權(quán)重的對(duì)角高斯變分近似链嘀,但是用最小描述長(zhǎng)度信息理論語(yǔ)言進(jìn)行描述。
P29 隨機(jī)梯度朗格文動(dòng)力學(xué)(Langevin Dynamics)
P30:貝葉斯神經(jīng)網(wǎng)絡(luò)的復(fù)興
P31-32 概率方法什么時(shí)候變得非常重要档玻?
學(xué)習(xí)的很多方面都非常依賴于不確定性的細(xì)致表征
P33 結(jié)論
概率模型為建立能從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)提供了通用框架
貝葉斯神經(jīng)網(wǎng)絡(luò)有很長(zhǎng)的歷史并且正在經(jīng)歷著復(fù)興的浪潮
P35-36 模型比較及學(xué)習(xí)模型結(jié)構(gòu)
P37-39 貝葉斯奧卡姆剃刀(Bayesian Occam's Razor)
模型類別太過(guò)簡(jiǎn)單就可能無(wú)法生成數(shù)據(jù)集怀泊。
模型類別較復(fù)雜可以生成很多可能的數(shù)據(jù)集,所以它們也不太可能隨機(jī)生成某個(gè)特定的數(shù)據(jù)集窃肠。
P40 模型比較和奧卡姆剃刀
P41-42 邊緣似然 (marginal likelihood) 和后驗(yàn)(posteriors)的近似方法(Approximation Methods)
拉普拉斯近似(Laplace Approximation)
貝葉斯信息準(zhǔn)則(Bayesian Information Criterion包个,BIC)
變分近似(Variational approximations)
期望傳播 (Expectation Propagation,EP)
馬爾科夫蒙特卡洛方法(Markov chain Monte Carlo methods冤留,MCMC)
序列蒙特卡洛方法(Sequential Monte Carlo碧囊,SMC)
精確抽樣(Exact Sampling)
……
PDF下載
[old]http://bayesiandeeplearning.org/slides/nips16bayesdeep.pdf
[new]http://bayesiandeeplearning.org/2016/slides/nips16bayesdeep.pdf
聲明:本文由機(jī)器之心編譯出品,原文來(lái)自NIPS2016纤怒,作者Zoubin Ghahramani 糯而,