RBM概要
受限玻爾茲曼機(jī)(Restricted Boltzmann Machine奏黑,RBM)是一種可用隨機(jī)神經(jīng)網(wǎng)絡(luò)(stochastic neural network)來(lái)解釋的概率圖模型(probabilistic graphical model)拆宛。RBM是Smolensky于1986年在波爾茲曼機(jī)(Boltzmann Machine茬高,BM)基礎(chǔ)上提出的吆倦,所謂“隨機(jī)”是指網(wǎng)絡(luò)中的神經(jīng)元是隨機(jī)神經(jīng)元疆偿,輸出狀態(tài)只有兩種(未激活和激活)鄙皇,狀態(tài)的具體取值根據(jù)概率統(tǒng)計(jì)法則來(lái)決定播玖。RBM理論是Hinton在2006年提出基于RBM的(Deep Belief Network)模型,大量學(xué)者開(kāi)始研究RBM的理論及其應(yīng)用咖耘。
前置知識(shí)
sigmoid 函數(shù)
神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)之一
Bayes 定理
兩個(gè)條件概率之間的關(guān)系翘簇,包含P(A),P(B)分別表示事件A 儿倒、事件B發(fā)生的概率版保。P(A|B)事件B條件下A發(fā)生的概率,P(A夫否,B)事件A彻犁、B同時(shí)發(fā)生的概率,則有:
通過(guò)上面兩個(gè)公式得到貝葉斯公式:
- P(A) 為先驗(yàn)概率慷吊,對(duì)事件A概率的一個(gè)判斷袖裕。
- P(A|B)后驗(yàn)概率,事件B發(fā)生后溉瓶,對(duì)A發(fā)生概率的重新評(píng)估急鳄。
- P(B|A) 最大似然估計(jì)
馬爾科夫鏈蒙特卡羅方法
馬爾科夫鏈
馬氏鏈的數(shù)學(xué)定義很簡(jiǎn)單:
P(Xt+1=x|Xt,Xt?1,?)=P(Xt+1=x|Xt) ---- 狀態(tài)轉(zhuǎn)移的概率只依賴于前一個(gè)狀態(tài)
隨著鏈條往后延伸,最后的狀態(tài)趨于收斂堰酿,而且收斂的行為和初始的概率分布無(wú)關(guān)疾宏,只是和概率轉(zhuǎn)移矩陣有關(guān)。
對(duì)于給定的概率分布p(x),我們希望能有便捷的方式生成它對(duì)應(yīng)的樣本触创。由于馬氏鏈能收斂到平穩(wěn)分布坎藐, 于是一個(gè)很的漂亮想法是:如果我們能構(gòu)造一個(gè)轉(zhuǎn)移矩陣為P的馬氏鏈,使得該馬氏鏈的平穩(wěn)分布恰好是p(x), 那么我們從任何一個(gè)初始狀態(tài)x0出發(fā)沿著馬氏鏈轉(zhuǎn)移, 得到一個(gè)轉(zhuǎn)移序列 x0,x1,x2,?xn,xn+1?,哼绑, 如果馬氏鏈在第n步已經(jīng)收斂了岩馍,于是我們就得到了 π(x) 的樣本xn,xn+1?。
蒙特卡羅數(shù)值積分思想
如果我們要求f(x)的積分抖韩,如:
而f(x)的形式比較復(fù)雜積分不好求蛀恩,則可以通過(guò)數(shù)值解法來(lái)求近似的結(jié)果。常用的方法是蒙特卡洛積分:
這樣把q(x)看做是x在區(qū)間內(nèi)的概率分布茂浮,而把前面的分?jǐn)?shù)部分看做一個(gè)函數(shù)双谆,然后在q(x)下抽取n個(gè)樣本,當(dāng)n足夠大時(shí)席揽,可以采用均值來(lái)近似:
因此只要q(x)比較容易采到數(shù)據(jù)樣本就行了顽馋。隨機(jī)模擬方法的核心就是如何對(duì)一個(gè)概率分布得到樣本,即抽樣(sampling)幌羞。
馬爾科夫鏈蒙特卡羅方法的一種:GIbbs 采樣
MCMC理論:
如果我們想在某個(gè)分布下采樣寸谜,只需要模擬以其為平穩(wěn)分布的馬爾科夫過(guò)程,經(jīng)過(guò)足夠多次的轉(zhuǎn)移之后新翎,我們的樣本分布就會(huì)充分接近于平穩(wěn)分布程帕。
正則分布
RBM網(wǎng)絡(luò)結(jié)構(gòu)
RBM包含兩個(gè)層住练,可見(jiàn)層(visible layer)和隱藏層(hidden layer)。神經(jīng)元之間的連接具有如下特點(diǎn):層內(nèi)無(wú)連接愁拭,層間全連接讲逛,顯然RBM對(duì)應(yīng)的圖是一個(gè)二分圖。一般來(lái)說(shuō)岭埠,可見(jiàn)層單元用來(lái)描述觀察數(shù)據(jù)的一個(gè)方面或一個(gè)特征盏混,而隱藏層單元的意義一般來(lái)說(shuō)并不明確,可以看作特征提取層惜论。RBM和BM的不同之處在于许赃,BM允許層內(nèi)神經(jīng)元之間有連接,而RBM則要求層內(nèi)神經(jīng)元之間沒(méi)有連接馆类,因此RBM的性質(zhì):當(dāng)給定可見(jiàn)層神經(jīng)元的狀態(tài)時(shí)混聊,各隱藏層神經(jīng)元的激活條件獨(dú)立;反之當(dāng)給定隱藏層神經(jīng)元的狀態(tài)是乾巧,可見(jiàn)層神經(jīng)元的激活也條件獨(dú)立句喜。
如圖給出了一個(gè)RBM網(wǎng)絡(luò)結(jié)構(gòu)示意圖。其中:
能量函數(shù)和概率分布
參見(jiàn):(http://blog.csdn.net/itplus/article/details/19168989)
RBM模型是基于能量的模型,需要為其定義一個(gè)能量函數(shù)吕嘀,并利用能量函數(shù)引入一系列相關(guān)的概率分布函數(shù)。對(duì)于一組給定的狀態(tài)
對(duì)于實(shí)際問(wèn)題,我們最關(guān)心的是觀測(cè)數(shù)據(jù)v的概率分布
對(duì)數(shù)似然函數(shù)
參考:(http://blog.csdn.net/itplus/article/details/19169027)
梯度計(jì)算
參考: