概率圖模型是之前一直擱置的內(nèi)容综苔,然而躲得過初一躲不過十五鹦肿,看葫蘆書時發(fā)現(xiàn)其中有整整一章關于概率圖逼泣,方才意識到概率圖模型的重要性,回過頭來重新補上這部分內(nèi)容告组。
概率圖模型(Probabilistic Graphical Model,PGM)煤伟,簡稱圖模型,是指一種用圖結(jié)構(gòu)來描述多元隨機變量之間條件獨立關系的概率模型木缝。給研究高維空間中的概率模型帶來了很大的便捷性便锨。
對于一個維隨機向量
,其聯(lián)合概率為高維空間中的分布我碟,一般難以直接建模放案。假設每個變量為離散變量并有
個取值,在不作任何獨立假設條件下矫俺,則需要
個參數(shù)才能表示其概率分布(因為我們需要給出每一組可能的
的概率吱殉,共
種可能,由于概率和為1因此在此基礎上減1)恳守。不難看出考婴,參數(shù)數(shù)量是指數(shù)級的,這在實際應用中是不可接受的催烘。
一種有效減少參數(shù)量的方法是獨立性假設沥阱。將維隨機向量的聯(lián)合概率分解為
個條件概率的乘積:
其中表示變量
的取值。如果某些變量之間存在條件獨立伊群,其參數(shù)量就可以大幅減少考杉。
假設有四個二值變量策精,在不知道這幾個變量依賴關系的情況下以用一個聯(lián)合概率表來記錄每一種取值的概率需要
個參數(shù)。假設在已知
時
和
獨立崇棠,即有:
同理:
在已知和
時
也和
獨立咽袜,即有:
那么其聯(lián)合概率可以分解為:
是個局部條件概率的乘積。如果分別用
個表格來記錄這
個條件概率的話枕稀,只需要
個獨立參數(shù)询刹。
當概率模型中的變量數(shù)量比較多時,其條件依賴關系也比較復雜萎坷。我們可以使用圖結(jié)構(gòu)的方式將概率模型可視化凹联,以一種直觀、簡單的方式描述隨機變量之間的條件獨立性的性質(zhì)哆档,并可以將一個復雜的聯(lián)合概率模型分解為一些簡單條件概率模型的組合蔽挠。下圖給出了上述例子中個變量之間的條件獨立性的圖形化描述。
圖模型有三個基本問題:
表示問題:對于一個概率模型瓜浸,如何通過圖結(jié)構(gòu)來描述變量之間的依賴關系澳淑。
推斷問題:在已知部分變量時算其它變量的后驗概率分布。
學習問題:圖模型的學習包括圖結(jié)構(gòu)的學習和參數(shù)的學習插佛。
很多機器學習模型都可以歸結(jié)為概率模型杠巡,即建模輸入和輸出之間的條件概率分布。因此朗涩,圖模型提供了一種新的角度來解釋機器學習模型忽孽,并且這種角度有很多優(yōu)點绑改,比如了解不同機器學習模型之間的聯(lián)系谢床,方便設計新模型等。
1厘线、模型表示
圖由一組節(jié)點和節(jié)點之間的邊組成识腿。在概率圖模型中,每個節(jié)點都表示一個隨機變或一組隨機變量造壮,邊表示這些隨機變量之間的概率依賴關系渡讼。
常見的概率圖模型可以分為兩類向圖模型和無向圖模型。有向圖模型的圖結(jié)構(gòu)為有向非循環(huán)圖耳璧,如果兩個節(jié)點之間有連邊成箫,表示對于的兩個變量為因果關系。無向圖模型使用無向圖來描述變量之間的關系旨枯。每條邊代表兩個變量之間有概率依賴關系蹬昌,但是并不一定是因果關系。
1.1攀隔、有向圖模型
有向圖模型皂贩,也稱貝葉斯網(wǎng)絡(Bayesian Network)或信念網(wǎng)絡(Belief Network)栖榨,是指用有向圖來表示概率分布的圖模型。
貝葉斯網(wǎng)絡: 對于一個隨機向量和一個有
個節(jié)點的有向非循環(huán)圖
明刷,
中的每個節(jié)點都對應一個隨機變量婴栽,可以是可觀測的變量,隱變量或是未知參數(shù)辈末。
中的每個連接
表示兩個隨機變量
和
之間具有非獨立的因果關系愚争。
表示變量
的所有父節(jié)點變量集合,每個隨機變量的局部條件概率分布(local conditional probability distribution)為
挤聘。
若的聯(lián)合概率分布可以分解為每個隨機變量
的局部條件概率的連乘形式准脂,即:
那么構(gòu)成了一個貝葉斯網(wǎng)絡。
條件獨立性:在貝葉斯網(wǎng)絡中檬洞,如果兩個節(jié)點是直接連接的狸膏,它們肯定是非條件獨立的直接因果關系。父節(jié)點是“因”添怔,子節(jié)點是“果”湾戳。
如果兩個節(jié)點不是直接連接的,但是它們之間有一條經(jīng)過其它節(jié)點的路徑來連接广料,那么這兩個節(jié)點之間的條件獨立性就比較復雜砾脑,例如:
(a)(b)(c)(d)分別代表間接因果關系、間接果因關系艾杏、共因關系韧衣、共果關系。
局部馬爾可夫性質(zhì):對一個更一般的貝葉斯網(wǎng)絡购桑,其局部馬爾可夫性質(zhì)為:每個隨機變量在給定父節(jié)點的情況下畅铭,條件獨立于它的非后代節(jié)點。
其中為
的非后代變量勃蜘。
1.2硕噩、常見的有向圖模型
1.2.1、Sigmoid信念網(wǎng)絡
一種簡單的參數(shù)化模型為Sigmoid信念網(wǎng)絡缭贡。Sigmoid信念網(wǎng)絡種變量取值為炉擅,對于變量
和它的父節(jié)點集合
,條件概率分布表示為:
其中是Logistic sigmoid函數(shù)阳惹,
是可學習的參數(shù)谍失。假設變量
的父節(jié)點數(shù)量為
,如果使用表格來記錄條件概率需要
個參數(shù)莹汤,如果使用參數(shù)化模型只需要
個參數(shù)快鱼。如果對不同的變量的條件概率都共享使用一個參數(shù)化模型,其參數(shù)數(shù)量又可以大幅減少。
值得一提的是Sigmoid信念網(wǎng)絡與Logistic回歸模型都采用Logistic函數(shù)來計算條件概率攒巍。如果假設Sigmoid信念網(wǎng)絡中只有一個葉子節(jié)點嗽仪,其所有的父節(jié)點之間沒有連接,且取值為實數(shù)柒莉,那么sigmoid信念網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)和Logistic回歸模型類似闻坚,如圖所示。
這兩個模型區(qū)別在于Logistic回歸模型中的作為一種確定性的參數(shù)兢孝,而非變量窿凤。因此Logistic回歸模型只建模條件概率
,是一種判別模型跨蟹,而Sigmoid信念網(wǎng)絡建模
雳殊,是一種生成模型。
1.2.2窗轩、樸素貝葉斯分類器
樸素貝葉斯分類器是一類簡單的概率分類器夯秃,在強(樸素)獨立性假設的條件下運用貝葉斯公式來計算每個類別的后驗概率。
給定一個有維特征的樣本
和類別
痢艺,類別的后驗概率為:
其中是概率分布的參數(shù)仓洼。
樸素貝葉斯分類器中,假設在給定的情況下
之間條件獨立堤舒,即
色建。下圖給出了樸素貝葉斯分類器的圖形表示。
條件概率分布可以分解為:
其中是
的先驗概率分布的參數(shù)舌缤,
是條件概率分布
的參數(shù)箕戳。若
為連續(xù)值,
可以用高斯分布建模国撵。若
為離散值陵吸,
可以用多項分布建模。
雖然樸素貝葉斯分類器的條件獨立性假設太強卸留,但是在實際應用中走越,樸素貝葉斯分類器在很多任務上也能得到很好的結(jié)果,并且模型簡單耻瑟,可以有效防止過擬合。
1.2.3赏酥、隱馬爾科夫模型
隱馬爾科夫模型是一種含有隱變量的馬爾可夫過程喳整。下圖給出隱馬爾可夫模型的圖模型表示。
隱馬爾可夫模型的聯(lián)合概率可以分解為:
其中為輸出概率裸扶,
為轉(zhuǎn)移概率框都,
分別表示兩類條件概率的參數(shù)。
1.3呵晨、無向圖模型
無向圖模型魏保,也稱為馬爾可夫隨機場或馬爾科夫網(wǎng)絡熬尺,是一類用無向圖來描述一組具有局部馬爾可夫性質(zhì)的隨機向量的聯(lián)合概率分布的模型。
馬爾可夫隨機場:對于一個隨機向量和一個有
個節(jié)點的無向圖
(可有循環(huán))谓罗,
中節(jié)點
表示隨機變量
粱哼,
。如果
滿足局部馬爾可夫性質(zhì)檩咱,即一個變量
在給定它的鄰居的情況下獨立于所有其它變量:
其中為變量
的鄰居集合揭措,
為除
外其它變量的集合,那么
就構(gòu)成了一個馬爾可夫隨機場刻蚯。
無向圖的馬爾可夫性:無向圖中的馬爾可夫性可以表示為:
其中表示除
和
外的其它變量绊含。
上圖中由馬爾可夫性質(zhì)可以得到:和
。
1.4炊汹、無向圖模型的概率分解
團:由于無向圖模型并不提供一個變量的拓撲順序躬充,因此無法用鏈式法則對進行逐一分解。無向圖模型的聯(lián)合概率一般以全連通子圖為單位進行分解讨便。無向圖中的一個全連通子圖麻裳,稱為團(Clique),即團內(nèi)的所有節(jié)點之間都連邊器钟。在所有團中津坑,如果一個團不能被其它的團包含,這個團就是一個最大團(Maximal Clique)傲霸。
因子分解:無向圖中的的聯(lián)合概率可以分解為一系列定義在最大團上的非負函數(shù)的乘積形式疆瑰。
Hammersley -Clifford定理:如果一個分布滿足無向圖
中的局部馬爾可夫性質(zhì),當且僅當
可以表示為一系列定義在最大團上的非負函數(shù)的乘積昙啄,即:
上式也稱為吉布斯分布穆役。其中為
中的最大團集合,
是定義在團
上的勢能函數(shù)梳凛,
是配分函數(shù)(Partition Function)耿币,用來將乘積歸一化為概率形式。
其中為隨機向量
的取值空間韧拒。
無向圖模型與有向圖模型的一個重要區(qū)別是有配分函數(shù)淹接。配分函數(shù)的計算復雜度是指數(shù)級的,因此在推斷和參數(shù)學習時都需要重點考慮叛溢。
由于勢能函數(shù)必須為正的塑悼,因此我們一般定義為:
其中為能量函數(shù)。這里的負號是遵從物理上的習慣楷掉,即能量越低意味著概率越高厢蒜。
因此無向圖上定義的概率分布可以表示為:
這種形式的分布又稱為玻爾茲曼分布(Boltzmann Distribution)。任何一個無向圖模型都可以用上式來表示其聯(lián)合概率。
1.5斑鸦、常見的無向圖模型
1.5.1愕贡、對數(shù)線性模型
勢能函數(shù)一般定義為:
其中函數(shù)為定義在
上的特征向量,
為權重向量巷屿。這樣聯(lián)合概率
的對數(shù)形式為:
其中代表所有勢能函數(shù)中的參數(shù)
固以。這種形式的無向圖模型也稱為對數(shù)線性模型或最大熵模型。
如果用對數(shù)線性模型來建模條件概率攒庵,有:
其中嘴纺。這種對數(shù)線性模型也稱為條件最大熵模型或softmax回歸模型。
1.5.2浓冒、條件隨機場
條件隨機場是一種直接建模條件概率的無向圖模型栽渴。
和條件最大熵模型不同,條件隨機場建模的條件概率中稳懒,
一般為隨機向量闲擦,因此需要對
進行因子分解。設條件隨機場的最大團集合為
场梆,條件概率為:
其中為歸一化項墅冷。
一個最常用的條件隨機場為圖(b)中所示的鏈式結(jié)構(gòu),其條件概率為:
其中為狀態(tài)特征或油,一般和位置
相關寞忿,
為轉(zhuǎn)移特征,一般可以簡化為
并使用狀態(tài)轉(zhuǎn)移矩陣來表示顶岸。
1.6腔彰、有向圖和無向圖之間的轉(zhuǎn)換
無向圖模型可以表示有向圖模型無法表示的一些依賴關系,比如循環(huán)依賴辖佣;但它不能表示有向圖模型能夠表示的某些關系霹抛,比如因果關系。
以圖(a)中的有向圖為例卷谈,其聯(lián)合概率分布可以分解為:
其中和四個變量都相關杯拐。如果要轉(zhuǎn)換為無向圖, 需要將這四個變量都歸屬于一個團中世蔗。因此需要將
的三個父節(jié)點之間都加上連邊端逼,如圖(b)所示。這個過程稱為道德化(Moralization)凸郑。轉(zhuǎn)換后的無向圖稱為道德圖(Moral Graph)裳食。
在道德化的過程中來有向圖的一些獨立性會丟失,比如上面在道德圖中不再成立芙沥。
2、推斷
在圖模型中,推斷(Inference)是指在觀測到部分變量時而昨,計算其它變量的某個子集
的后驗概率
救氯。
假設一個圖模型中,除了變量外歌憨,其余變量表示為
着憨。根據(jù)貝葉斯公式有:
因此,圖模型的推斷問題可以轉(zhuǎn)換為求任意一個變量子集的邊際概率分布問題务嫡。
在圖模型中用的推斷方法可以分為精確推斷和近似推斷兩類甲抖。
2.1、變量消除法
以上圖為例心铃,假設推斷問題為計算后驗概率,需要計算兩個邊際概率
和
。
根據(jù)條件獨立性假設藤为,有:
假設每個變量取個值宁改,計算上面的邊際分布需要
次加法以及
次乘法。
根據(jù)乘法的分配律愉棱,邊際概率可以寫為:
這樣計算量可以減少到次加法和
次乘法唆铐。
這種方法是利用動態(tài)規(guī)劃的思想,每次消除一個變量奔滑,來減少計算邊際分布的計算復雜度艾岂,稱為變量消除法。
2.2朋其、信念傳播算法
信念傳播(Belief Propagation,BP)算法王浴,也稱為和積(Sum-Product)算法或消息傳遞(Message Passing)算法,是將變量消除法中的和積(Sum-Product)操作看作是消息令宿,并保存起來叼耙,這樣可以節(jié)省大量的計算資源。
2.2.1粒没、鏈式結(jié)構(gòu)上的的信念傳播算法
以上圖所示的無向馬爾可夫鏈為例筛婉,其聯(lián)合概率為:
其中是定義在團
的勢能函數(shù)。
第個變量的邊際概率
為:
假設每個變量取個值癞松,不考慮歸一化項爽撒,計算上述邊際分布需要
次加法以及
次乘法。
根據(jù)乘法的分配律際概率可以通過下面方式進行計算:
其中定義為變量
向變量
傳遞的消息响蓉,
是關于變量
的函數(shù)硕勿,可以遞歸計算:
為變量
向變量
傳遞的消息,定義為:
邊際概率的計算復雜度減少為
枫甲。如果要計算整個序列上所有變量的邊際概率源武,不需要將消息傳遞的過程重復
次扼褪,因為其中每兩個相鄰節(jié)點上的消息是相同的。
2.2.2粱栖、樹結(jié)構(gòu)上的信念傳播算法
信念傳播算法也可以推廣到具有樹結(jié)構(gòu)的圖模型上话浇。如果一個有向圖滿足任意兩個變量只有一條路徑(忽略方向),且只有一個沒有父節(jié)點的節(jié)點闹究,那么這個有向圖為樹結(jié)構(gòu)幔崖,其中唯一沒有父節(jié)點的節(jié)點稱為根節(jié)點。如果一個無向圖滿足任意兩個變量只有一條路徑渣淤,那么這個無向圖也為樹結(jié)構(gòu)赏寇。在樹結(jié)構(gòu)的無向圖中任意一個節(jié)點都可以作為根節(jié)點。
樹結(jié)構(gòu)圖模型的信念傳播過程為)從葉子節(jié)點到根節(jié)點依次計算并傳遞消息)從根節(jié)點開始到葉子節(jié)點价认,依次計算并傳遞消息)在每個節(jié)點上計算所有接收消息的乘積(如果是無向圖還需要歸一化)嗅定,就得到了所有變量的邊際概率。
3刻伊、近似推斷
在實際應用中露戒,精確推斷一般用于結(jié)構(gòu)比較簡單的推斷問題。當圖模型的結(jié)構(gòu)比較復雜時捶箱,精確推斷的計算開銷會比較大智什。此外,如果圖模型中的變量是連續(xù)的丁屎,并且其積分函數(shù)沒有閉式解時荠锭,也無法使用精確推斷。因此晨川,在很多情況下也常常采用近似的方法來進行推斷证九。
采樣法是通過模擬的方式來采集符合某個分布的一些樣本,并通過這些樣本來估計和這個分布有關的運算共虑,比如期望等愧怜。
下面介紹基于采樣法的近似推斷。
3.1妈拌、蒙特卡羅方法
蒙特卡羅方法的一個最簡單的應用例子是計算圓周率拥坛。蒙特卡羅方法的基本思想可以歸結(jié)為根據(jù)一個已知概率密度函數(shù)為
的分布來計算函數(shù)
的期望:
當比較復雜時,很難用解析方法來計算這個期望尘分。為計算
猜惋,我們可通過數(shù)值方法來近似計算。首先從
中獨立抽取
個樣本
培愁,
的期望可以用這
個樣本的均值
來近似:
根據(jù)大數(shù)定律著摔,趨向于無窮大時,樣本均值收斂于期望值:
這就是蒙特卡羅方法的理論依據(jù)定续。
蒙特卡羅方法的難點是如何進行隨機采樣谍咆,即如何讓計算機生成滿足概率密度函數(shù)的樣本禾锤。我們知道,計算機可以比較容易地隨機生成一個在
區(qū)間上均布分布的樣本
卧波。如果要隨機生成服從某個非均勻分布的樣本时肿,就需要一些間接的采樣方法庇茫。
如果一個分布的概率密度函數(shù)為港粱,其累積分布函數(shù)
為連續(xù)的嚴格增函數(shù),且存在逆函數(shù)
旦签,那么我們可以利用累積分布函數(shù)的逆函數(shù)來生成服從該隨機分布的樣本查坪。假設
是
區(qū)間上均勻分布的隨機變量
服從概率密度函數(shù)為
的分布。
但當非常復雜宁炫,累積分布函數(shù)的逆函數(shù)難以計算偿曙,就難以直接對 p(x) 進行采樣,往往需要使用一些間接的采樣策略羔巢,比如拒絕采樣望忆、重要性采樣、馬爾可夫鏈蒙特卡羅采樣等竿秆。這些方法一般是先根據(jù)一個比較容易采樣的分布進行采樣启摄,然后通過一些策略來間接得到符合
分布的樣本。
3.2幽钢、拒絕采樣
拒絕采樣歉备,也叫接受-拒絕采樣。假設原始分布難以直接采樣匪燕,我們可以引入一個容易采樣的分布
蕾羊,一般稱為提議分布(Proposal Distribution),然后以某個標準來拒絕一部分的樣本使得最終采集的樣本服從分布
帽驯。
在拒絕采樣中龟再,已知未歸一化的分布,我們需要構(gòu)建一個提議分布
和一個常數(shù)
尼变,使得
可以覆蓋函數(shù)
利凑,即
。如圖所示享甸。
對于每次抽取的樣本截碴,計算接受概率(acceptance probability):
并以概率來接收樣本
。
拒絕采樣的采樣過程如下:
判斷一個拒絕采樣方法的好壞就是看其采樣效率蛉威,即總體的接受率日丹。如果函數(shù)遠大于原始分布函數(shù)
,拒絕率會比較高樣蚯嫌,效率會非常不理想哲虾。要找到一個和
比較接近的提議分布往往比較困難丙躏,特別是在高維空間中采樣率會非常低,導致很難應用到實際問題中束凑。
3.3晒旅、重要性采樣
如果采樣的目的是計算分布下函數(shù)
的期望,那么實際上抽取的樣本不需要嚴格服從分布
汪诉。也可以通過另一個分布废恋,即提議分布
,直接采樣并估計
扒寄。
函數(shù)在分布$p(x)下的期望可以寫為:
其中稱為重要性權重鱼鼓。
重要性采樣(Importance Sampling)是通過引入重要性權重分布將下
的期望變?yōu)樵诜植?img class="math-inline" src="https://math.jianshu.com/math?formula=q(x)" alt="q(x)" mathimg="1">下
的期望,從而可以近似為:
其中是從
中獨立抽樣出的樣本點该编。
重要性采樣也可以在只知道未歸一化的分布的情況下計算函數(shù)
的期望:
其中迄本,
是從
中獨立抽樣出的樣本點。
3.4课竣、馬爾可夫鏈蒙特卡羅方法
在高維空間中嘉赎,拒絕采樣和重要性采樣的效率隨空間維數(shù)的增加而指數(shù)降低。馬爾可夫鏈蒙特卡羅方法(MCMC)是一種更好的采樣方法以很容易地對高維變量進行采樣于樟。
MCMC方法也有很多不同的具體采樣方法公条,但其核心思想是將采樣過程看作是一個馬爾可夫鏈:
第次采樣依賴于第
次抽取的樣本以及狀態(tài)轉(zhuǎn)移分布(即提議分布)
,如果這個馬爾可夫鏈的平穩(wěn)分布為
隔披,那么在狀態(tài)平穩(wěn)時抽取的樣本就服從
的分布赃份。
MCMC方法的關鍵是如何構(gòu)造出平穩(wěn)分布為的馬爾可夫鏈,并且該馬爾可夫鏈的狀態(tài)轉(zhuǎn)移分布
一般為比較容易采樣的分布奢米。
使用MCMC方法進行采樣時需要注意兩點:一是馬爾可夫鏈需要經(jīng)過一段時間的隨機游走才能達到平穩(wěn)狀態(tài)抓韩,這段時間稱為預燒期(Burn-in Period)。預燒期內(nèi)的采樣點并不服從分布鬓长,需要丟棄谒拴;二是基于馬爾可夫鏈抽取的相鄰樣本是高度相關的。而在機器學習中涉波,我們一般需要抽取的樣本是獨立同分布的英上。為了使得抽取的樣本之間獨立,我們可以每間隔
次隨機游走啤覆,抽取一個樣本苍日。如果
足夠大則可以認為抽取的樣本是獨立的。
3.4.1窗声、Metropolis-Hastings 算法
Metropolis-Hastings算法相恃,簡稱MH算法,是一種應用廣泛的MCMC方法笨觅。
假設馬爾可夫鏈的狀態(tài)轉(zhuǎn)移分布(即提議分布為一個比較容易采樣的分布拦耐,其平穩(wěn)分布往往不是
耕腾。為此MH算法引入拒絕采樣的思想來修正提議分布,使得最終采樣的分布為
杀糯。
在MH算法中設第次采樣樣本為
扫俺,首先根據(jù)提議分布
抽取一個樣本
,并以概率
來接受
作為第
次的采樣樣本
:
因為每次隨機生成一個樣本
固翰,并以
的概率接受狼纬,因此修正的馬爾可夫鏈狀態(tài)轉(zhuǎn)移概率為:
該修正的馬爾可夫鏈可以達到平穩(wěn)狀態(tài),且平穩(wěn)分布為倦挂。
證明:根據(jù)馬爾可夫鏈的細致平穩(wěn)條件畸颅,有:
因此是狀態(tài)轉(zhuǎn)移概率為
的馬爾可夫鏈的平穩(wěn)分布。
3.4.2方援、Metropolis算法
如果MH算法中的提議分布是對稱的,即涛癌,第
次采樣的接受率可以簡化為:
這種MCMC方法稱為Metropolis算法犯戏。
3.4.3、吉布斯采樣
吉布斯采樣是一種有效地對高維空間中的分布進行采樣的MCMC方法拳话,可以看作是Metropolis-Hastings算法的特例先匪。
吉布斯采樣使用全條件概率作為提議分布來依次對每個維度進行采樣,并設置接受率為弃衍。
對于一個維的隨機向量
呀非,其第
個變量
的全條件概率為:
其中表示除
外其他變量的取值。
吉布斯采樣可以按照任意的順序根據(jù)全條件分布依次對每個變量進行采樣镜盯。假設從一個隨機的初始化狀態(tài)開始岸裙,按照下標順序依次對
個變量進行采樣。
吉布斯采樣的每單步采樣也構(gòu)成一個馬爾可夫鏈速缆。假設每個單步(采樣維度為第維)的狀態(tài)轉(zhuǎn)移概率
為:
其中邊際分布降允,等式
表示
,因此有
艺糜,并可以得到:
根據(jù)細致平穩(wěn)條件狀態(tài)轉(zhuǎn)移概率的馬爾可夫鏈的平穩(wěn)分布為
剧董。
4、學習
圖模型的學習可以分為兩部分:一是網(wǎng)絡結(jié)構(gòu)學習破停,即尋找最優(yōu)的網(wǎng)絡結(jié)構(gòu)翅楼;二是網(wǎng)絡參數(shù)估計,即已知網(wǎng)絡結(jié)構(gòu)真慢,估計每個條件概率分布的參數(shù)毅臊。網(wǎng)絡結(jié)構(gòu)學習一般比較困難,一般是由領域?qū)<襾順?gòu)建晤碘。這里只討論在給定網(wǎng)絡結(jié)構(gòu)條件下的參數(shù)估計問題褂微。
4.1功蜓、不含隱變量的參數(shù)估計
如果圖模型中不包含隱變量,即所有變量都是可觀測的宠蚂,那么網(wǎng)絡參數(shù)一般可以直接通過最大似然來進行估計式撼。
有向圖模型:在有向圖模型中,所有變量的聯(lián)合概率分布可以分解為每個隨機變量
的局部條件概率
的連乘形式求厕,其中
為第
個變量的局部條件概率的參數(shù)著隆。
給定個訓練樣本
,其對數(shù)似然函數(shù)為:
其中為模型中的所有參數(shù)呀癣。
因為所有變量都是可觀測的美浦,最大化對數(shù)似然,只需要分別地最大化每個變量的條件似然來估計其參數(shù)项栏。
無向圖模型:在無向圖模型中浦辨,所有變量的聯(lián)合概率分布可以分解為定義在最大團上的勢能函數(shù)的連乘形式。以對數(shù)線性模型為例:
其中沼沈。
給定個訓練樣本
流酬,其對數(shù)似然函數(shù)為:
其中為定義在團
上的勢能函數(shù)的參數(shù)。
可以看出列另,無向圖模型的參數(shù)估計要比有向圖更為復雜芽腾。在有向圖中,每個局部條件概率的參數(shù)是獨立的页衙;而在無向圖中摊滔,所有的參數(shù)都是相關的,無法分解店乐。
因此艰躺,無向圖的參數(shù)估計通常采用近似的方法。一是利用采樣來近似計算這個期望响巢;二是坐標上升法描滔,即固定其它參數(shù),來優(yōu)化一個勢能函數(shù)的參數(shù)踪古。
4.2含长、含隱變量的參數(shù)估計
如果圖模型中包含隱變量,即有部分變量是不可觀測的伏穆,就需要用EM算法進行參數(shù)估計拘泞。