作 者: 心有寶寶人自圓
聲 明: 歡迎轉(zhuǎn)載本文中的圖片或文字玷过,請說明出處
寫在前面
最近讀到的文章需要深入的了解概率圖模型(Probability Graph Model)才能搞清楚使用深度學(xué)習(xí)方法建模的原理龄广,所以整理一下概率圖模型的相關(guān)內(nèi)容來加深理解(果然再消化一遍就會(huì)有新的收獲??)
我寫的這篇學(xué)習(xí)筆記沒有使用非常標(biāo)準(zhǔn)的術(shù)語,我認(rèn)為重要的是理解有關(guān)的概念
這篇文章主要介紹概率圖模型的表示鞭盟,包括有向圖(貝葉斯網(wǎng))和無向圖(馬爾可夫網(wǎng)个从、馬爾可夫隨機(jī)場)
0.Background
0.1 概率
對于n維離散隨機(jī)變量侣监,其中
為了對該隨機(jī)變量建模鸭轮,我們需要兩種最基本的概率
可以通過邊緣概率和條件概率推導(dǎo)出:
不難發(fā)現(xiàn)若要為建模,計(jì)算量是隨維度指數(shù)增長的橄霉,計(jì)算十分復(fù)雜
因此為了簡化計(jì)算窃爷,提出了一些簡化的條件:
- 獨(dú)立性假設(shè):
,如樸素貝葉斯姓蜂,但條件過強(qiáng)
- 馬爾可夫假設(shè):
意味著當(dāng)前隨機(jī)變量只與前k個(gè)隨機(jī)變量有關(guān)按厘,如一階馬爾可夫過程
,雖然條件有些放松但仍過強(qiáng)
- 條件獨(dú)立性假設(shè):
連續(xù)隨機(jī)變量也有類似的情況束莫,出于簡單只考慮離散隨機(jī)變量
0.2 圖
0.2.1 表示
0.2.2 推斷
0.2.3 學(xué)習(xí)
1. 有向圖 Bayesian Network
1.1 表示
前提條件:隨機(jī)變量之間存在條件獨(dú)立性
構(gòu)建有向圖:對隨機(jī)變量拓?fù)渑判?/p>
因子分解:根據(jù)有向圖直接得出模型
例子:有向圖的局部結(jié)構(gòu):貝葉斯網(wǎng)絡(luò)本身就蘊(yùn)含了條件獨(dú)立的性質(zhì)
1.2 D劃分 D-Separation
作用:基于有向圖檢測隨機(jī)變量之間的獨(dú)立的圖形化方法
條件獨(dú)立性:
- Tail-to-Tail型:
挟裂,即路徑都通過
才滿足條件獨(dú)立
- Head-to-Tail型:
,即路徑都通過
才滿足條件獨(dú)立
- Head-to-Head型:
揍诽,即路徑都不能通過
和c的子孫才滿足條件獨(dú)立
換句話說就是路徑阻塞時(shí)才(條件)獨(dú)立诀蓉,若連通則不獨(dú)立
1.3 條件獨(dú)立性
全局馬爾可夫性:有向圖的D劃分體現(xiàn)出有向圖的全局馬爾可夫性(在整個(gè)有向圖成立)
局部馬爾可夫性:設(shè)a是我們關(guān)注的結(jié)點(diǎn)
現(xiàn)在考慮
在使用代表
中與
有關(guān)的項(xiàng),
- 在有向圖中暑脆,與
相關(guān)的結(jié)點(diǎn)和邊成了馬爾可夫毯(即與
相鄰接的所有結(jié)點(diǎn))
由于連乘渠啤,分母中積分(或者說)中的與
無關(guān)的項(xiàng)可提到積分號外與分子約分
最后得到
2. 無向圖 Markov Network
2.1 條件獨(dú)立性
我認(rèn)為這部分可描述為Markov Network(又稱Markov Random Field)的定義
條件獨(dú)立性:
由于無向圖中無方向,所以就沒有3種局部結(jié)構(gòu)的區(qū)分,因此條件獨(dú)立性會(huì)很簡單妓美,相反因子分解則很復(fù)雜
- 全局馬爾可夫性:
之間的每一條路徑中至少一個(gè)結(jié)點(diǎn)c在
集合中,此時(shí)觀測c組成的集合
壶栋,路徑會(huì)被阻斷辰如,此時(shí)有
(換句話說,只要觀測一個(gè)節(jié)結(jié)點(diǎn)通過該節(jié)結(jié)點(diǎn)這一條路徑就被阻斷了贵试,然而兩個(gè)結(jié)點(diǎn)仍可以通過其它路徑連通)
- 局部馬爾可夫性:設(shè)a是我們關(guān)注的結(jié)點(diǎn)琉兜,則
。(換句話說毙玻,阻斷了a的全部路徑豌蟋,a就和其余的結(jié)點(diǎn)獨(dú)立了)
- 成對馬爾可夫性:
。(這個(gè)性質(zhì)是局部馬爾可夫性的推論桑滩,任意兩個(gè)不鄰接的結(jié)點(diǎn)在其余結(jié)點(diǎn)給定的條件下是條件獨(dú)立的)
這三個(gè)條件獨(dú)立性是相互等價(jià)的梧疲,可以相互推出
2.1 表示
無向圖在構(gòu)建聯(lián)合概率分布(因子分解)時(shí)比有向圖復(fù)雜很多,并且難以表達(dá)
為了解決這一問題施符,先給出圖中的一些定義:
- 團(tuán):一個(gè)關(guān)于結(jié)點(diǎn)的集合往声,集合內(nèi)的任何兩個(gè)結(jié)點(diǎn)之間有邊連接(鄰接)
- 最大團(tuán):團(tuán)中無法再填加任何一個(gè)結(jié)點(diǎn)形成一個(gè)更大的團(tuán)
所以我們要把因子分解定義在團(tuán)之上:
?
? (類似于使聯(lián)合分布表內(nèi)各種聯(lián)合概率之和為1/計(jì)算類似于softmax的歸一化過程)
由于團(tuán)的同樣個(gè)數(shù)過多,因此在再把因子分解定義在最大團(tuán)之上
?
2.2.1 Hammersley-Clifford定理
Hammersley-Clifford定理保證基于最大團(tuán)的因子分解與無向圖的條件獨(dú)立性等價(jià)(2.1節(jié))
有興趣可以看一下??就是證明:
參考上述博文給出定理的證明并將一些問題進(jìn)行解釋:
必要性:
等價(jià)于
證明目標(biāo):
? 馬爾可夫網(wǎng)絡(luò)(馬爾科夫隨機(jī)場(MRF))的條件獨(dú)立性是等價(jià)的,我們選擇局部馬爾可夫性作為目標(biāo):
? 設(shè)
是結(jié)點(diǎn)的全集(所有隨機(jī)變量)听哭,
?
是我們關(guān)注的結(jié)點(diǎn)(隨機(jī)變量)慢洋,
?
是
鄰接的結(jié)點(diǎn)(隨機(jī)變量),
(注:集合的加減法表示加入或去除元素陆盘,可以集合與集合運(yùn)算或集合與元素運(yùn)算,普筹,代替交集并集啥的 )
?
證明過程:
設(shè)
表示
于其鄰接的結(jié)點(diǎn)組成的集合,
表示最大團(tuán)的集合
?
這里的
,就很像邊緣概率分布(但還保留了一部分隨機(jī)變量而非僅一個(gè))
?
(注:這里的積分號和累加號是很多個(gè)目標(biāo)集合內(nèi)結(jié)點(diǎn)(隨機(jī)變量)的累加)
根據(jù)上述因子分解的表示
?
設(shè)
為
中包含
的最大團(tuán)隘马,
為
中不包含
的最大團(tuán)太防,
不難發(fā)現(xiàn):由于最大團(tuán)的定義,
中的最大團(tuán)必須是
的子集
?
其中
可以提到求和(積分)號之外酸员,就是因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cboldsymbol%20x_c" alt="\boldsymbol x_c" mathimg="1">是
的子集(與
交集為空)
?
充分性:
等價(jià)于
證明目標(biāo):無向圖模型的聯(lián)合概率
可以表示為圖上所有團(tuán)的勢函數(shù)乘積(或者說聯(lián)合概率能分解為定義在團(tuán)上的乘積蜒车,且團(tuán)覆蓋了無向圖的所有頂點(diǎn)和邊)
證明過程:
先假設(shè)如下勢函數(shù):對任意
,有勢函數(shù)
?
?
是
的任意子集幔嗦,
是
的任意子集
?
表示將處
包含的結(jié)點(diǎn)外分配默認(rèn)值酿愧,記作0
?
分別標(biāo)識
集合中的結(jié)點(diǎn)個(gè)數(shù)
? 很顯然該勢函數(shù)是非負(fù)的(概率非負(fù))
只需證明如下2點(diǎn),即可說明MRF的聯(lián)合概率
可表示為圖上所有團(tuán)的勢函數(shù)乘積
? (1)
? (2)若
不是一個(gè)團(tuán)邀泉,則
證(1):
? 對任意子集
(注意此處不再僅僅限定
嬉挡,且
)設(shè)與
相關(guān)的因子為
? a)
的情況出現(xiàn)了一次钝鸽,此時(shí)
? b)
的情況出現(xiàn)了
次(組合數(shù)),此時(shí)
? c)
的情況出現(xiàn)了
次庞钢,此時(shí)
? ...
? n)
的情況出現(xiàn)了
次(這是
的最大情況拔恰,即等于
),此時(shí)
? 依此類推焊夸,所有與
相關(guān)的
連乘(記作
)為:
?
? 又有
? 故當(dāng)
時(shí)
仁连,此時(shí)不為1的僅剩
的情況(記作
)
?
? 證(2):
? 該證明需要用到無向圖的馬爾可夫性。若
不是一個(gè)團(tuán)阱穗,那么必存在兩個(gè)結(jié)點(diǎn)
沒有邊連接饭冬,故
?
? 不難發(fā)現(xiàn)這種拆分方法將
分開來考慮(
可以為空集),而由于接下來的證明與指數(shù)
無關(guān)揪阶,我們就不用在意其具體表示了
? 關(guān)于拆分后的形式:
項(xiàng)之所以在分子昌抠,是因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=-1%5E%7B%7Cs%7C-%7Cw%7C%7D%3D-1%5E%7B%7Cs%7C-%7Cw%7C%2B2%7D" alt="-1^{|s|-|w|}=-1^{|s|-|w|+2}" mathimg="1">,故該項(xiàng)在分子上鲁僚,同理
和
項(xiàng)由于
而為原始項(xiàng)的倒數(shù)而在分母上炊苫,所有這是正確的表達(dá)式
? 根據(jù)條件概率公式有:
?
? 由于
在給定其他結(jié)點(diǎn)的條件下是條件獨(dú)立的(成對馬爾可夫性),故上式右邊等價(jià)于
?
? 將其代入上面的式子會(huì)發(fā)現(xiàn):
?
? 即可完成證明
? 由于最大團(tuán)的勢函數(shù)可有團(tuán)的勢函數(shù)表示冰沙,故在最大團(tuán)上該結(jié)論也成立
2.2.2 勢函數(shù)與吉布斯分布
為保證勢函數(shù)為正侨艾,一般使用
這樣構(gòu)成的聯(lián)合概率是吉布斯分布(Gibbs Distribution)
?
不難發(fā)現(xiàn):Gibbs Distribution就是一種指數(shù)族分布,這又和最大熵產(chǎn)生了聯(lián)系
結(jié)論:馬爾可夫隨機(jī)場(馬爾可夫網(wǎng))等價(jià)于吉布斯分布(都在Hammersley-Clifford定理的證明中有體現(xiàn))
Reference
[1] 【機(jī)器學(xué)習(xí)】【白板推導(dǎo)系列】
轉(zhuǎn)載請說明出處拓挥。