1. 概率論
1.1 概念
對(duì)現(xiàn)實(shí)世界的不確定性進(jìn)行建模
1.2概率計(jì)算的方法
- 加法規(guī)則
- 乘積規(guī)則
1.4 貝葉斯公式
通過(guò)上面的加法規(guī)則和乘法規(guī)則,以及P(X,Y)=P(Y,X)劳曹。我們可以得到貝葉斯公式:
其中P(X)為:
貝葉斯公式寫(xiě)成另外的一種常見(jiàn)的符號(hào)形式:
其中D表示觀(guān)察到的數(shù)據(jù),也成為Evidence把夸, w表示相應(yīng)的參數(shù)灵嫌。
p(D|w)表示似然函數(shù)(likehood function)沟娱。P(w)成為參數(shù)w的先驗(yàn)氛驮。p(w|D)表示參數(shù)w的后驗(yàn)概率。
所以可以得到:
其中
1.3 相關(guān)的知識(shí)點(diǎn)
- 期望(本質(zhì)是求平均)
MAP(點(diǎn)估計(jì))與貝葉斯方法(核心是求期望)的不同 - 方差
- 微積分
2 概率論與圖模型的關(guān)系
- 圖模型和相對(duì)應(yīng)的概率的對(duì)應(yīng)關(guān)系济似。
2.1為什么需要圖模型
優(yōu)點(diǎn):
- 以簡(jiǎn)單的方式將概率模型的結(jié)構(gòu)可視化矫废, 可以用于設(shè)計(jì)新模型
- 通過(guò)觀(guān)察模型,更容易觀(guān)察條件獨(dú)立的性質(zhì)
- 高級(jí)的一些推斷和學(xué)習(xí)過(guò)程可以根據(jù)圖計(jì)算表達(dá)砰蠢。 (比如說(shuō)因子圖)
3.圖模型
一般的網(wǎng)絡(luò)圖蓖扑。
概率圖中:節(jié)點(diǎn)表示隨機(jī)變量,邊表示因果關(guān)系或者依賴(lài)關(guān)系
3.1圖模型的分類(lèi)
圖模型分為三類(lèi)台舱。
- 有向圖或者貝葉斯網(wǎng)絡(luò)
- 無(wú)向圖或者馬爾科夫隨機(jī)場(chǎng)
- 因子圖
3.2貝葉斯網(wǎng)絡(luò)
常用于描述變量之間的因果關(guān)系
貝葉斯網(wǎng)絡(luò)中的聯(lián)合概率:
p(x)=P(xk|parent)
3.2.1例一
假設(shè)三個(gè)變量a,b,c上的聯(lián)合概率分布p(a,b,c).
那么p(a,b,c)=p(c|ba)p(ba)=p(c|ba)p(b|a)p(a)
上面的圖是全連接的律杠。但是真實(shí)世界中變量之間確實(shí)是全連接的嗎?
而且真正傳遞出概率分布性質(zhì)的有趣信息是圖中信息的缺失柿赊。
** 為什么呢俩功?**
因?yàn)閷?duì)于全連接的圖模型可以用來(lái)代表所有的概率分布。這樣的狀態(tài)空間是巨大的碰声。意義不大。
但是對(duì)于圖中缺少邊的模型熬甫,則只能對(duì)應(yīng)于具有某些條件獨(dú)立性質(zhì)的
概率分布胰挑。
比如說(shuō):
對(duì)于如下的圖模型:
就只能夠代表了A,B隨機(jī)事件相互獨(dú)立的情況椿肩。
那么從這個(gè)例子中我們可以看到:
非全鏈接的圖模型中包含了相應(yīng)的領(lǐng)域知識(shí)和因果關(guān)系瞻颂。
3.2.2例二
對(duì)于下面一個(gè)關(guān)于學(xué)生成績(jī)的例子。
我們假設(shè)各個(gè)隨機(jī)變量出現(xiàn)的概率如下:
有了每個(gè)因子的分布之后郑象, 就可以得到任意的概率分布了贡这。方法就是:使用加法公式和乘積公式。
另外的一個(gè)問(wèn)題是: 對(duì)于圖模型中的變量怎么快速的知道它們之間是否相互影響厂榛。例如:
在左邊對(duì)應(yīng)的六種情況下盖矫,只有最后一種情況X→W←Y下X的概率不會(huì)影響到Y(jié)的概率丽惭。這是因?yàn)閃不是被觀(guān)察變量,其值是未知的辈双,因此隨機(jī)變量X的值不會(huì)影響隨機(jī)變量Y的取值责掏。有趣的是,當(dāng)中間W變量成為被觀(guān)察變量湃望,上述結(jié)論就會(huì)發(fā)生變化换衬。如下圖所示
當(dāng)W?Z時(shí),即W為觀(guān)察變量時(shí)证芭,所有判斷會(huì)變得相反瞳浦。仍然以 X→W← Y 為例,此時(shí)W的值已知废士,比如已知某個(gè)學(xué)生Grade為B术幔,那么此時(shí)學(xué)生的聰明程度Intelligence和課程難度Difficulty就不再條件獨(dú)立了。比如湃密,這種情況下如果課程比較容易诅挑,那邊學(xué)生很聰明的概率較小泛源;反之拔妥,若課程很難,則學(xué)生很聰明的概率較大达箍。
結(jié)論: 概率影響的流動(dòng)性反應(yīng)了貝葉斯網(wǎng)絡(luò)中隨機(jī)變量條件獨(dú)立性關(guān)系
那么貝葉斯網(wǎng)絡(luò)中的獨(dú)立性或者說(shuō)影響的流動(dòng)性是如何的呢没龙?
3.2.3貝葉斯網(wǎng)絡(luò)的獨(dú)立性
先來(lái)看看 ,圖模型結(jié)構(gòu)圖中缎玫,三種常見(jiàn)的本地結(jié)構(gòu)硬纤。
一般的如果沒(méi)有觀(guān)察變量,見(jiàn)結(jié)構(gòu)1中的圖赃磨,但是變量c是未知的筝家。 那么:
對(duì)兩邊進(jìn)行積分或者求和:
這個(gè)一般不能分解為p(a)p(b).因此:
結(jié)構(gòu)1:
因?yàn)椋?/p>
所以可以得到:
我們稱(chēng)節(jié)點(diǎn)C關(guān)于路徑 尾到尾tail-to-tail)
結(jié)構(gòu)2:
可以得到:
所以同樣可以得到A和B關(guān)于條件C獨(dú)立。
我們稱(chēng)節(jié)點(diǎn)C關(guān)于路徑頭到尾(head-to-tail)
結(jié)構(gòu)3:
因?yàn)椋?/p>
所以當(dāng)C已知時(shí)得不到A與B相互獨(dú)立邻辉。而對(duì)于當(dāng)C為知時(shí)溪王,A與B是相互獨(dú)立的。
我們稱(chēng)C節(jié)點(diǎn)關(guān)于從A到B的路徑從頭到頭(head-to-head)
3.2.4 獨(dú)立性總結(jié)
考慮一個(gè)一般的有向圖值骇,其中A莹菱,B,C是任意無(wú)交集的集合吱瘩。我們的目的在于希望從圖中迅速的觀(guān)察到在給定C的情況下A與B是否相互獨(dú)立道伟。考慮A中任意節(jié)點(diǎn)到B中任意節(jié)點(diǎn)的所有可能路徑使碾,如果路徑中包含一個(gè)滿(mǎn)足下面任何一條的節(jié)點(diǎn)蜜徽,那么就認(rèn)為該路徑是被阻隔的祝懂。
- 路徑上的箭頭以頭到尾 或者尾到尾的方式交匯于這個(gè)節(jié)點(diǎn)。且這個(gè)節(jié)點(diǎn)在集合C中娜汁。
- 箭頭以頭到頭的方式交匯于這個(gè)節(jié)點(diǎn)嫂易,且這個(gè)節(jié)點(diǎn)以及它的后繼都不在C中。
如果所有的路徑都被阻隔掐禁。那么我們說(shuō)C把A和B隔開(kāi)(d-劃分)怜械,也就是有:
馬爾科夫毯:
我們以馬爾科夫毯來(lái)結(jié)束對(duì)貝葉斯網(wǎng)絡(luò)獨(dú)立性的討論「凳拢考慮如下的圖模型:
考慮變量x(i)對(duì)應(yīng)節(jié)點(diǎn)上的條件概率分布缕允,其中條件為所有剩余的變量。使用分解性質(zhì)蹭越,可得:
最后與x(i)無(wú)關(guān)的變量可以提取障本,進(jìn)行消除。唯一剩下的因子包括:p(xi|pai)以及p(Xk|Pak)其中xi為xk的父節(jié)點(diǎn)响鹃。
p(Xk|Pak)不僅僅依賴(lài)于xi,還依賴(lài)于xk的父節(jié)點(diǎn)驾霜。
我們可以將馬爾科夫毯想象成為將xi與圖中剩余部分隔離開(kāi)的最小集合。
例三
(用于引出貝葉斯概率圖模型中的表示)
考慮一個(gè)多項(xiàng)式回歸的問(wèn)題:
其中參數(shù)w為多項(xiàng)式稀疏买置,a為超參粪糙,t為觀(guān)測(cè)變量。x為輸入忿项,另外一個(gè)為高斯分布的方差蓉冈。
概率圖模型為了清晰的在圖形中表明各種的變量的狀態(tài)。引入了特殊的表示法:包括觀(guān)察變量轩触,隱含變量寞酿,輸入,參數(shù)脱柱,以及plate的概念伐弹。
其他的參考模型:LDA, PLSA模型圖褐捻。
有了t掸茅,我們可以計(jì)算w的后驗(yàn)概率:
最終目標(biāo)是對(duì)輸入變量進(jìn)行預(yù)測(cè),假設(shè)給定一個(gè)輸入值x^柠逞,我們需要預(yù)測(cè)輸出。概率模型圖如下:
那么模型的聯(lián)合分布為:
對(duì)w進(jìn)行積分就可以得到相應(yīng)的預(yù)測(cè)值:
3.2.5 生成式模型
圖模型描述了生成觀(guān)測(cè)數(shù)據(jù)的生成式模型景馁。因此這種模型通常被稱(chēng)為生成式模型板壮。
對(duì)于概率模型的實(shí)際應(yīng)用,通常情況下是合住,數(shù)量眾多的變量對(duì)應(yīng)于圖的終端節(jié)點(diǎn)绰精,較少的對(duì)應(yīng)隱變量(hidden variables)撒璧。隱變量的主要作用是使得觀(guān)測(cè)變量上的復(fù)雜分布可以表示為由簡(jiǎn)單條件分布構(gòu)建的模型。(具體的原因笨使,在E-M算法部分進(jìn)行說(shuō)明)
3.3 馬爾科夫隨機(jī)場(chǎng)
一個(gè)馬爾科夫隨機(jī)場(chǎng)也成為馬爾科夫網(wǎng)絡(luò)卿樱,或者無(wú)向圖模型,包含了一組節(jié)點(diǎn)硫椰,每個(gè)節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)變量或者一組變量繁调。鏈接是無(wú)向的,即不含箭頭靶草。
3.3.1 馬爾科夫隨機(jī)場(chǎng)的條件獨(dú)立性
無(wú)向圖的連接沒(méi)有了方向蹄胰,所以父子節(jié)點(diǎn)之間的對(duì)稱(chēng)性也消除了。所以可以使用一下兩種方法判斷是否獨(dú)立:
- 考慮連接集合A與集合B的節(jié)點(diǎn)的所有的路徑奕翔,如果所有這些路徑到通過(guò)了集合C中的一個(gè)或者多個(gè)節(jié)點(diǎn)裕寨,那么所有這樣的路徑都被阻隔。因此條件獨(dú)立存在派继。否則的話(huà)宾袜,條件獨(dú)立的性質(zhì)不一定成立〖菘撸或者說(shuō)一定有某個(gè)對(duì)應(yīng)于該圖的概率分布不滿(mǎn)足條件獨(dú)立的性質(zhì)庆猫。
- 移除C中所有的節(jié)點(diǎn),以及與這些節(jié)點(diǎn)相連的邊纫普。然后考察是否存在一條從A中任意節(jié)點(diǎn)到B中任意節(jié)點(diǎn)的路徑阅悍。如果沒(méi)有這樣的路徑,那么條件獨(dú)立一定存在昨稼。
一個(gè)馬爾科夫隨機(jī)場(chǎng)的例子:
無(wú)向圖的馬爾科夫毯非常簡(jiǎn)單节视,因?yàn)楣?jié)點(diǎn)只依賴(lài)于相鄰的節(jié)點(diǎn),而z給定鄰居節(jié)點(diǎn)的情況下假栓,條件獨(dú)立于任何其他的節(jié)點(diǎn)寻行。
3.3.2 分解性質(zhì)
剩下的一個(gè)問(wèn)題是:如何寫(xiě)出馬爾科夫隨機(jī)場(chǎng)的聯(lián)合分布。也就是如何對(duì)聯(lián)合分布進(jìn)行 分解匾荆。
先來(lái)考慮圖中的一個(gè)概念clique:
維基百科中的解釋?zhuān)?strong>a clique is a subset of vertices of an [undirected graph] such that its [induced subgraph]is [complete]; that is, every two distinct vertices in the clique are adjacent 拌蜘。
馬爾科夫隨機(jī)場(chǎng)的聯(lián)合概率可以分解為圖中最大團(tuán)快的勢(shì)函數(shù)(potential functions )的乘積形式:
其中Z被稱(chēng)為劃分函數(shù),是一個(gè)歸一化常數(shù)牙丽,等于:
我們假定勢(shì)函數(shù)是大于0的简卧,因此可以將勢(shì)函數(shù)表示為指數(shù)的形式:
其中E(Xc)稱(chēng)為能量函數(shù)。
3.4因子圖
因子圖主要用于模型的推斷過(guò)程烤芦。
參考文獻(xiàn):
書(shū)籍《Pattern Recognition andMachine Learning》 第八章