近一周學(xué)習(xí)了概率圖模型西傀,總結(jié)下自己的理解,當(dāng)然只是概括介紹我認(rèn)為比較核心的概念阶剑,所以不會做細(xì)致的算法說明等翠储,如果有不正確的地方歡迎大家指正??
整個模型分類參考下面圖
概率圖模型是一類用圖來表達(dá)的相關(guān)變量關(guān)系的概率模型,它以圖為工具洞难,點(diǎn)表示變量舆吮,邊表示變量間的概率相關(guān)關(guān)系。
從圖(1)可看見,概率圖模型可分為基本的兩類:有向圖圖模型(貝葉斯網(wǎng)絡(luò)為代表)和無向圖模型(馬爾科夫網(wǎng)絡(luò)為代表)色冀。下面會大致介紹下:馬爾科夫模型潭袱,有向圖模型(貝葉斯網(wǎng)絡(luò),隱馬爾科夫模型)锋恬。無向圖模型(馬爾科夫網(wǎng)絡(luò)(馬爾科夫隨機(jī)場就是典型的馬爾科夫網(wǎng)絡(luò))屯换,條件隨機(jī)場)
貝葉斯網(wǎng)絡(luò):
屬于生成模型,借助有向無環(huán)圖(DAG圖)來刻畫屬性簡的依賴關(guān)系与学,并使用條件概率表來描述屬性的聯(lián)合概率分布彤悔,這里重點(diǎn)是計算聯(lián)合概率分布
例如:
方法:比如x1是x3,x4的父節(jié)點(diǎn)索守,父子節(jié)點(diǎn)有一定的概率依賴關(guān)系晕窑。然后通過右邊的條件概率表給出所有這種父子依賴關(guān)系的概率表,就可以計算出屬性x1,x2,x3....的聯(lián)合概率分布定義:P(x1,x2,x3,x4,x5)=P(x1)P(x2)P(x3|x1)P(x4|x1,x2)P(x5|x2)卵佛,當(dāng)然西瓜書中還分析了一些條件獨(dú)立性的證明杨赤,有興趣的自己可以閱讀
1.學(xué)習(xí):
如果都知道各個變量,各個屬性間的依賴關(guān)系截汪,只需要對各個條件概率表進(jìn)行計數(shù)疾牲,就能夠得到聯(lián)合概率分布。但實(shí)際情況中幾乎不會輕易得到所有的關(guān)系依賴衙解,所有貝葉斯網(wǎng)絡(luò)的首要任務(wù)是根據(jù)訓(xùn)練數(shù)據(jù)找出最“恰當(dāng)”的貝葉斯網(wǎng)阳柔,也就是學(xué)習(xí)出屬性間的依賴關(guān)系,得到聯(lián)合概率分布丢郊。使用的是評分函數(shù)算法
2.推斷
通過第一步的學(xué)習(xí)得到了聯(lián)合概率分布盔沫,屬性,變量間的依賴關(guān)系枫匾,也就是得到了貝葉斯網(wǎng)絡(luò)后架诞,就可以通過它來回答"查詢",及通過一些已知屬性變量的觀測值來預(yù)測一些其他的屬性干茉。比如圖(1)中谴忧,通過x1來預(yù)測x3,x4等
2.1 近似推斷(吉布斯采樣)
現(xiàn)實(shí)情況中,網(wǎng)絡(luò)的節(jié)點(diǎn)很多角虫,很難通過貝葉斯網(wǎng)絡(luò)定義的聯(lián)合概率來精確計算后驗(yàn)概率沾谓,所以會使用吉布斯采樣來近似推斷
3.EM算法
EM算法是一種常用的估計參數(shù)隱變量的算法,是一種迭代的方法戳鹅,步驟是:E步均驶,通過隨機(jī)初始化參數(shù)theta,通過訓(xùn)練數(shù)據(jù)推斷出最優(yōu)的隱變量Z枫虏。M步妇穴,通過Z爬虱,進(jìn)一步調(diào)整參數(shù)theta
前面討論都是假設(shè)樣本已被觀測到,也就是樣本的"完整性"來做的腾它,但實(shí)際情況很多都是"不完整的"跑筝,比如西瓜的根蒂已經(jīng)脫落,就無法看出"蜷縮"和"硬挺"瞒滴。這種變量我們稱為隱變量曲梗,常用的EM算法來對隱變量進(jìn)行填充計算
馬爾科夫模型
馬爾科夫描述了一類重要的隨機(jī)變化過程,我們常常會考察一個隨機(jī)變量序列妓忍,這些隨機(jī)變化并不是相互獨(dú)立的虏两,每個隨機(jī)變量的值依賴于這個序列前面的狀態(tài),可表示為
如果定義只與前一時刻有關(guān)系单默,那么稱為一階馬爾科夫鏈
隱馬爾科夫模型(HMM)
馬爾科夫模型默認(rèn)的是每個狀態(tài)代表的一個可觀察的序列碘举,隱馬爾科夫模型描述的是狀態(tài)是隱藏的,不可觀察的搁廓。還有一個可輸出的觀測序列引颈。這種模型有兩個隨機(jī),1是狀態(tài)轉(zhuǎn)移的隨機(jī)境蜕,2是一個狀態(tài)可觀察值的隨機(jī)蝙场。
1.其中幾個重要的參數(shù):a.狀態(tài)轉(zhuǎn)移概率,y1,y2....的轉(zhuǎn)移概率粱年。? b.輸出觀察概率y輸出x的概率售滤。c.初始狀態(tài)概率,y1
2.HMM解決的問題
a.如何評估模型與觀測序列之間的匹配程度台诗,例如許多任務(wù)已有觀察序列{x1,x2,x3...xn-1}求x(n)的最有可能值完箩,就是轉(zhuǎn)換為判定模型,P(x|theta)最大的匹配程度
b.根據(jù)觀測序列推斷出隱藏的模型狀態(tài)拉队,已經(jīng){x1,x2,x3...x(n)},求{y1,y2,y3...y(n)}拄丰。如語音識別中香追,觀測值為語音符號相速,隱藏狀態(tài)為文字
c.如何訓(xùn)練模型沿腰,使其能最好的描述觀測數(shù)據(jù),即調(diào)整模型參數(shù)[A,B,PI]事哭,使得該觀測序列出現(xiàn)的概率最大
馬爾科夫隨機(jī)場(馬爾科夫網(wǎng)絡(luò))
馬爾科夫隨機(jī)場是典型的馬爾科夫網(wǎng)絡(luò)漫雷,是一種著名的無向圖模型,多個變量之間的聯(lián)合概率分布能夠基于團(tuán)分解為多個因子的乘積(可以和貝葉斯網(wǎng)對比鳍咱,貝葉斯網(wǎng)可理解為基于各個父子節(jié)點(diǎn)分開乘積)
團(tuán):
對于圖中的任意兩點(diǎn)都有線相連降盹,則稱該結(jié)點(diǎn)子集為一個"團(tuán)",若在一個團(tuán)中加入另外的節(jié)點(diǎn)都不再形成團(tuán)谤辜,那么陳該該結(jié)點(diǎn)子集為"極大團(tuán)"
勢函數(shù):
亦稱"因子"(factor)澎现,這是定義在變量子集上的非負(fù)實(shí)函數(shù)仅胞,主要用于定義概率分布函數(shù):
條件隨機(jī)場
是一種判別式無向圖模型,對條件分布進(jìn)行建模剑辫。試圖對多個變量在給定觀測值后的條件概率進(jìn)行建模。具體說就是給定X={x1,x2,x3,....xn}和Y={y1,y2,y3...yn}然后建立模型P(Y|X)渠欺。然后對后面給定的(x11,x12,x....)直接使用P(Y|X)模型進(jìn)行預(yù)測妹蔽。標(biāo)記變量y可以是結(jié)構(gòu)型變量,即其分量直接具有某種相關(guān)性挠将。
例如胳岂,NLP中處理詞性標(biāo)注任務(wù)中,觀測數(shù)據(jù)為語句(單詞序列)舔稀,標(biāo)記為相應(yīng)的詞性序列乳丰,具有線性序列結(jié)構(gòu)。另外在語法分析任務(wù)中内贮,輸出標(biāo)記則是語法樹产园,具有樹形結(jié)構(gòu)