概率模型與概率圖模型
概率模型
概率模型(probabilistic model)提供了一種描述框架,將學習任務歸結于計算變量的概率分布颤枪。在概率模型中汗捡,利用已知變量推測未知變量的分布稱為推斷(inference),其核心是如何基于可觀測變量推測出未知變量的條件分布畏纲。假定所關心的變量集合為Y扇住,可觀測變量集合為O,其他變量的集合為R盗胀。
- 生成式(generative)模型考慮聯(lián)合分布P(Y,R,O)
- 判別式(discriminative)模型考慮條件分布P(Y,R|O)
給定一組觀測變量值艘蹋,推斷就是要由P(Y,R,O)或P(Y,R|O)得到條件概率分布P(Y|O)
概率圖模型
概率圖模型(probabilistic graphical model)是一類用圖來表達變量相關關系的概率模型。它以圖為表示工具票灰,最常見的是用一個結點表示一個或一組隨機變量女阀,結點之間的邊表示變量間的概率相關關系,即變量關系圖屑迂。
根據(jù)邊的性質(zhì)不同强品,概率圖模型可大致分為兩類
- 貝葉斯網(wǎng)(Bayesian network):使用有向無環(huán)圖表示變量間的依賴關系
- 馬爾可夫網(wǎng)(Markovnetwork):使用無向圖表示變量間的相關關系,又稱為無向圖模型
隱馬爾可夫模型
隱馬爾可夫模型(Hidden Markov Model屈糊,HMM)是結構最簡單的動態(tài)貝葉斯網(wǎng)(dynamic Bayesian network)的榛,主要用于時序數(shù)據(jù)建模。
隱馬爾可夫模型中的變量可以分為兩組:
- 狀態(tài)變量:狀態(tài)變量yi表示第i時刻的系統(tǒng)狀態(tài)逻锐,通常假定狀態(tài)變量是隱藏的夫晌、不可被觀測的,因此也稱隱變量(hidden variable)昧诱。隱馬爾可夫模型中晓淀,系統(tǒng)的狀態(tài)通常在多個狀態(tài)之間互相轉化,因此一般認為狀態(tài)變量的取值是有限的離散值盏档。
- 觀測變量:觀測變量xi表示第i時刻的觀測值凶掰。它可以是離散型也可以是連續(xù)型。
隱馬爾可夫模型各變量的依賴關系如下圖。在任一時刻懦窘,觀測變量的取值僅依賴于狀態(tài)變量前翎,即 xt 僅由 yt 確定;任一時刻的狀態(tài)變量僅依賴于其上一時刻的狀態(tài)變量畅涂,即 yt 僅依賴于 y(t-1)港华。這就是馬爾可夫鏈(Markov chain),即:系統(tǒng)下一時刻的狀態(tài)僅由當前狀態(tài)決定午衰,不依賴于以往的任何狀態(tài)立宜。
基于馬爾可夫鏈,所有變量的聯(lián)合概率分布為:
為確定一個隱馬爾可夫模型臊岸,需要以下三組參數(shù):
-
狀態(tài)轉移概率:模型在各個狀態(tài)間轉換的概率橙数,通常記為矩陣A=[aij]N×N,其中
表示在任意時刻t帅戒,若狀態(tài)為si灯帮,則在下一時刻狀態(tài)為sj的概率
-
輸出觀測概率:模型根據(jù)當前狀態(tài)獲得各個觀測值的概率,通常記為矩陣B=[bij]N×M蜘澜,其中
表示在任意時刻t施流,若狀態(tài)為si,則觀測值oj被獲取的概率
-
初始狀態(tài)概率:模型在初始時刻各狀態(tài)出現(xiàn)的概率鄙信,通常記為π=(π1, π2, …, πN)瞪醋,其中
表示模型的初始狀態(tài)為si的概率
從而,隱馬爾可夫模型通常使用 λ=[A, B, π] 來表示装诡。
馬爾可夫隨機場
馬爾可夫隨機場(Markov Random Field银受,MRF)是典型的馬爾可夫網(wǎng),這是一種無向圖模型鸦采。圖中每個結點表示一個或一組變量宾巍,結點之間的邊表示兩個變量之間的依賴關系。馬爾可夫隨機場有一組勢函數(shù)(potential functions)渔伯,亦稱因子(factor)顶霞,這是定義在變量子集上的非負實函數(shù),主要用于定義概率分布函數(shù)锣吼。
如下圖即一個簡單的馬爾可夫隨機場:
馬爾可夫隨機場計算聯(lián)合分布
在一個馬爾可夫隨機場中定義如下概念:
- 團(clique):對于圖中結點的一個子集选浑,若其中任意兩個結點之間都有邊連接,則稱該子集為一個團
- 極大團(maximal clique):若某個團加入另外任何一個結點都不能再夠成團玄叠,則稱該團為極大團古徒,即極大團就是不能被其他團所包含的團
馬爾可夫隨機場中,所有變量的聯(lián)合概率可以通過團來定義读恃,每個因子僅與一個團相關隧膘。若所有的團構成集合C代态,與團Q相關的變量集合記為xQ,則聯(lián)合概率定義為:
其中ψQ為與團Q對應的勢函數(shù)疹吃,用于對團Q中的變量關系進行建模
稱為規(guī)范化因子蹦疑,一般很難計算,所以往往不需要Z的精確值
為了減少團的數(shù)量同時保證滿足每個因子僅與一個團相關這個條件互墓,通常使用極大團Q*來計算必尼,使用極大團定義的聯(lián)合概率為:
馬爾可夫隨機場中的條件獨立性
定義如下概念:
若馬爾可夫隨機場中蒋搜,結點集A中的結點到B中的結點都必須經(jīng)過結點集C中的結點篡撵,則稱結點集A和B被結點集C分離,結點集C稱為分離集(separating set)豆挽,如圖所示:
-
全局馬爾可夫性(global Markov property):給定兩個變量子集的分離集育谬,則這兩個變量子集條件獨立,如上圖中帮哈,xA和xB在給定xC的條件下獨立膛檀,記為:
-
局部馬爾可夫性(local Markov property):給定某變量的鄰接變量,則該變量條件獨立于其他變量娘侍。例如咖刃,令V為圖的結點集,n(v)為結點v在圖上的鄰接結點憾筏,n*(v)=n(v)U{v}嚎杨,有:
-
成對馬爾可夫性(pairwise Markov property):給定所有其他變量,兩個非鄰接變量條件獨立氧腰。例如枫浙,令圖的結點集和邊集分別為V和E,對圖中的兩個結點u和v古拴,若?n,v??E箩帚,則:
勢函數(shù)
勢函數(shù)定量地刻畫變量集xQ中變量之間的相關關系,是非負函數(shù)黄痪,且在所偏好的變量取值上有較大的函數(shù)值紧帕,勢函數(shù)常用指數(shù)函數(shù)定義:
HQ(xQ)是一個定義在變量xQ上的實值函數(shù),常見形式為:
條件隨機場
條件隨機場(Conditional Random Field桅打,CRF)是一種判別式無向圖模型是嗜,對條件分布進行建模。隱馬爾可夫模型和馬爾可夫隨機場為生成式模型油额,直接對聯(lián)合分布進行建模叠纷。
條件隨機場試圖對多個變量在給定觀測值后的條件概率進行建模。具體來說潦嘶,若令x={x1, x2, …, xn}為觀測序列涩嚣,y={y1, y2, …, yn} 為與之相應的標記序列崇众,則條件隨機場的目標是構建條件概率模型P(y|x)。
令G=<V,E>表示結點與標記變量y中元素一一對應的無向圖航厚,yv表示與結點v對應的標記變量顷歌,n(v)表示結點v的鄰接結點,若圖G的每個變量yv都滿足馬爾可夫性幔睬,即:
則G=<V,E>構成一個條件隨機場
理論上來說眯漩,圖G可具有任意結構,只要能表示標記變量之間的條件獨立性關系即可麻顶。但在現(xiàn)實應用中赦抖,尤其是對標記序列建模時,最常用的仍是如下圖所示的鏈式結構辅肾,即鏈式條件隨機場(chain-structured CRF):
條件隨機場中队萤,通過選用指數(shù)勢函數(shù)并引入特征函數(shù)(feature function),條件概率被定義為:
其中tj是定義在觀測序列的兩個相鄰標記位置上的轉移特征函數(shù)(transition feature function)矫钓,用于刻畫相鄰標記變量之間的相關關系以及觀測序列對它們的影響要尔,sk是定義在觀測序列的標記位置i上的狀態(tài)特征函數(shù)(status feature function),用于刻畫觀測序列對標記變量的影響新娜,λj和μk為參數(shù)赵辕,Z為規(guī)范化因子。
- 條件隨機場和馬爾可夫隨機場均使用團上的勢函數(shù)定義概率概龄,兩者在形式上沒有顯著區(qū)別
- 條件隨機場處理的是條件概率还惠,而馬爾可夫隨機場處理的是聯(lián)合概率
全文參考:周志華 著 《機器學習》
轉載請注明出處,本文永久更新鏈接:小天才的雜貨鋪-學習筆記