前言
機器學(xué)習(xí)中最重要的任務(wù)醋旦,是根據(jù)一些已觀察到的證據(jù)(如訓(xùn)練樣本)來對感興趣的未知變量(如類別標(biāo)記)進行估計和預(yù)測。概率模型(probabilistic model)提供了一種描述框架倔幼,將學(xué)習(xí)任務(wù)歸結(jié)于計算變量概率的分布。
什么是概率圖模型
在概率模型中爽待,利用已知變量推測未知變量的分布稱為“推斷”(inference)损同,其核心是如何基于可觀測變量推測出未知變量的條件分布。具體來說鸟款,假定問題中關(guān)注的變量集合為Y膏燃,可觀測的變量集合為O,其它變量的集合是R何什。生成式模型考慮聯(lián)合分布P(Y,R,O)组哩,判別式模型考慮條件分布P(Y,R|O)。給定一組觀測變量值处渣,推斷就是要從P(Y,R,O)或P(Y,R|O)中得到條件概率分布P(Y|O)伶贰。
直接利用概率和規(guī)則消去變量R顯然不可行,因為其計算復(fù)雜度是指數(shù)型的罐栈。為了便于研究高效的推斷和學(xué)習(xí)算法黍衙,需要一套能簡潔緊湊的表達(dá)變量間關(guān)系的工具,于是概率圖模型營運而生荠诬。
概率圖模型(probabilistic graphical model)是一類用圖來表示變量間相關(guān)關(guān)系的概率模型琅翻。它以圖為表示工具,常見的是用一個節(jié)點表示一個或一組隨機變量柑贞,節(jié)點之間的邊表示變量間的概率相關(guān)關(guān)系方椎,即“變量關(guān)系圖”。
根據(jù)邊的性質(zhì)不同钧嘶,概率圖分為:
- 使用有向無還圖表示變量間的依賴關(guān)系棠众,稱為有向圖或貝葉斯網(wǎng)(Bayes Network)。
- 使用無向圖表示變量間的相關(guān)關(guān)系康辑,稱為無向圖模型或馬爾科夫網(wǎng)(Markov Network)摄欲。
若變量間存在顯式的因果關(guān)系,則常使用Bayes Network疮薇;若變量間存在相關(guān)性胸墙,但是難以獲得顯式的因果關(guān)系,則經(jīng)常使用Markov Network按咒。
隱馬爾科夫模型的介紹
隱馬爾科夫模型(Hidden Markov Model迟隅,簡稱HMM)是結(jié)構(gòu)最簡單的動態(tài)貝葉斯網(wǎng)(相比普通貝葉斯網(wǎng)絡(luò)而言)但骨,是一種著名的有向圖,主要應(yīng)用在時序數(shù)據(jù)建模智袭、語音識別奔缠、自然語言處理等領(lǐng)域中。