機(jī)器學(xué)習(xí)的核心思想就是根據(jù)已知的內(nèi)容去推測(cè)未知的內(nèi)容假夺,然后在已知和未知之間建立起聯(lián)系惜互,這個(gè)聯(lián)系就是機(jī)器學(xué)習(xí)中的各種模型或辖!這和我們的經(jīng)驗(yàn)系統(tǒng)很像笆檀,在第一章中的挑西瓜的例子就是我們利用經(jīng)驗(yàn)系統(tǒng)來把西瓜的可觀測(cè)外觀信息(根蒂、花紋尺铣、聲響)和未知信息(是否是好瓜)建立起聯(lián)系的結(jié)果拴曲。
說回本章的內(nèi)容,一種建立已知信息與未知信息聯(lián)系的方法是對(duì)未知信息的概率分布進(jìn)行推測(cè)凛忿。概率模型(probabilistic model)提供了一種描述框架澈灼,將學(xué)習(xí)任務(wù)歸結(jié)于計(jì)算變量的概率分布。在概率模型中店溢,利用已知變量推測(cè)未知變量的分布稱為“推斷”(inference)叁熔,其核心是如何基于可觀測(cè)變量 x 推測(cè)出未知變量 c 的條件分布 P( c | x ) 。貝葉斯學(xué)習(xí)算法就是一個(gè)經(jīng)典的概率模型
具體來說床牧,概率模型有“生成式”和“判別式”兩種方式荣回,這兩種類型的區(qū)別在第七章貝葉斯分類器“一起來讀西瓜書:第七章 貝葉斯分類器”中已有過介紹,簡單來說戈咳,前者是通過計(jì)算 P(c, r, x) 來得到 P( c | x )的心软,后者是直接計(jì)算 P(c, r | x) 來得到 P( c | x )的,其中 r 是除了可觀測(cè)變量和要計(jì)算的變量外的其他變量著蛙。
上邊介紹了那么多删铃,那么到底什么是概率圖模型呢?
概率圖模型是一類用圖來表達(dá)變量相關(guān)關(guān)系的概率模型册踩。使用概率圖模型的原因是因?yàn)橹苯永酶怕是蠛鸵?guī)則消去變量 r 計(jì)算開銷太大泳姐,而且屬性之間往往存在復(fù)雜的關(guān)系效拭,而以圖為表現(xiàn)工具暂吉,對(duì)變量間的關(guān)系進(jìn)行簡潔緊湊的表達(dá)將有助于提高研究推斷和學(xué)習(xí)算法的效率胖秒。
概率圖模型根據(jù)邊的性質(zhì)不同,大致可分為以下兩類:第一類是使用有向無環(huán)圖表示變量之間的依賴關(guān)系慕的,稱為有向圖模型或者貝葉斯網(wǎng)(Bayesian network)阎肝;第二類是使用無向圖表示變量間的相關(guān)關(guān)系,稱為無向圖模型或者馬爾可夫網(wǎng)(Markov network)
下邊我將分別對(duì)概率圖模型的不同類型肮街、學(xué)習(xí)和推斷詳情以及具體的模型進(jìn)行介紹风题,希望通過本章的學(xué)習(xí),大伙能對(duì)概率圖模型有個(gè)較為清晰的認(rèn)識(shí)
1)隱馬爾可夫模型(Hidden Markov Model嫉父,簡稱 HMM )
隱馬爾可夫模型是結(jié)構(gòu)最簡單的動(dòng)態(tài)貝葉斯網(wǎng)(Dynamic Bayesian Network)沛硅,這是一種著名的有向圖模型,主要用于時(shí)序數(shù)據(jù)建模绕辖,在語音識(shí)別摇肌、自然語言處理領(lǐng)域有廣泛應(yīng)用。
隱馬爾可夫模型具有兩組變量仪际,第一組是系統(tǒng)的狀態(tài)變量{y1, y2, ... , yn}围小,其中 yi 為第 i 時(shí)刻系統(tǒng)的狀態(tài)。通常假定狀態(tài)變量是隱藏的树碱、不可被觀測(cè)的肯适,因此狀態(tài)變量亦稱“隱變量”(hidden variable)。第二組是觀測(cè)變量{x1, x2, ... , xn}成榜,其中 xi 是第 i 時(shí)刻的觀測(cè)值框舔。下圖是隱馬爾可夫模型的圖結(jié)構(gòu):
圖中的箭頭表示了變量間的依賴關(guān)系。隱馬爾可夫模型是建立在這樣的前提下的:在任一時(shí)刻赎婚,觀測(cè)變量的取值僅依賴于其對(duì)應(yīng)的狀態(tài)變量雨饺,即 xi 由 yi 決定;同時(shí)惑淳,t 時(shí)刻的狀態(tài)變量只由 t-1 時(shí)刻的狀態(tài)變量決定额港。
這就是所謂的“馬爾可夫鏈”(Markov Chain):系統(tǒng)下一時(shí)刻的狀態(tài)僅由當(dāng)前狀態(tài)決定,不依賴于以往的任何狀態(tài)
基于這種依賴關(guān)系歧焦,所有變量的聯(lián)合概率分布為:
P(x1, y1, ... , xn, yn) =
P(y1) P( x1| y1 ) P( y2 | y1?) P( x2 | y2) ... P( yn | yn-1) P( xn | yn)
除了結(jié)構(gòu)信息移斩,欲確定一個(gè)隱馬爾可夫模型還需以下三組參數(shù):
[1]狀態(tài)轉(zhuǎn)移概率:A -> aij = P( yt+1 = sj | yt = si ),系統(tǒng)從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率
[2]輸出觀測(cè)概率:B -> bij = P( xt = oj | yt = si ) 绢馍,系統(tǒng)在當(dāng)前狀態(tài)的觀測(cè)值概率
[3]初始狀態(tài)概率:∏ -> ∏i = P( y1 = oj )向瓷,系統(tǒng)的初始狀態(tài)概率
通過指定狀態(tài)空間 Y、觀測(cè)空間 X 和上述三組概率參數(shù) r = [A, B, ∏] 舰涌,就能確定一個(gè)隱馬爾可夫模型猖任。具體的步驟為:
[1]用初始狀態(tài)概率?∏ 算出初始狀態(tài) y0
[2]用 B 算出當(dāng)前狀態(tài)的觀測(cè)值 xt
[3]用 A 算出下一個(gè)狀態(tài) yt+1
[4]重復(fù)第二、第三步直到到達(dá)停止條件
可在實(shí)際應(yīng)用中瓷耙,隱馬爾可夫模型的參數(shù)并不一定都能得到朱躺,因此人們常常關(guān)注下邊三個(gè)基本問題:
[1]給定了參數(shù) r刁赖,并且知道觀測(cè)序列 X = {x0, x1, ..., xn-1},評(píng)估模型與觀測(cè)序列之間的匹配程度长搀,來推測(cè)下一狀態(tài)的觀測(cè)概率: P( xn | r )
[2]給定了參數(shù) r宇弛,并且知道觀測(cè)序列?X = {x0, x1, ..., xn},要預(yù)測(cè)對(duì)應(yīng)的狀態(tài)序列 Y = {y0, y1, ..., yn}
[3]給定觀測(cè)序列?X = {x0, x1, ..., xn}源请,如何調(diào)整模型參數(shù) r 使得該序列出現(xiàn)的概率最大
2)馬爾可夫隨機(jī)場(Markov Random Field枪芒,簡稱 MRF)
馬爾可夫隨機(jī)場是典型的馬爾可夫網(wǎng),這是一種著名的無向圖模型谁尸。圖中的每個(gè)節(jié)點(diǎn)代表一個(gè)或一組變量试吁,節(jié)點(diǎn)之間的邊表示兩個(gè)變量之間的依賴關(guān)系惕橙。?馬爾可夫隨機(jī)場有一組勢(shì)函數(shù)(potential functions)锐想,亦稱“因子”(factor)溯饵,這是定義在變量子集上的非負(fù)實(shí)函數(shù),主要用于定義概率分布函數(shù)背镇。
馬爾可夫隨機(jī)場是一種具有馬爾可夫特性的隨機(jī)場咬展,要理解什么是馬爾可夫隨機(jī)場,我們得要先理解什么是隨機(jī)場瞒斩,而什么又是馬爾科夫特性破婆。
[1]什么是隨機(jī)場
在概率論中, 由樣本空間Ω = {0, 1, …,?G???1}n取樣構(gòu)成的隨機(jī)變量Xi所組成的S?= {X1, …,?Xn}。若對(duì)所有的ω∈Ω下式均成立胸囱,則稱π為一個(gè)隨機(jī)場祷舀。
π(ω) > 0.
當(dāng)給每一個(gè)位置中按照某種分布隨機(jī)賦予相空間的一個(gè)值之后,其全體就叫做隨機(jī)場烹笔。我們不妨拿種地來打個(gè)比方裳扯。其中有兩個(gè)概念:位置(site),相空間(phase space)谤职∈尾颍“位置”好比是一畝畝農(nóng)田;“相空間”好比是種的各種莊稼允蜈。我們可以給不同的地種上不同的莊稼冤吨,這就好比給隨機(jī)場的每個(gè)“位置”,賦予相空間里不同的值饶套。所以漩蟆,俗氣點(diǎn)說,隨機(jī)場就是在哪塊地里種什么莊稼的事情
[2]什么是馬爾可夫特性
上一節(jié)我們提到了馬爾可夫鏈的概念妓蛮,即系統(tǒng)的下一狀態(tài)僅由當(dāng)前狀態(tài)決定怠李,不依賴于以往的任何狀態(tài)。馬爾可夫特性是這個(gè)概念的一個(gè)變化,即一個(gè)變量只與其鄰接變量相關(guān)捺癞,不依賴于不相鄰的任何變量
還是拿種地打比方夷蚊,如果任何一塊地里種的莊稼的種類僅僅與它鄰近的地里種的莊稼的種類有關(guān),與其它地方的莊稼的種類無關(guān)翘簇,那么這些地里種的莊稼的集合,就是一個(gè)馬爾可夫隨機(jī)場儿倒。
[3]“團(tuán)”(clique)版保、“極大團(tuán)”(maximal clique)及聯(lián)合概率
下圖是一個(gè)簡單的馬爾可夫隨機(jī)場。對(duì)于圖中結(jié)點(diǎn)的一個(gè)子集夫否,若任意兩個(gè)結(jié)點(diǎn)間都有邊連接彻犁,則稱該結(jié)點(diǎn)子集為一個(gè)團(tuán)。若在一個(gè)團(tuán)中加入另外任何一個(gè)結(jié)點(diǎn)都不再構(gòu)成團(tuán)凰慈,則稱該團(tuán)為極大團(tuán)
引入團(tuán)概念的原因是什么呢汞幢?其實(shí)很簡單,就是為了能更方便的計(jì)算變量x的聯(lián)合概率微谓。根據(jù)馬爾可夫特性森篷,每個(gè)變量只與其鄰接結(jié)點(diǎn)相關(guān),那么多個(gè)變量之間的聯(lián)合概率分布能基于團(tuán)分解為多個(gè)因子的乘積豺型。具體來說仲智,對(duì)于 n 個(gè)變量 x = {x1, x2, ..., xn},所有團(tuán)構(gòu)成的集合為 C姻氨,與團(tuán) Q 屬于 C 對(duì)應(yīng)的變量集合記為 xQ钓辆,則聯(lián)合概率 P(x) 定義為:
其中 Z 為規(guī)范化因子,被連乘的函數(shù)代表的是團(tuán) Q 對(duì)應(yīng)的勢(shì)函數(shù)肴焊,勢(shì)函數(shù)的作用是定量刻畫變量集 xQ 中變量之間的相關(guān)關(guān)系前联。
3)條件隨機(jī)場(Conditional Random Field,簡稱 CRF)
條件隨機(jī)場是一種判別式無向圖模型娶眷,它可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場似嗤。前邊介紹的隱馬爾可夫模型和馬爾可夫隨機(jī)場都是“生成式”模型,而條件隨機(jī)場是“判別式”模型届宠,即給定觀測(cè)數(shù)據(jù){x1, x2, ..., xn}以及對(duì)應(yīng)的標(biāo)記數(shù)據(jù){y1, y2, ..., yn}双谆,構(gòu)建條件概率模型 P( y | x )。
對(duì)于一個(gè)無向圖模型席揽,若圖中的每個(gè)變量 y_v 都滿足馬爾可夫性顽馋,即
則稱 (y, x) 構(gòu)造一個(gè)條件隨機(jī)場
理論上來說,條件隨機(jī)場的圖 G 可具有任意結(jié)構(gòu)幌羞,只要能表示標(biāo)記變量之間的條件獨(dú)立性即可寸谜。但在實(shí)際應(yīng)用中,尤其是對(duì)標(biāo)記序列建模時(shí)属桦,最常用的仍是下圖所示的鏈?zhǔn)浇Y(jié)構(gòu)熊痴,即“鏈?zhǔn)綏l件隨機(jī)場”(chain-structured CRF)
與馬爾可夫隨機(jī)場類似他爸,條件隨機(jī)場也使用了合適的“勢(shì)函數(shù)”來計(jì)算所要求的條件概率,只不過條件隨機(jī)場是將勢(shì)函數(shù)引入特征函數(shù)(feature function)中來進(jìn)行計(jì)算的果善。
特征函數(shù)通常是實(shí)值函數(shù)诊笤,以刻畫數(shù)據(jù)的一些很可能成立或期望成立的經(jīng)驗(yàn)特征。比如在下圖所示的語法分析任務(wù)中巾陕,
可以有如下特征函數(shù)讨跟,
這說明經(jīng)驗(yàn)上來說,第 i 個(gè)觀測(cè)值為“knock”時(shí)鄙煤,其相應(yīng)的標(biāo)記 y_i 和 y_i+1 很可能分別為 [V] 和 [P]
4)學(xué)習(xí)與推斷
在介紹了概率圖模型的三種主流結(jié)構(gòu)后晾匠,接下來我們繼續(xù)學(xué)習(xí)如何在概率圖模型中進(jìn)行學(xué)習(xí)和推斷。
基于概率圖模型定義的聯(lián)合概率分布梯刚,我們能對(duì)目標(biāo)變量的邊際分布或以某些可觀測(cè)變量為條件的條件分布進(jìn)行推斷凉馆。具體來說,假設(shè)圖模型所對(duì)應(yīng)的變量集 x = {x1, x2, ..., xn} 能分為 x_E 和 x_F 兩個(gè)不相交的變量集亡资,推斷問題的目標(biāo)就是計(jì)算邊際概率 P( x_E ) 或條件概率 P( x_F | x_E )澜共,由條件概率定義有如下公式:
其中聯(lián)合概率 P(x_E, x_F) 可基于概率圖模型獲得,因此锥腻,推斷問題的關(guān)鍵就是如何高效的計(jì)算邊際分布咳胃,即上式的分母部分。
概率圖模型的推斷方法大致可以分為兩類:第一類是精確推斷方法旷太,希望能計(jì)算出目標(biāo)變量的邊際分布或條件分布的精確值展懈;遺憾的是,一般情況下供璧,此類算法的計(jì)算復(fù)雜度隨著極大團(tuán)數(shù)量的增長呈指數(shù)增長存崖,適用范圍有限。第二類是近似推斷方法睡毒,希望在較低的時(shí)間復(fù)雜度下獲得原問題的近似解来惧;此類方法在現(xiàn)實(shí)任務(wù)中更常見。本節(jié)介紹兩種精確推斷方法演顾,下一節(jié)介紹近似推斷方法供搀。
[1]變量消去
精確推斷的實(shí)質(zhì)是一種動(dòng)態(tài)規(guī)劃算法,它利用圖模型所描述的條件獨(dú)立性來削減計(jì)算目標(biāo)概率值所需的計(jì)算量钠至。變量消去是最直觀的精確推斷算法葛虐,也是構(gòu)建其它精確推斷算法的基礎(chǔ)。
我們以下圖有向圖模型為例來介紹其工作流程:
假定推斷目標(biāo)為邊際概率 P( x5 )棉钧,顯然為了完成此目標(biāo)屿脐,只需通過加法消去變量{x1, x2, x3, x4},即:
其中 mij(xj) 是求加過程的中間結(jié)果,下標(biāo) i 表示此項(xiàng)是對(duì) xi 求加的結(jié)果的诵,下標(biāo) j 表示此項(xiàng)中剩下的其它變量万栅。顯然 mij(xj) 是 xj 的函數(shù)。
變量消去算法通過利用乘法對(duì)加法的分配律西疤,把多個(gè)變量的積的求和問題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問題烦粒。這種轉(zhuǎn)換使得每次的求和和求積運(yùn)算限制在局部,僅與部分變量有關(guān)代赁,從而簡化了計(jì)算扰她。
變量消去法有一個(gè)明顯的缺點(diǎn),那就是若需計(jì)算多個(gè)邊際概率管跺,會(huì)造成大量冗余計(jì)算义黎。下一小節(jié)的信念傳播算法就很好的解決了這個(gè)問題禾进。
[2]信念傳播(Belief Propogation)
信念傳播算法將變量消去法中的求和操作看作一個(gè)消息傳遞的過程豁跑,較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問題。
在變量消去算法的計(jì)算過程中泻云,通過求和操作消去變量的過程 mij(xj)艇拍,我們可以看作是從 xi 向 xj 傳遞消息的過程。通過觀測(cè)不難發(fā)現(xiàn)宠纯,每次消息的傳遞操作僅與變量 x 的鄰接結(jié)點(diǎn)直接相關(guān)卸夕,換言之,消息傳遞相關(guān)的計(jì)算被限制在圖的局部進(jìn)行婆瓜。
在信念傳播算法中快集,一個(gè)結(jié)點(diǎn)僅在接收到來自其它所有結(jié)點(diǎn)的消息后才能向下一個(gè)結(jié)點(diǎn)傳遞信息,且結(jié)點(diǎn)的邊際分布正比于它所接收的消息的乘積廉白。
若圖結(jié)構(gòu)中沒有環(huán)个初,則信念傳播算法經(jīng)過兩個(gè)步驟即可完成所有消息傳遞,進(jìn)而能計(jì)算所有變量上的邊際分布:
指定一個(gè)根結(jié)點(diǎn)猴蹂,從所有葉結(jié)點(diǎn)向根結(jié)點(diǎn)傳遞信息院溺,直到所有根結(jié)點(diǎn)收到所有鄰接結(jié)點(diǎn)的信息
從根結(jié)點(diǎn)向葉結(jié)點(diǎn)傳遞消息,直到所有葉結(jié)點(diǎn)都接收道消息
例如在下邊的圖結(jié)構(gòu)中磅轻,我們令 x1 為根結(jié)點(diǎn)珍逸,則 x4 與 x5 為葉結(jié)點(diǎn),則以上兩步的消息傳遞過程如下聋溜。此時(shí)圖的每條邊上都有方向不同的兩條信息谆膳,基于這些消息以及上一小節(jié)的公式,即可得到所有變量的邊際概率
5)近似推斷
像在上一節(jié)中介紹的撮躁,為了節(jié)省計(jì)算開銷摹量,在現(xiàn)實(shí)生活中近似推斷更為常用。近似推斷方法大致可分為兩大類:第一類是采樣,通過使用隨機(jī)化方法完成近似缨称;第二類是使用確定性近似完成近似推斷凝果,典型代表是變分推斷
[1]MCMC采樣(Markov Chain Monte Carlo Sampling,馬爾可夫鏈蒙特卡洛采樣)
在很多任務(wù)中睦尽,我們所關(guān)心的其實(shí)并非是概率分布本身器净,而是在該概率分布下某個(gè)變量的期望。那么當(dāng)能通過直接的操作近似逼近這個(gè)變量的期望時(shí)当凡,我們就不需要大費(fèi)周章的去推斷概率分布了山害。
簡單來說,若已知變量 x 的概率密度函數(shù) p(x)沿量,那么我要要求 y = f(x) 的期望時(shí)浪慌,我們就不需要去計(jì)算出條件概率 P(y|x) 了,只需要計(jì)算 f(x) 在多個(gè)樣本 {x1, x2, x3, ..., xn}上的 f(xi) 的平均值朴则,或者在一定范圍取值內(nèi)的積分权纤。根據(jù)大數(shù)定理,這種通過大量采樣的辦法就能獲得較高的近似精度乌妒。
那么我們關(guān)注的問題就從如何求得期望的近似變成要如何高效的獲取樣本了汹想!
MCMC方法就是概率圖模型中最常用的采樣技術(shù)。對(duì)高維多元變量 x撤蚊,MCMC采樣通過構(gòu)造“平穩(wěn)分布為 p 的馬爾可夫鏈”來產(chǎn)生樣本古掏。
首先,讓我們先理解什么是馬爾可夫鏈的平穩(wěn)狀態(tài)侦啸。直觀理解就是槽唾,假設(shè)在(t-1)時(shí)刻,馬爾可夫鏈到達(dá)平穩(wěn)狀態(tài)光涂,那么其所處的狀態(tài)盡可能保持穩(wěn)定庞萍。我們假設(shè)馬爾可夫鏈的狀態(tài)轉(zhuǎn)移概率為: T( xi | xj ),表示從狀態(tài) xj 轉(zhuǎn)移到狀態(tài) xi 的概率顶捷,則當(dāng)馬爾可夫鏈在某個(gè)時(shí)刻處于平穩(wěn)狀態(tài)時(shí)挂绰,需滿足:
這里馬爾可夫鏈狀態(tài)轉(zhuǎn)移概率的構(gòu)造至關(guān)重要,不同的構(gòu)造方式將產(chǎn)生不同的MCMC算法服赎。
[2]變分推斷(variational inference)
變分推斷通過使用已知簡單分布來逼近需推斷的復(fù)雜分布葵蒂,并通過限制近似分布的類型,從而得到一種局部最優(yōu)重虑、但具有確定解的近似后驗(yàn)分布践付。
變分推斷使用的近似分布需要具有良好的數(shù)值性質(zhì),通常是基于連續(xù)型變量的概率密度函數(shù)來刻畫的缺厉。
假設(shè)有 N 個(gè)可觀測(cè)變量 {x1, x2, ..., xN}永高,這 N 個(gè)變量均依賴于其它變量 z隧土,且 x 與 z 均服從分布參數(shù) θ。那么一般來說命爬,我們根據(jù)該概率圖模型的推斷與學(xué)習(xí)任務(wù)主要是由觀測(cè)到的變量 x 來估計(jì)隱變量 z 和分布參數(shù)變量?θ曹傀,即求解 p( z | x,θ ) 和?θ
通常我們可以使用極大似然函數(shù)和 EM 算法來進(jìn)行推斷,但是在現(xiàn)實(shí)任務(wù)中饲宛,推斷的過程可能因?yàn)?z 模型復(fù)雜而難以進(jìn)行皆愉。此時(shí)可借助變分推斷,假設(shè)隱變量 z 服從分布:q(z) = q1(z1) * q2(z2) * ... * qM(zM)
我們通過使用相對(duì)簡單或結(jié)構(gòu)更好的的分布 q 去近似 z 的后驗(yàn)分布 p( z | x,θ ) 即能在節(jié)省計(jì)算開銷的情況下得到所要概率分布
6)話題模型(topic model)
話題模型是一族生成式有向圖模型艇抠,主要用于處理離散型的數(shù)據(jù)(如文本集合)幕庐,在信息檢索、自然語言處理等領(lǐng)域有廣泛應(yīng)用家淤。
隱狄利克雷模型(Latent Dirichlet Allocation异剥,簡稱LDA)是話題模型的典型代表。
[1]基本概念
按照由小到大的順序絮重,話題模型涉及到的以下幾個(gè)概念:
詞(word):待處理數(shù)據(jù)的基本離散單元
文檔(document):待處理的數(shù)據(jù)對(duì)象冤寿,它由一組詞組成
話題(topic):話題表示一個(gè)概念,具體表示為一系列與該概念相關(guān)的詞绿鸣,以及它們?cè)谠摳拍钕鲁霈F(xiàn)的概率
詞袋(bag-of-words):文檔的表示方式疚沐,將文檔中的詞不計(jì)順序的存儲(chǔ)成一個(gè)詞的集合
比如在文本處理領(lǐng)域暂氯,LDA算法處理的對(duì)象是一篇篇文章潮模,不妨假設(shè)數(shù)據(jù)集中包含 K 個(gè)話題,T篇文檔痴施,文檔中的詞來自于一個(gè)包含 N 個(gè)詞的詞典擎厢。文檔以詞袋的形式表示 W = {w1, w2, ..., wt},wi表示第 i 篇文檔中 N 個(gè)詞分別的詞頻辣吃;同理 K 個(gè) N 維向量 B = {b1, b2, ..., bk} 用來表示 K 個(gè)話題
[2]模型介紹
在現(xiàn)實(shí)任務(wù)中动遭,我們可以通過統(tǒng)計(jì)文檔中的詞來獲得詞頻向量 W,但我們通常不清楚這組文檔都談?wù)摿四男┰掝}神得,也不知道每篇文檔與哪些話題有關(guān)厘惦。
狄利克雷模型以生成式模型的角度來看待文檔和話題,認(rèn)為文檔的話題分布滿足參數(shù)為?α 的 K 維狄利克雷分布哩簿,話題詞頻則依賴于參數(shù)為 η 的 N 維狄利克雷分布
通過?α 和 η宵蕉,我們可以分別得到文檔的話題分布 Θt?以及話題詞頻 Bk,由此可得到話題指派 z_tn (z_tn 表示第 t 個(gè)文檔的第 n 個(gè)詞所屬于的話題分布)以及最終的文檔詞頻 wt
實(shí)際上节榜,我們唯一能觀測(cè)到的變量只有 wt羡玛,但是通過極大似然估計(jì)以及變分法來進(jìn)行近似推斷,我們能獲得參數(shù)?α 和 η 的取值宗苍。
2. 基礎(chǔ)知識(shí)
1)狄利克雷函數(shù)
狄利克雷函數(shù)(英語:dirichlet function)是一個(gè)定義在實(shí)數(shù)范圍上稼稿、值域不連續(xù)的函數(shù)薄榛。
2)邊際分布(marginal distribution)
邊際分布是指對(duì)無關(guān)變量求和或積分的結(jié)果。例如對(duì)于 (x, y) 構(gòu)成的聯(lián)合概率分布中让歼,對(duì)于 x 的邊際分布為:
P(x) = P{ X < x } = P{ X < x, Y < 正無窮 }
3)大數(shù)定理
大數(shù)定律(law of large numbers)敞恋,是一種描述當(dāng)試驗(yàn)次數(shù)很大時(shí)所呈現(xiàn)的概率性質(zhì)的定律。在隨機(jī)事件的大量重復(fù)出現(xiàn)中谋右,往往呈現(xiàn)幾乎必然的規(guī)律耳舅,這個(gè)規(guī)律就是大數(shù)定律。通俗地說倚评,這個(gè)定理就是浦徊,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次天梧,隨機(jī)事件的頻率近似于它的概率盔性。偶然中包含著某種必然。
3. 總結(jié)
1)概率模型是一種將學(xué)習(xí)任務(wù)歸結(jié)于計(jì)算變量的概率分布的描述框架呢岗,概率模型的學(xué)習(xí)即基于訓(xùn)練樣本來估計(jì)變量的分布冕香。
2)概率圖模型是一類用圖來表達(dá)變量相關(guān)關(guān)系的概率模型
3)概率圖模型根據(jù)邊的性質(zhì)不同,大致可分為有向圖模型和無向圖模型
4)隱馬爾可夫模型是結(jié)構(gòu)最簡單的一種著名的有向圖模型后豫,其每一個(gè)節(jié)點(diǎn)代表系統(tǒng)所處的狀態(tài)悉尾,且該狀態(tài)只與其前置狀態(tài)有關(guān)
5)馬爾可夫隨機(jī)場是一種著名的無向圖模型,其用圖模型來表示屬性之間的相互獨(dú)立性挫酿,并且根據(jù)馬爾可夫性构眯,屬性的聯(lián)合概率可由極大團(tuán)的勢(shì)函數(shù)的乘積獲得
6)條件隨機(jī)場可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場,其將勢(shì)函數(shù)引入特征函數(shù)中來對(duì)條件概率進(jìn)行計(jì)算
7)基于概率圖模型定義的聯(lián)合概率分布早龟,我們需要對(duì)其中的目標(biāo)變量或者條件分布進(jìn)行推斷惫霸,根據(jù)推斷方法的不同可分為精確推斷,以及近似推斷
8)精確推斷包括利用乘法對(duì)加法的分配律葱弟,把多個(gè)變量的積的求和問題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問題的變量消去法壹店,以及將變量消去法中的求和操作看作一個(gè)消息傳遞的過程,較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問題的信念傳播法
9)近似推斷包括采樣以及變分推斷兩種方法芝加,前者是通過采樣來對(duì)目標(biāo)分布的期望進(jìn)行近似硅卢,后者是通過將目標(biāo)變量的分布分解為更為簡單或者結(jié)構(gòu)更好的分布的乘積來進(jìn)行近似
10)話題模型是一個(gè)具體的用在自然語言處理上的有向圖模型,通過使用極大似然估計(jì)法以及各種近似推斷方法來獲得訓(xùn)練樣本集的模型分布