【西瓜書】第14章概率圖模型

這一部分沒(méi)有參考資料逻杖，自己看書的時(shí)間也比較短，對(duì)于一些概念也比較模糊思瘟，參考了很多人的學(xué)習(xí)筆記荸百，整理摘抄。潮太。管搪。虾攻。。更鲁。霎箍。

---------------------------------------------引用? 作者：閃電隨筆? ?http://www.reibang.com/p/ffda16484509

1）概率模型是一種將學(xué)習(xí)任務(wù)歸結(jié)于計(jì)算變量的概率分布的描述框架，概率模型的學(xué)習(xí)即基于訓(xùn)練樣本來(lái)估計(jì)變量的分布澡为。

2）概率圖模型是一類用圖來(lái)表達(dá)變量相關(guān)關(guān)系的概率模型

3）概率圖模型根據(jù)邊的性質(zhì)不同漂坏，大致可分為有向圖模型和無(wú)向圖模型

4）隱馬爾可夫模型是結(jié)構(gòu)最簡(jiǎn)單的一種著名的有向圖模型，其每一個(gè)節(jié)點(diǎn)代表系統(tǒng)所處的狀態(tài)媒至，且該狀態(tài)只與其前置狀態(tài)有關(guān)

5）馬爾可夫隨機(jī)場(chǎng)是一種著名的無(wú)向圖模型顶别，其用圖模型來(lái)表示屬性之間的相互獨(dú)立性，并且根據(jù)馬爾可夫性拒啰，屬性的聯(lián)合概率可由極大團(tuán)的勢(shì)函數(shù)的乘積獲得

6）條件隨機(jī)場(chǎng)可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場(chǎng)驯绎，其將勢(shì)函數(shù)引入特征函數(shù)中來(lái)對(duì)條件概率進(jìn)行計(jì)算

7）基于概率圖模型定義的聯(lián)合概率分布，我們需要對(duì)其中的目標(biāo)變量或者條件分布進(jìn)行推斷谋旦，根據(jù)推斷方法的不同可分為精確推斷剩失，以及近似推斷

8）精確推斷包括利用乘法對(duì)加法的分配律，把多個(gè)變量的積的求和問(wèn)題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問(wèn)題的變量消去法册着，以及將變量消去法中的求和操作看作一個(gè)消息傳遞的過(guò)程拴孤，較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問(wèn)題的信念傳播法

9）近似推斷包括采樣以及變分推斷兩種方法，前者是通過(guò)采樣來(lái)對(duì)目標(biāo)分布的期望進(jìn)行近似甲捏，后者是通過(guò)將目標(biāo)變量的分布分解為更為簡(jiǎn)單或者結(jié)構(gòu)更好的分布的乘積來(lái)進(jìn)行近似

10）話題模型是一個(gè)具體的用在自然語(yǔ)言處理上的有向圖模型演熟，通過(guò)使用極大似然估計(jì)法以及各種近似推斷方法來(lái)獲得訓(xùn)練樣本集的模型分布，常用狄利克雷分布

隱馬爾科夫鏈模型

概率圖模型是一類用圖來(lái)表達(dá)變量相關(guān)關(guān)系的概率模型司顿，它以圖為表示工具芒粹，最常見的是用一個(gè)結(jié)點(diǎn)表示一個(gè)或一組隨機(jī)變量，結(jié)點(diǎn)之間的邊表示變量間的概率相關(guān)關(guān)系免猾。第一類是使用有向無(wú)環(huán)圖表示變量間的依賴關(guān)系是辕，稱為有向圖模型或貝葉斯網(wǎng)；第二類使用無(wú)向圖表示變量間的關(guān)系，稱為無(wú)向圖模型或馬爾可夫網(wǎng)。

什么是馬爾可夫過(guò)程

《概率論與數(shù)理統(tǒng)計(jì)》P319

過(guò)程（或系統(tǒng)）在時(shí)刻t0所處的狀態(tài)為已知的條件下踩叭，過(guò)程在時(shí)刻t>t0所處狀態(tài)的條件分布與過(guò)程在時(shí)刻t0之前所處的狀態(tài)無(wú)關(guān)耿币。通俗講，就是已經(jīng)知道過(guò)程現(xiàn)在的條件下棺聊，其將來(lái)不依賴過(guò)去伞租。

時(shí)間和狀態(tài)都是離散的馬爾可夫過(guò)程稱為馬爾可夫鏈

下面是惡補(bǔ)概率論與數(shù)理統(tǒng)計(jì)的內(nèi)容：

條件概率 $P_{ij}(m,m+n)=P\{X_{m+n}=a_j|X_m=a_j\}$

為馬氏鏈在時(shí)刻m處于ai條件下，在時(shí)刻m+n轉(zhuǎn)移到狀態(tài)aj的轉(zhuǎn)移概率限佩，由于鏈在時(shí)刻m從任何一個(gè)狀態(tài)a出發(fā)葵诈，到另一時(shí)刻m+n裸弦，必然轉(zhuǎn)移到a1,a2……諸狀態(tài)中的某一個(gè)，所以 $\sum_{j=1}^{+\infty}P_{ij}(m,m+n)=1 \quad i=1,2,……$

當(dāng)轉(zhuǎn)移概率僅與i作喘，j及時(shí)間間距n有關(guān)時(shí)理疙，把它記為Pij（n）,即 $P_{ij}(m,m+n)=P_{ij}(n)$

并成此轉(zhuǎn)移概率具有平穩(wěn)性，也稱此鏈為齊次或時(shí)齊的泞坦。

隱馬爾可夫模型（Hidden Markov Model窖贤，簡(jiǎn)稱HMM）是結(jié)構(gòu)最簡(jiǎn)單的動(dòng)態(tài)貝葉斯網(wǎng)（dynamic Bayesian network），這是一種著名的有向圖模型贰锁，主要用于時(shí)序數(shù)據(jù)建模赃梧，在語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用豌熄。

隱馬爾可夫模型中的變量可分為兩組授嘀。第一組是狀態(tài)變量{y1，y2锣险，…蹄皱，yn}，其中囱持，yi∈Y表示第i時(shí)刻的系統(tǒng)狀態(tài)夯接。通常假定狀態(tài)變量是隱藏的、不可被觀測(cè)的纷妆，因此狀態(tài)變量亦稱隱變量（hidden variable）盔几。第二組是觀測(cè)變量{x1，x2掩幢，…逊拍，xn}，其中际邻，xi∈X表示第i時(shí)刻的觀測(cè)值芯丧。在隱馬爾可夫模型中，系統(tǒng)通常在多個(gè)狀態(tài){s1世曾，s2缨恒，…，sN}之間轉(zhuǎn)換轮听。

在任一時(shí)刻骗露，觀測(cè)變量的取值僅依賴于狀態(tài)變量，即xt由yt確定血巍，與其他狀態(tài)變量及觀測(cè)變量的取值無(wú)關(guān)萧锉。同時(shí)，t時(shí)刻的狀態(tài)yt僅依賴于

t-1時(shí)刻的狀態(tài)yt-1述寡，與其余n-2個(gè)狀態(tài)無(wú)關(guān)柿隙。這就是所謂的“馬爾可夫鏈”（Markov chain）叶洞，即：系統(tǒng)下一時(shí)刻的狀態(tài)僅由當(dāng)前狀態(tài)決定，不依賴于以往的任何狀態(tài)禀崖。

基于上述變量之間的依賴關(guān)系衩辟，隱馬爾可夫模型中所有變量的聯(lián)合概率分布：

yi的概率僅依賴于yi-1

o是x的取值范圍

當(dāng)確定了一個(gè)HMM模型的三個(gè)參數(shù)后，便按照下面的規(guī)則來(lái)生成觀測(cè)值序列：

西瓜書截圖

（1）用初始狀態(tài)概率π 算出初始狀態(tài) y0

（2）用 B 算出當(dāng)前狀態(tài)的觀測(cè)值 xt

（3）用 A 算出下一個(gè)狀態(tài) yt+1

西瓜書給予的這三個(gè)問(wèn)題帆焕，下面會(huì)有相應(yīng)的求解

1.如何根據(jù)以往的觀測(cè)序列求解當(dāng)前時(shí)刻最有可能的觀測(cè)值惭婿，顯式求解P(x|λ)

2.根據(jù)觀測(cè)信號(hào)來(lái)推斷可能的撞他序列

3.如何根據(jù)訓(xùn)練樣本學(xué)得最優(yōu)的模型參數(shù)

14.2 馬爾可夫隨機(jī)場(chǎng)

馬爾可夫隨機(jī)場(chǎng)（Markov Random Field）是一種典型的馬爾可夫網(wǎng)，即使用無(wú)向邊來(lái)表達(dá)變量間的依賴關(guān)系叶雹。

在馬爾可夫隨機(jī)場(chǎng)中财饥，對(duì)于關(guān)系圖中的一個(gè)子集，若任意兩結(jié)點(diǎn)間都有邊連接折晦，則稱該子集為一個(gè)團(tuán)钥星；若再加一個(gè)結(jié)點(diǎn)便不能形成團(tuán)，則稱該子集為極大團(tuán)满着。

什么是隨機(jī)場(chǎng)

在概率論中, 由樣本空間Ω = {0, 1, …,?G???1}n取樣構(gòu)成的隨機(jī)變量Xi所組成的S?= {X1, …,?Xn}谦炒。若對(duì)所有的ω∈Ω下式均成立，則稱π為一個(gè)隨機(jī)場(chǎng)风喇。

π(ω) > 0.

當(dāng)給每一個(gè)位置中按照某種分布隨機(jī)賦予相空間的一個(gè)值之后宁改，其全體就叫做隨機(jī)場(chǎng)。我們不妨拿種地來(lái)打個(gè)比方魂莫。其中有兩個(gè)概念：位置（site）还蹲，相空間（phase space）“铱迹“位置”好比是一畝畝農(nóng)田谜喊；“相空間”好比是種的各種莊稼。我們可以給不同的地種上不同的莊稼倦始，這就好比給隨機(jī)場(chǎng)的每個(gè)“位置”斗遏，賦予相空間里不同的值。所以鞋邑，俗氣點(diǎn)說(shuō)诵次，隨機(jī)場(chǎng)就是在哪塊地里種什么莊稼的事情

引入團(tuán)概念的原因是什么呢？

其實(shí)很簡(jiǎn)單枚碗，就是為了能更方便的計(jì)算變量x的聯(lián)合概率藻懒。根據(jù)馬爾可夫特性，每個(gè)變量只與其鄰接結(jié)點(diǎn)相關(guān)视译，那么多個(gè)變量之間的聯(lián)合概率分布能基于團(tuán)分解為多個(gè)因子的乘積。具體來(lái)說(shuō)归敬，對(duì)于 n 個(gè)變量 x = {x1, x2, ..., xn}酷含，所有團(tuán)構(gòu)成的集合為 C鄙早，與團(tuán) Q 屬于 C 對(duì)應(yīng)的變量集合記為 xQ，則聯(lián)合概率 P(x) 定義為：

其中 Z 為規(guī)范化因子椅亚，被連乘的函數(shù)代表的是團(tuán) Q 對(duì)應(yīng)的勢(shì)函數(shù)限番，勢(shì)函數(shù)的作用是定量刻畫變量集 xQ 中變量之間的相關(guān)關(guān)系。??

對(duì)于條件獨(dú)立性呀舔，馬爾可夫隨機(jī)場(chǎng)通過(guò)分離集來(lái)實(shí)現(xiàn)條件獨(dú)立弥虐，若A結(jié)點(diǎn)集必須經(jīng)過(guò)C結(jié)點(diǎn)集才能到達(dá)B結(jié)點(diǎn)集，則稱C為分離集媚赖。

基于分離集的概念霜瘪，得到了MRF的三個(gè)性質(zhì)：

全局馬爾可夫性：給定兩個(gè)變量子集的分離集，則這兩個(gè)變量子集條件獨(dú)立惧磺。

局部馬爾可夫性：給定某變量的鄰接變量颖对，則該變量與其它變量條件獨(dú)立。

成對(duì)馬爾可夫性：給定所有其他變量磨隘，兩個(gè)非鄰接變量條件獨(dú)立缤底。

書中給了一個(gè)例子對(duì)勢(shì)函數(shù)進(jìn)行了講解：

勢(shì)函數(shù)是刻畫變量之間的相互關(guān)系

指數(shù)函數(shù)定義為勢(shì)函數(shù)

14.3 條件隨機(jī)場(chǎng)（CRF）

條件隨機(jī)場(chǎng)是一種判別式無(wú)向圖模型，生成式模型直接對(duì)聯(lián)合分布進(jìn)行建模番捂，判別式模型對(duì)條件分布進(jìn)行建模个唧。前邊介紹的隱馬爾可夫模型和馬爾可夫隨機(jī)場(chǎng)都是“生成式”模型，设预。而條件隨機(jī)場(chǎng)是“判別式”模型徙歼，即給定觀測(cè)數(shù)據(jù)｛x1, x2, ..., xn｝以及對(duì)應(yīng)的標(biāo)記數(shù)據(jù)｛y1, y2, ..., yn｝，構(gòu)建條件概率模型 P( y | x )絮缅。它可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場(chǎng)鲁沥。

標(biāo)記變量y可以是結(jié)構(gòu)型變量，其分量之間具有某種相關(guān)性

yv滿足馬爾可夫性

書中舉出的例子也是對(duì)上一概念的說(shuō)明耕魄，標(biāo)記變量之間條件獨(dú)立

與馬爾可夫隨機(jī)場(chǎng)類似画恰，條件隨機(jī)場(chǎng)也使用了合適的“勢(shì)函數(shù)”來(lái)計(jì)算所要求的條件概率，只不過(guò)條件隨機(jī)場(chǎng)是將勢(shì)函數(shù)引入特征函數(shù)（feature function）中來(lái)進(jìn)行計(jì)算的吸奴。

什么是特征函數(shù)允扇？

特征函數(shù)通常是實(shí)值函數(shù)，以刻畫數(shù)據(jù)的一些很可能成立或期望成立的經(jīng)驗(yàn)特征则奥。

借鑒別人例子（統(tǒng)計(jì)學(xué)習(xí)方法中也出現(xiàn)了同樣的第二版97頁(yè)考润，關(guān)于最大熵模型中的特征函數(shù)，說(shuō)的不是很清楚读处，就引入）

可以引入特征函數(shù)

y滿足馬爾可夫糊治，當(dāng)前值只和前一狀態(tài)的值有關(guān)

經(jīng)驗(yàn)上來(lái)說(shuō)，第 i 個(gè)觀測(cè)值為“knock”時(shí)罚舱，其相應(yīng)的標(biāo)記 y_i 和 y_i+1 很可能分別為 [V] 和 [P]

引入狀態(tài)特征函數(shù)

條件概率定義為：

以詞性標(biāo)注為例井辜，如何判斷給出的一個(gè)標(biāo)注序列靠譜不靠譜呢绎谦？

轉(zhuǎn)移特征函數(shù)主要判定兩個(gè)相鄰的標(biāo)注是否合理，例如：動(dòng)詞+動(dòng)詞顯然語(yǔ)法不通粥脚；狀態(tài)特征函數(shù)則判定觀測(cè)值與對(duì)應(yīng)的標(biāo)注是否合理窃肠，例如： ly結(jié)尾的詞–>副詞較合理。

因此我們可以定義一個(gè)特征函數(shù)集合刷允，用這個(gè)特征函數(shù)集合來(lái)為一個(gè)標(biāo)注序列打分冤留，并據(jù)此選出最靠譜的標(biāo)注序列。也就是說(shuō)树灶，每一個(gè)特征函數(shù)（對(duì)應(yīng)一種規(guī)則）都可以用來(lái)為一個(gè)標(biāo)注序列評(píng)分纤怒，把集合中所有特征函數(shù)對(duì)同一個(gè)標(biāo)注序列的評(píng)分綜合起來(lái)，就是這個(gè)標(biāo)注序列最終的評(píng)分值破托》景希可以看出：特征函數(shù)是一些經(jīng)驗(yàn)的特性（一般特征函數(shù)的選擇需要有對(duì)該領(lǐng)域比較深厚的知識(shí)來(lái)確定特征函數(shù)是什么類型）。

14.4 學(xué)習(xí)與判斷

其中聯(lián)合概率 $P(x_E, x_F)$ 可基于概率圖模型獲得土砂，因此州既，推斷問(wèn)題的關(guān)鍵就是如何高效的計(jì)算邊際分布，即上式的分母部分萝映。

概率圖模型的推斷方法大致可以分為兩類：第一類是精確推斷方法吴叶，希望能計(jì)算出目標(biāo)變量的邊際分布或條件分布的精確值；遺憾的是序臂，一般情況下蚌卤，此類算法的計(jì)算復(fù)雜度隨著極大團(tuán)數(shù)量的增長(zhǎng)呈指數(shù)增長(zhǎng)，適用范圍有限奥秆。第二類是近似推斷方法逊彭，希望在較低的時(shí)間復(fù)雜度下獲得原問(wèn)題的近似解；此類方法在現(xiàn)實(shí)任務(wù)中更常見构订。

14.4.1 變量消去

變量消去是精確推斷方法

這個(gè)例子在概率論P(yáng)324有一個(gè)例題

變量消去算法通過(guò)利用乘法對(duì)加法的分配律侮叮，把多個(gè)變量的積的求和問(wèn)題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問(wèn)題。這種轉(zhuǎn)換使得每次的求和和求積運(yùn)算限制在局部悼瘾，僅與部分變量有關(guān)囊榜，從而簡(jiǎn)化了計(jì)算。

變量消去法有一個(gè)明顯的缺點(diǎn)亥宿，那就是若需計(jì)算多個(gè)邊際概率卸勺，會(huì)造成大量冗余計(jì)算。下一小節(jié)的信念傳播算法就很好的解決了這個(gè)問(wèn)題烫扼。

14.2.2 信念傳播

信念傳播算法將變量消去法中的求和操作看作一個(gè)消息傳遞的過(guò)程曙求，較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問(wèn)題。

在變量消去算法的計(jì)算過(guò)程中，通過(guò)求和操作消去變量的過(guò)程 mij(xj)圆到，我們可以看作是從 xi 向 xj 傳遞消息的過(guò)程怎抛。

通過(guò)觀測(cè)不難發(fā)現(xiàn)，每次消息的傳遞操作僅與變量 x 的鄰接結(jié)點(diǎn)直接相關(guān)芽淡，換言之，消息傳遞相關(guān)的計(jì)算被限制在圖的局部進(jìn)行豆赏。

在信念傳播算法中挣菲，一個(gè)結(jié)點(diǎn)僅在接收到來(lái)自其它所有結(jié)點(diǎn)的消息后才能向下一個(gè)結(jié)點(diǎn)傳遞信息，且結(jié)點(diǎn)的邊際分布正比于它所接收的消息的乘積掷邦。

若圖結(jié)構(gòu)中沒(méi)有環(huán)白胀，則信念傳播算法經(jīng)過(guò)兩個(gè)步驟即可完成所有消息傳遞，進(jìn)而能計(jì)算所有變量上的邊際分布：

1.指定一個(gè)根結(jié)點(diǎn)抚岗，從所有葉結(jié)點(diǎn)向根結(jié)點(diǎn)傳遞信息或杠，直到所有根結(jié)點(diǎn)收到所有鄰接結(jié)點(diǎn)的信息

2.從根結(jié)點(diǎn)向葉結(jié)點(diǎn)傳遞消息，直到所有葉結(jié)點(diǎn)都接收到消息

例如在下邊的圖結(jié)構(gòu)中宣蔚，我們令 x1 為根結(jié)點(diǎn)向抢，則 x4 與 x5 為葉結(jié)點(diǎn)，則以上兩步的消息傳遞過(guò)程如下胚委。此時(shí)圖的每條邊上都有方向不同的兩條信息挟鸠，基于這些消息以及上一小節(jié)的公式，即可得到所有變量的邊際概率??

14.5 近似推斷

精確推斷方法通常需要很大的計(jì)算開銷亩冬，因此在現(xiàn)實(shí)應(yīng)用中近似推斷方法更為常用艘希。近似推斷方法大致可分為兩大類：

第一類是采樣（sampling）通過(guò)使用隨機(jī)化方法完成近似

第二類是使用確定性近似完成近似推斷，典型代表為變分推斷（variational inference）

14.5.1 MCMC采樣

概率圖模型中最常用的采用技術(shù)是馬爾可夫鏈蒙特卡羅（Markov Chain Monte Carlo硅急，簡(jiǎn)稱MCMC）方法覆享。

簡(jiǎn)單來(lái)說(shuō)，若已知變量 x 的概率密度函數(shù) p(x)营袜，那么我要要求 y = f(x) 的期望時(shí)撒顿，我們就不需要去計(jì)算出條件概率 P(y|x) 了，只需要計(jì)算 f(x) 在多個(gè)樣本 {x1, x2, x3, ..., xn}上的 f(xi) 的均值连茧，或者在一定范圍取值內(nèi)的積分核蘸。根據(jù)大數(shù)定理，這種通過(guò)大量采樣的辦法就能獲得較高的近似精度啸驯。

MCMC方法就是概率圖模型中最常用的采樣技術(shù)客扎。對(duì)高維多元變量 x，MCMC采樣通過(guò)構(gòu)造“平穩(wěn)分布為 p 的馬爾可夫鏈”來(lái)產(chǎn)生樣本罚斗。

14.5.2 變分推斷

變分推斷通過(guò)使用已知簡(jiǎn)單分布來(lái)逼近所需推斷的復(fù)雜分布徙鱼，并通過(guò)限制近似分布的類型，從而得到一種局部最優(yōu)、但具有確定解的近似后驗(yàn)分布袱吆。

變分推斷使用的近似分布需要具有良好的數(shù)值性質(zhì)厌衙，通常是基于連續(xù)型變量的概率密度函數(shù)來(lái)刻畫的。

通過(guò)z來(lái)估計(jì)x分布绞绒，EM算法

假設(shè)有 N 個(gè)可觀測(cè)變量 {x1, x2, ..., xN}婶希，這 N 個(gè)變量均依賴于其它變量 z，且 x 與 z 均服從分布參數(shù) θ蓬衡。那么一般來(lái)說(shuō)喻杈，我們根據(jù)該概率圖模型的推斷與學(xué)習(xí)任務(wù)主要是由觀測(cè)到的變量 x 來(lái)估計(jì)隱變量 z 和分布參數(shù)變量?θ，即求解 p( z | x,θ ) 和?θ

通常我們可以使用極大似然函數(shù)和 EM 算法來(lái)進(jìn)行推斷狰晚，但是在現(xiàn)實(shí)任務(wù)中筒饰，推斷的過(guò)程可能因?yàn)?z 模型復(fù)雜而難以進(jìn)行。此時(shí)可借助變分推斷壁晒，假設(shè)隱變量 z 服從分布：q(z) = q1(z1) * q2(z2) * ... * qM(zM)

我們通過(guò)使用相對(duì)簡(jiǎn)單或結(jié)構(gòu)更好的的分布 q 去近似 z 的后驗(yàn)分布 p( z | x,θ ) 即能在節(jié)省計(jì)算開銷的情況下得到所要概率分布

14.6 話題模型

話題模型是一族生成式有向圖模型瓷们，主要用于處理離散型的數(shù)據(jù)（如文本集合），在信息檢索秒咐、自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用谬晕。

隱狄利克雷模型（Latent Dirichlet Allocation，簡(jiǎn)稱LDA）是話題模型的典型代表反镇。

基本概念

按照由小到大的順序固蚤，話題模型涉及到的以下幾個(gè)概念：

詞（word）：待處理數(shù)據(jù)的基本離散單元

文檔（document）：待處理的數(shù)據(jù)對(duì)象，它由一組詞組成

話題（topic）：話題表示一個(gè)概念歹茶，具體表示為一系列與該概念相關(guān)的詞夕玩，以及它們?cè)谠摳拍钕鲁霈F(xiàn)的概率

詞袋（bag-of-words）：文檔的表示方式，將文檔中的詞不計(jì)順序的存儲(chǔ)成一個(gè)詞的集合

比如在文本處理領(lǐng)域惊豺，LDA算法處理的對(duì)象是一篇篇文章燎孟，不妨假設(shè)數(shù)據(jù)集中包含 K 個(gè)話題，T篇文檔尸昧，文檔中的詞來(lái)自于一個(gè)包含 N 個(gè)詞的詞典揩页。文檔以詞袋的形式表示 W = {w1, w2, ..., wt}，wi表示第 i 篇文檔中 N 個(gè)詞分別的詞頻烹俗；同理 K 個(gè) N 維向量 B = {b1, b2, ..., bk} 用來(lái)表示 K 個(gè)話題

模型介紹

在現(xiàn)實(shí)任務(wù)中爆侣，我們可以通過(guò)統(tǒng)計(jì)文檔中的詞來(lái)獲得詞頻向量 W，但我們通常不清楚這組文檔都談?wù)摿四男┰掝}幢妄，也不知道每篇文檔與哪些話題有關(guān)兔仰。

狄利克雷模型以生成式模型的角度來(lái)看待文檔和話題，認(rèn)為文檔的話題分布滿足參數(shù)為?α 的 K 維狄利克雷分布蕉鸳，話題詞頻則依賴于參數(shù)為 η 的 N 維狄利克雷分布

通過(guò)?α 和 η乎赴，我們可以分別得到文檔的話題分布 Θt?以及話題詞頻 Bk忍法，由此可得到話題指派 z_tn （z_tn 表示第 t 個(gè)文檔的第 n 個(gè)詞所屬于的話題分布）以及最終的文檔詞頻 wt

實(shí)際上，我們唯一能觀測(cè)到的變量只有 wt榕吼，但是通過(guò)極大似然估計(jì)以及變分法來(lái)進(jìn)行近似推斷饿序，我們能獲得參數(shù)?α 和 η 的取值。

LDA的參數(shù)估計(jì)（吉布斯采樣）

在LDA最初提出的時(shí)候羹蚣，人們使用EM算法進(jìn)行求解原探。

后來(lái)人們普遍開始使用較為簡(jiǎn)單的Gibbs Sampling（吉布斯采樣），具體過(guò)程如下：

1.首先對(duì)所有文檔中的所有詞遍歷一遍度宦，為其都隨機(jī)分配一個(gè)主題踢匣，即zm,n=k~Mult(1/K),其中m表示第m篇文檔，n表示文檔中的第n個(gè)詞戈抄，k表示主題，K表示主題的總數(shù)后专，之后將對(duì)應(yīng)的n(k)m+1, nm+1, n(t)k+1, nk+1, 他們分別表示在m文檔中k主題出現(xiàn)的次數(shù)划鸽，m文檔中主題數(shù)量的和??(可重復(fù)的，所以應(yīng)該就是文檔中詞的個(gè)數(shù)戚哎，不變的量)??裸诽，k主題對(duì)應(yīng)的t詞的次數(shù)，k主題對(duì)應(yīng)的總詞數(shù)（n(k)m等等初始化為0）型凳。

2.之后對(duì)下述操作進(jìn)行重復(fù)迭代丈冬。

對(duì)所有文檔中的所有詞進(jìn)行遍歷，假如當(dāng)前文檔m的詞t對(duì)應(yīng)主題為k甘畅，則n(k)m-1, nm-1, n(t)k-1, nk-1, 即先拿出當(dāng)前詞埂蕊，之后根據(jù)LDA中topic sample的概率分布采樣出新主題，在對(duì)應(yīng)的n(k)m, nm, n(t)k, nk上分別+1疏唾。

迭代完成后輸出主題-詞參數(shù)矩陣φ和文檔-主題矩陣θ

從這里看出蓄氧，gibbs采樣方法求解 LDA 最重要的是條件概率p(zi | z-i,w)的計(jì)算上。

下文對(duì)狄利克雷分布進(jìn)行了通俗的講解：

https://blog.csdn.net/guleileo/article/details/80971601

-----------------------------------所用到一些參考的定義---------------------------------------------------------------------

1）狄利克雷函數(shù)

狄利克雷函數(shù)（英語(yǔ)：dirichlet function）是一個(gè)定義在實(shí)數(shù)范圍上槐脏、值域不連續(xù)的函數(shù)喉童。

2）邊際分布（marginal distribution）

邊際分布是指對(duì)無(wú)關(guān)變量求和或積分的結(jié)果。例如對(duì)于 (x, y) 構(gòu)成的聯(lián)合概率分布中顿天，對(duì)于 x 的邊際分布為：

P(x) = P{ X < x } = P{ X < x, Y < 正無(wú)窮 }

3）大數(shù)定理

大數(shù)定律(law of large numbers)堂氯，是一種描述當(dāng)試驗(yàn)次數(shù)很大時(shí)所呈現(xiàn)的概率性質(zhì)的定律。在隨機(jī)事件的大量重復(fù)出現(xiàn)中牌废，往往呈現(xiàn)幾乎必然的規(guī)律咽白，這個(gè)規(guī)律就是大數(shù)定律。通俗地說(shuō)畔规，這個(gè)定理就是局扶，在試驗(yàn)不變的條件下，重復(fù)試驗(yàn)多次，隨機(jī)事件的頻率近似于它的概率三妈。偶然中包含著某種必然畜埋。

參考 CSDN博主「MLcongcongAI」的原創(chuàng)文章? 原文鏈接：https://blog.csdn.net/MLcongcongAI/article/details/88137005

和https://blog.csdn.net/weixin_34261739/article/details/87444627

最后編輯于：2019.08.10 15:05:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市畴蒲，隨后出現(xiàn)的幾起案子悠鞍，更是在濱河造成了極大的恐慌，老刑警劉巖模燥，帶你破解...
沈念sama閱讀 223,126評(píng)論 6贊 520
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件咖祭，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡蔫骂，警方通過(guò)查閱死者的電腦和手機(jī)么翰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,421評(píng)論 3贊 400
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)辽旋，“玉大人浩嫌，你說(shuō)我怎么就攤上這事〔古撸” “怎么了码耐？”我有些...
開封第一講書人閱讀 169,941評(píng)論 0贊 366
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)溶其。經(jīng)常有香客問(wèn)我骚腥，道長(zhǎng)，這世上最難降的妖魔是什么瓶逃？我笑而不...
開封第一講書人閱讀 60,294評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任束铭，我火速辦了婚禮，結(jié)果婚禮上金闽，老公的妹妹穿的比我還像新娘纯露。我一直安慰自己，他們只是感情好代芜，可當(dāng)我...
茶點(diǎn)故事閱讀 69,295評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布埠褪。她就那樣靜靜地躺著，像睡著了一般挤庇。火紅的嫁衣襯著肌膚如雪钞速。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,874評(píng)論 1贊 314
城市分裂傳說(shuō)
那天嫡秕，我揣著相機(jī)與錄音渴语，去河邊找鬼。笑死昆咽，一個(gè)胖子當(dāng)著我的面吹牛驾凶，可吹牛的內(nèi)容都是我干的牙甫。我是一名探鬼主播，決...
沈念sama閱讀 41,285評(píng)論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼调违，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼窟哺！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起技肩，我...
開封第一講書人閱讀 40,249評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤虚婿，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后然痊，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體至朗，經(jīng)...
沈念sama閱讀 46,760評(píng)論 1贊 321
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡剧浸，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,840評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辛蚊。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,973評(píng)論 1贊 354
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡真仲，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出秸应，到底是詐尸還是另有隱情，我是刑警寧澤桑谍，帶...
沈念sama閱讀 36,631評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布锣披，位于F島的核電站，受9級(jí)特大地震影響雹仿，放射性物質(zhì)發(fā)生泄漏整以。R本人自食惡果不足惜公黑，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,315評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一摄咆、第九天我趴在偏房一處隱蔽的房頂上張望人断。院中可真熱鬧，春花似錦含鳞、人聲如沸蝉绷。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,797評(píng)論 0贊 25
一樁弒父案熔吗，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)桅狠。三九已至，卻和暖如春中跌，著一層夾襖步出監(jiān)牢的瞬間漩符，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,926評(píng)論 1贊 275
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工凸克，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留闷沥，地道東北人舆逃。一個(gè)月前我還...
沈念sama閱讀 49,431評(píng)論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像鸟雏，于是被迫代替她去往敵國(guó)和親览祖。傳聞我的和親對(duì)象是個(gè)殘疾皇子展蒂，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,982評(píng)論 2贊 361

【西瓜書】 第14章 概率圖模型