【西瓜書】 第14章 概率圖模型

這一部分沒(méi)有參考資料逻杖,自己看書的時(shí)間也比較短,對(duì)于一些概念也比較模糊思瘟,參考了很多人的學(xué)習(xí)筆記荸百,整理摘抄。潮太。管搪。虾攻。。更鲁。霎箍。

---------------------------------------------引用? 作者:閃電隨筆? ?http://www.reibang.com/p/ffda16484509

1)概率模型是一種將學(xué)習(xí)任務(wù)歸結(jié)于計(jì)算變量的概率分布的描述框架,概率模型的學(xué)習(xí)即基于訓(xùn)練樣本來(lái)估計(jì)變量的分布澡为。

2)概率圖模型是一類用圖來(lái)表達(dá)變量相關(guān)關(guān)系的概率模型

3)概率圖模型根據(jù)邊的性質(zhì)不同漂坏,大致可分為有向圖模型和無(wú)向圖模型

4)隱馬爾可夫模型是結(jié)構(gòu)最簡(jiǎn)單的一種著名的有向圖模型,其每一個(gè)節(jié)點(diǎn)代表系統(tǒng)所處的狀態(tài)媒至,且該狀態(tài)只與其前置狀態(tài)有關(guān)

5)馬爾可夫隨機(jī)場(chǎng)是一種著名的無(wú)向圖模型顶别,其用圖模型來(lái)表示屬性之間的相互獨(dú)立性,并且根據(jù)馬爾可夫性拒啰,屬性的聯(lián)合概率可由極大團(tuán)的勢(shì)函數(shù)的乘積獲得

6)條件隨機(jī)場(chǎng)可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場(chǎng)驯绎,其將勢(shì)函數(shù)引入特征函數(shù)中來(lái)對(duì)條件概率進(jìn)行計(jì)算

7)基于概率圖模型定義的聯(lián)合概率分布,我們需要對(duì)其中的目標(biāo)變量或者條件分布進(jìn)行推斷谋旦,根據(jù)推斷方法的不同可分為精確推斷剩失,以及近似推斷

8)精確推斷包括利用乘法對(duì)加法的分配律,把多個(gè)變量的積的求和問(wèn)題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問(wèn)題的變量消去法册着,以及將變量消去法中的求和操作看作一個(gè)消息傳遞的過(guò)程拴孤,較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問(wèn)題的信念傳播法

9)近似推斷包括采樣以及變分推斷兩種方法,前者是通過(guò)采樣來(lái)對(duì)目標(biāo)分布的期望進(jìn)行近似甲捏,后者是通過(guò)將目標(biāo)變量的分布分解為更為簡(jiǎn)單或者結(jié)構(gòu)更好的分布的乘積來(lái)進(jìn)行近似

10)話題模型是一個(gè)具體的用在自然語(yǔ)言處理上的有向圖模型演熟,通過(guò)使用極大似然估計(jì)法以及各種近似推斷方法來(lái)獲得訓(xùn)練樣本集的模型分布,常用狄利克雷分布



隱馬爾科夫鏈模型

概率圖模型是一類用圖來(lái)表達(dá)變量相關(guān)關(guān)系的概率模型司顿,它以圖為表示工具芒粹,最常見的是用一個(gè)結(jié)點(diǎn)表示一個(gè)或一組隨機(jī)變量,結(jié)點(diǎn)之間的邊表示變量間的概率相關(guān)關(guān)系免猾。第一類是使用有向無(wú)環(huán)圖表示變量間的依賴關(guān)系是辕,稱為有向圖模型或貝葉斯網(wǎng);第二類使用無(wú)向圖表示變量間的關(guān)系,稱為無(wú)向圖模型或馬爾可夫網(wǎng)。

什么是馬爾可夫過(guò)程

《概率論與數(shù)理統(tǒng)計(jì)》P319

過(guò)程(或系統(tǒng))在時(shí)刻t0所處的狀態(tài)為已知的條件下踩叭,過(guò)程在時(shí)刻t>t0所處狀態(tài)的條件分布與過(guò)程在時(shí)刻t0之前所處的狀態(tài)無(wú)關(guān)耿币。通俗講,就是已經(jīng)知道過(guò)程現(xiàn)在的條件下棺聊,其將來(lái)不依賴過(guò)去伞租。

時(shí)間和狀態(tài)都是離散的馬爾可夫過(guò)程稱為馬爾可夫鏈

下面是惡補(bǔ)概率論與數(shù)理統(tǒng)計(jì)的內(nèi)容:

條件概率P_{ij}(m,m+n)=P\{X_{m+n}=a_j|X_m=a_j\}

為馬氏鏈在時(shí)刻m處于ai條件下,在時(shí)刻m+n轉(zhuǎn)移到狀態(tài)aj的轉(zhuǎn)移概率限佩,由于鏈在時(shí)刻m從任何一個(gè)狀態(tài)a出發(fā)葵诈,到另一時(shí)刻m+n裸弦,必然轉(zhuǎn)移到a1,a2……諸狀態(tài)中的某一個(gè),所以\sum_{j=1}^{+\infty}P_{ij}(m,m+n)=1 \quad i=1,2,……

當(dāng)轉(zhuǎn)移概率僅與i作喘,j及時(shí)間間距n有關(guān)時(shí)理疙,把它記為Pij(n),即P_{ij}(m,m+n)=P_{ij}(n)

并成此轉(zhuǎn)移概率具有平穩(wěn)性,也稱此鏈為齊次或時(shí)齊的泞坦。

隱馬爾可夫模型(Hidden Markov Model窖贤,簡(jiǎn)稱HMM)是結(jié)構(gòu)最簡(jiǎn)單的動(dòng)態(tài)貝葉斯網(wǎng)(dynamic Bayesian network),這是一種著名的有向圖模型贰锁,主要用于時(shí)序數(shù)據(jù)建模赃梧,在語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用豌熄。

隱馬爾可夫模型中的變量可分為兩組授嘀。第一組是狀態(tài)變量{y1,y2锣险,…蹄皱,yn},其中囱持,yi∈Y表示第i時(shí)刻的系統(tǒng)狀態(tài)夯接。通常假定狀態(tài)變量是隱藏的、不可被觀測(cè)的纷妆,因此狀態(tài)變量亦稱隱變量(hidden variable)盔几。第二組是觀測(cè)變量{x1,x2掩幢,…逊拍,xn},其中际邻,xi∈X表示第i時(shí)刻的觀測(cè)值芯丧。在隱馬爾可夫模型中,系統(tǒng)通常在多個(gè)狀態(tài){s1世曾,s2缨恒,…,sN}之間轉(zhuǎn)換轮听。

在任一時(shí)刻骗露,觀測(cè)變量的取值僅依賴于狀態(tài)變量,即xt由yt確定血巍,與其他狀態(tài)變量及觀測(cè)變量的取值無(wú)關(guān)萧锉。同時(shí),t時(shí)刻的狀態(tài)yt僅依賴于

t-1時(shí)刻的狀態(tài)yt-1述寡,與其余n-2個(gè)狀態(tài)無(wú)關(guān)柿隙。這就是所謂的“馬爾可夫鏈”(Markov chain)叶洞,即:系統(tǒng)下一時(shí)刻的狀態(tài)僅由當(dāng)前狀態(tài)決定,不依賴于以往的任何狀態(tài)禀崖。

基于上述變量之間的依賴關(guān)系衩辟,隱馬爾可夫模型中所有變量的聯(lián)合概率分布:

yi的概率僅依賴于yi-1


o是x的取值范圍

當(dāng)確定了一個(gè)HMM模型的三個(gè)參數(shù)后,便按照下面的規(guī)則來(lái)生成觀測(cè)值序列:

西瓜書截圖

(1)用初始狀態(tài)概率π 算出初始狀態(tài) y0

(2)用 B 算出當(dāng)前狀態(tài)的觀測(cè)值 xt

(3)用 A 算出下一個(gè)狀態(tài) yt+1

西瓜書給予的這三個(gè)問(wèn)題帆焕,下面會(huì)有相應(yīng)的求解

1.如何根據(jù)以往的觀測(cè)序列求解當(dāng)前時(shí)刻最有可能的觀測(cè)值惭婿,顯式求解P(x|λ)

2.根據(jù)觀測(cè)信號(hào)來(lái)推斷可能的撞他序列

3.如何根據(jù)訓(xùn)練樣本學(xué)得最優(yōu)的模型參數(shù)

14.2 馬爾可夫隨機(jī)場(chǎng)

馬爾可夫隨機(jī)場(chǎng)(Markov Random Field)是一種典型的馬爾可夫網(wǎng),即使用無(wú)向邊來(lái)表達(dá)變量間的依賴關(guān)系叶雹。

在馬爾可夫隨機(jī)場(chǎng)中财饥,對(duì)于關(guān)系圖中的一個(gè)子集,若任意兩結(jié)點(diǎn)間都有邊連接折晦,則稱該子集為一個(gè)團(tuán)钥星;若再加一個(gè)結(jié)點(diǎn)便不能形成團(tuán),則稱該子集為極大團(tuán)满着。

什么是隨機(jī)場(chǎng)

在概率論中, 由樣本空間Ω = {0, 1, …,?G???1}n取樣構(gòu)成的隨機(jī)變量Xi所組成的S?= {X1, …,?Xn}谦炒。若對(duì)所有的ω∈Ω下式均成立,則稱π為一個(gè)隨機(jī)場(chǎng)风喇。

π(ω) > 0.

當(dāng)給每一個(gè)位置中按照某種分布隨機(jī)賦予相空間的一個(gè)值之后宁改,其全體就叫做隨機(jī)場(chǎng)。我們不妨拿種地來(lái)打個(gè)比方魂莫。其中有兩個(gè)概念:位置(site)还蹲,相空間(phase space)“铱迹“位置”好比是一畝畝農(nóng)田谜喊;“相空間”好比是種的各種莊稼。我們可以給不同的地種上不同的莊稼倦始,這就好比給隨機(jī)場(chǎng)的每個(gè)“位置”斗遏,賦予相空間里不同的值。所以鞋邑,俗氣點(diǎn)說(shuō)诵次,隨機(jī)場(chǎng)就是在哪塊地里種什么莊稼的事情

引入團(tuán)概念的原因是什么呢?

其實(shí)很簡(jiǎn)單枚碗,就是為了能更方便的計(jì)算變量x的聯(lián)合概率藻懒。根據(jù)馬爾可夫特性,每個(gè)變量只與其鄰接結(jié)點(diǎn)相關(guān)视译,那么多個(gè)變量之間的聯(lián)合概率分布能基于團(tuán)分解為多個(gè)因子的乘積。具體來(lái)說(shuō)归敬,對(duì)于 n 個(gè)變量 x = {x1, x2, ..., xn}酷含,所有團(tuán)構(gòu)成的集合為 C鄙早,與團(tuán) Q 屬于 C 對(duì)應(yīng)的變量集合記為 xQ,則聯(lián)合概率 P(x) 定義為:

其中 Z 為規(guī)范化因子椅亚,被連乘的函數(shù)代表的是團(tuán) Q 對(duì)應(yīng)的勢(shì)函數(shù)限番,勢(shì)函數(shù)的作用是定量刻畫變量集 xQ 中變量之間的相關(guān)關(guān)系。??

對(duì)于條件獨(dú)立性呀舔,馬爾可夫隨機(jī)場(chǎng)通過(guò)分離集來(lái)實(shí)現(xiàn)條件獨(dú)立弥虐,若A結(jié)點(diǎn)集必須經(jīng)過(guò)C結(jié)點(diǎn)集才能到達(dá)B結(jié)點(diǎn)集,則稱C為分離集媚赖。

基于分離集的概念霜瘪,得到了MRF的三個(gè)性質(zhì):

全局馬爾可夫性:給定兩個(gè)變量子集的分離集,則這兩個(gè)變量子集條件獨(dú)立惧磺。

局部馬爾可夫性:給定某變量的鄰接變量颖对,則該變量與其它變量條件獨(dú)立。

成對(duì)馬爾可夫性:給定所有其他變量磨隘,兩個(gè)非鄰接變量條件獨(dú)立缤底。

書中給了一個(gè)例子對(duì)勢(shì)函數(shù)進(jìn)行了講解:

勢(shì)函數(shù)是刻畫變量之間的相互關(guān)系
指數(shù)函數(shù)定義為勢(shì)函數(shù)

14.3 條件隨機(jī)場(chǎng)(CRF)

條件隨機(jī)場(chǎng)是一種判別式無(wú)向圖模型,生成式模型直接對(duì)聯(lián)合分布進(jìn)行建模番捂,判別式模型對(duì)條件分布進(jìn)行建模个唧。前邊介紹的隱馬爾可夫模型和馬爾可夫隨機(jī)場(chǎng)都是“生成式”模型,设预。而條件隨機(jī)場(chǎng)是“判別式”模型徙歼,即給定觀測(cè)數(shù)據(jù){x1, x2, ..., xn}以及對(duì)應(yīng)的標(biāo)記數(shù)據(jù){y1, y2, ..., yn},構(gòu)建條件概率模型 P( y | x )絮缅。它可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場(chǎng)鲁沥。

標(biāo)記變量y可以是結(jié)構(gòu)型變量,其分量之間具有某種相關(guān)性

yv滿足馬爾可夫性

書中舉出的例子也是對(duì)上一概念的說(shuō)明耕魄,標(biāo)記變量之間條件獨(dú)立

與馬爾可夫隨機(jī)場(chǎng)類似画恰,條件隨機(jī)場(chǎng)也使用了合適的“勢(shì)函數(shù)”來(lái)計(jì)算所要求的條件概率,只不過(guò)條件隨機(jī)場(chǎng)是將勢(shì)函數(shù)引入特征函數(shù)(feature function)中來(lái)進(jìn)行計(jì)算的吸奴。

什么是特征函數(shù)允扇?

特征函數(shù)通常是實(shí)值函數(shù),以刻畫數(shù)據(jù)的一些很可能成立或期望成立的經(jīng)驗(yàn)特征则奥。

借鑒別人例子(統(tǒng)計(jì)學(xué)習(xí)方法中也出現(xiàn)了同樣的第二版97頁(yè)考润,關(guān)于最大熵模型中的特征函數(shù),說(shuō)的不是很清楚读处,就引入)

可以引入特征函數(shù)

y滿足馬爾可夫糊治,當(dāng)前值只和前一狀態(tài)的值有關(guān)

經(jīng)驗(yàn)上來(lái)說(shuō),第 i 個(gè)觀測(cè)值為“knock”時(shí)罚舱,其相應(yīng)的標(biāo)記 y_i 和 y_i+1 很可能分別為 [V] 和 [P]

引入狀態(tài)特征函數(shù)

條件概率定義為:

以詞性標(biāo)注為例井辜,如何判斷給出的一個(gè)標(biāo)注序列靠譜不靠譜呢绎谦?

轉(zhuǎn)移特征函數(shù)主要判定兩個(gè)相鄰的標(biāo)注是否合理,例如:動(dòng)詞+動(dòng)詞顯然語(yǔ)法不通粥脚;狀態(tài)特征函數(shù)則判定觀測(cè)值與對(duì)應(yīng)的標(biāo)注是否合理窃肠,例如: ly結(jié)尾的詞–>副詞較合理。

因此我們可以定義一個(gè)特征函數(shù)集合刷允,用這個(gè)特征函數(shù)集合來(lái)為一個(gè)標(biāo)注序列打分冤留,并據(jù)此選出最靠譜的標(biāo)注序列。也就是說(shuō)树灶,每一個(gè)特征函數(shù)(對(duì)應(yīng)一種規(guī)則)都可以用來(lái)為一個(gè)標(biāo)注序列評(píng)分纤怒,把集合中所有特征函數(shù)對(duì)同一個(gè)標(biāo)注序列的評(píng)分綜合起來(lái),就是這個(gè)標(biāo)注序列最終的評(píng)分值破托》景希可以看出:特征函數(shù)是一些經(jīng)驗(yàn)的特性(一般特征函數(shù)的選擇需要有對(duì)該領(lǐng)域比較深厚的知識(shí)來(lái)確定特征函數(shù)是什么類型)

14.4 學(xué)習(xí)與判斷

其中聯(lián)合概率 P(x_E, x_F) 可基于概率圖模型獲得土砂,因此州既,推斷問(wèn)題的關(guān)鍵就是如何高效的計(jì)算邊際分布,即上式的分母部分萝映。

概率圖模型的推斷方法大致可以分為兩類:第一類是精確推斷方法吴叶,希望能計(jì)算出目標(biāo)變量的邊際分布或條件分布的精確值;遺憾的是序臂,一般情況下蚌卤,此類算法的計(jì)算復(fù)雜度隨著極大團(tuán)數(shù)量的增長(zhǎng)呈指數(shù)增長(zhǎng),適用范圍有限奥秆。第二類是近似推斷方法逊彭,希望在較低的時(shí)間復(fù)雜度下獲得原問(wèn)題的近似解;此類方法在現(xiàn)實(shí)任務(wù)中更常見构订。

14.4.1 變量消去

變量消去是精確推斷方法


這個(gè)例子在概率論P(yáng)324有一個(gè)例題

變量消去算法通過(guò)利用乘法對(duì)加法的分配律侮叮,把多個(gè)變量的積的求和問(wèn)題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問(wèn)題。這種轉(zhuǎn)換使得每次的求和和求積運(yùn)算限制在局部悼瘾,僅與部分變量有關(guān)囊榜,從而簡(jiǎn)化了計(jì)算。

變量消去法有一個(gè)明顯的缺點(diǎn)亥宿,那就是若需計(jì)算多個(gè)邊際概率卸勺,會(huì)造成大量冗余計(jì)算。下一小節(jié)的信念傳播算法就很好的解決了這個(gè)問(wèn)題烫扼。

14.2.2 信念傳播

信念傳播算法將變量消去法中的求和操作看作一個(gè)消息傳遞的過(guò)程曙求,較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問(wèn)題。

在變量消去算法的計(jì)算過(guò)程中,通過(guò)求和操作消去變量的過(guò)程 mij(xj)圆到,我們可以看作是從 xi 向 xj 傳遞消息的過(guò)程怎抛。

通過(guò)觀測(cè)不難發(fā)現(xiàn),每次消息的傳遞操作僅與變量 x 的鄰接結(jié)點(diǎn)直接相關(guān)芽淡,換言之,消息傳遞相關(guān)的計(jì)算被限制在圖的局部進(jìn)行豆赏。

在信念傳播算法中挣菲,一個(gè)結(jié)點(diǎn)僅在接收到來(lái)自其它所有結(jié)點(diǎn)的消息后才能向下一個(gè)結(jié)點(diǎn)傳遞信息,且結(jié)點(diǎn)的邊際分布正比于它所接收的消息的乘積掷邦。

若圖結(jié)構(gòu)中沒(méi)有環(huán)白胀,則信念傳播算法經(jīng)過(guò)兩個(gè)步驟即可完成所有消息傳遞,進(jìn)而能計(jì)算所有變量上的邊際分布:

1.指定一個(gè)根結(jié)點(diǎn)抚岗,從所有葉結(jié)點(diǎn)向根結(jié)點(diǎn)傳遞信息或杠,直到所有根結(jié)點(diǎn)收到所有鄰接結(jié)點(diǎn)的信息

2.從根結(jié)點(diǎn)向葉結(jié)點(diǎn)傳遞消息,直到所有葉結(jié)點(diǎn)都接收到消息

例如在下邊的圖結(jié)構(gòu)中宣蔚,我們令 x1 為根結(jié)點(diǎn)向抢,則 x4 與 x5 為葉結(jié)點(diǎn),則以上兩步的消息傳遞過(guò)程如下胚委。此時(shí)圖的每條邊上都有方向不同的兩條信息挟鸠,基于這些消息以及上一小節(jié)的公式,即可得到所有變量的邊際概率??

14.5 近似推斷

精確推斷方法通常需要很大的計(jì)算開銷亩冬,因此在現(xiàn)實(shí)應(yīng)用中近似推斷方法更為常用艘希。近似推斷方法大致可分為兩大類:

第一類是采樣(sampling)通過(guò)使用隨機(jī)化方法完成近似

第二類是使用確定性近似完成近似推斷,典型代表為變分推斷(variational inference)

14.5.1 MCMC采樣

概率圖模型中最常用的采用技術(shù)是馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo硅急,簡(jiǎn)稱MCMC)方法覆享。

簡(jiǎn)單來(lái)說(shuō),若已知變量 x 的概率密度函數(shù) p(x)营袜,那么我要要求 y = f(x) 的期望時(shí)撒顿,我們就不需要去計(jì)算出條件概率 P(y|x) 了,只需要計(jì)算 f(x) 在多個(gè)樣本 {x1, x2, x3, ..., xn}上的 f(xi) 的均值连茧,或者在一定范圍取值內(nèi)的積分核蘸。根據(jù)大數(shù)定理,這種通過(guò)大量采樣的辦法就能獲得較高的近似精度啸驯。

MCMC方法就是概率圖模型中最常用的采樣技術(shù)客扎。對(duì)高維多元變量 x,MCMC采樣通過(guò)構(gòu)造“平穩(wěn)分布為 p 的馬爾可夫鏈”來(lái)產(chǎn)生樣本罚斗。

14.5.2 變分推斷

變分推斷通過(guò)使用已知簡(jiǎn)單分布來(lái)逼近所需推斷的復(fù)雜分布徙鱼,并通過(guò)限制近似分布的類型,從而得到一種局部最優(yōu)、但具有確定解的近似后驗(yàn)分布袱吆。

變分推斷使用的近似分布需要具有良好的數(shù)值性質(zhì)厌衙,通常是基于連續(xù)型變量的概率密度函數(shù)來(lái)刻畫的。

通過(guò)z來(lái)估計(jì)x分布绞绒,EM算法

假設(shè)有 N 個(gè)可觀測(cè)變量 {x1, x2, ..., xN}婶希,這 N 個(gè)變量均依賴于其它變量 z,且 x 與 z 均服從分布參數(shù) θ蓬衡。那么一般來(lái)說(shuō)喻杈,我們根據(jù)該概率圖模型的推斷與學(xué)習(xí)任務(wù)主要是由觀測(cè)到的變量 x 來(lái)估計(jì)隱變量 z 和分布參數(shù)變量?θ,即求解 p( z | x,θ ) 和?θ

通常我們可以使用極大似然函數(shù)EM 算法來(lái)進(jìn)行推斷狰晚,但是在現(xiàn)實(shí)任務(wù)中筒饰,推斷的過(guò)程可能因?yàn)?z 模型復(fù)雜而難以進(jìn)行。此時(shí)可借助變分推斷壁晒,假設(shè)隱變量 z 服從分布:q(z) = q1(z1) * q2(z2) * ... * qM(zM)

我們通過(guò)使用相對(duì)簡(jiǎn)單或結(jié)構(gòu)更好的的分布 q 去近似 z 的后驗(yàn)分布 p( z | x,θ ) 即能在節(jié)省計(jì)算開銷的情況下得到所要概率分布



14.6 話題模型

話題模型是一族生成式有向圖模型瓷们,主要用于處理離散型的數(shù)據(jù)(如文本集合),在信息檢索秒咐、自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用谬晕。

隱狄利克雷模型(Latent Dirichlet Allocation,簡(jiǎn)稱LDA)是話題模型的典型代表反镇。

基本概念

按照由小到大的順序固蚤,話題模型涉及到的以下幾個(gè)概念:

詞(word):待處理數(shù)據(jù)的基本離散單元

文檔(document):待處理的數(shù)據(jù)對(duì)象,它由一組詞組成

話題(topic):話題表示一個(gè)概念歹茶,具體表示為一系列與該概念相關(guān)的詞夕玩,以及它們?cè)谠摳拍钕鲁霈F(xiàn)的概率

詞袋(bag-of-words):文檔的表示方式,將文檔中的詞不計(jì)順序的存儲(chǔ)成一個(gè)詞的集合

比如在文本處理領(lǐng)域惊豺,LDA算法處理的對(duì)象是一篇篇文章燎孟,不妨假設(shè)數(shù)據(jù)集中包含 K 個(gè)話題,T篇文檔尸昧,文檔中的詞來(lái)自于一個(gè)包含 N 個(gè)詞的詞典揩页。文檔以詞袋的形式表示 W = {w1, w2, ..., wt},wi表示第 i 篇文檔中 N 個(gè)詞分別的詞頻烹俗;同理 K 個(gè) N 維向量 B = {b1, b2, ..., bk} 用來(lái)表示 K 個(gè)話題

模型介紹

在現(xiàn)實(shí)任務(wù)中爆侣,我們可以通過(guò)統(tǒng)計(jì)文檔中的詞來(lái)獲得詞頻向量 W,但我們通常不清楚這組文檔都談?wù)摿四男┰掝}幢妄,也不知道每篇文檔與哪些話題有關(guān)兔仰。

狄利克雷模型以生成式模型的角度來(lái)看待文檔和話題,認(rèn)為文檔的話題分布滿足參數(shù)為?α 的 K 維狄利克雷分布蕉鸳,話題詞頻則依賴于參數(shù)為 η 的 N 維狄利克雷分布

通過(guò)?α 和 η乎赴,我們可以分別得到文檔的話題分布 Θt?以及話題詞頻 Bk忍法,由此可得到話題指派 z_tn (z_tn 表示第 t 個(gè)文檔的第 n 個(gè)詞所屬于的話題分布)以及最終的文檔詞頻 wt

實(shí)際上,我們唯一能觀測(cè)到的變量只有 wt榕吼,但是通過(guò)極大似然估計(jì)以及變分法來(lái)進(jìn)行近似推斷饿序,我們能獲得參數(shù)?α 和 η 的取值。

LDA的參數(shù)估計(jì)(吉布斯采樣)

在LDA最初提出的時(shí)候羹蚣,人們使用EM算法進(jìn)行求解原探。

后來(lái)人們普遍開始使用較為簡(jiǎn)單的Gibbs Sampling(吉布斯采樣),具體過(guò)程如下:

1.首先對(duì)所有文檔中的所有詞遍歷一遍度宦,為其都隨機(jī)分配一個(gè)主題踢匣,即zm,n=k~Mult(1/K),其中m表示第m篇文檔,n表示文檔中的第n個(gè)詞戈抄,k表示主題,K表示主題的總數(shù)后专,之后將對(duì)應(yīng)的n(k)m+1, nm+1, n(t)k+1, nk+1, 他們分別表示在m文檔中k主題出現(xiàn)的次數(shù)划鸽,m文檔中主題數(shù)量的和??(可重復(fù)的,所以應(yīng)該就是文檔中詞的個(gè)數(shù)戚哎,不變的量)??裸诽,k主題對(duì)應(yīng)的t詞的次數(shù),k主題對(duì)應(yīng)的總詞數(shù)(n(k)m等等初始化為0)型凳。

2.之后對(duì)下述操作進(jìn)行重復(fù)迭代丈冬。

對(duì)所有文檔中的所有詞進(jìn)行遍歷,假如當(dāng)前文檔m的詞t對(duì)應(yīng)主題為k甘畅,則n(k)m-1, nm-1, n(t)k-1, nk-1, 即先拿出當(dāng)前詞埂蕊,之后根據(jù)LDA中topic sample的概率分布采樣出新主題,在對(duì)應(yīng)的n(k)m, nm, n(t)k, nk上分別+1疏唾。

迭代完成后輸出主題-詞參數(shù)矩陣φ和文檔-主題矩陣θ

從這里看出蓄氧,gibbs采樣方法求解 LDA 最重要的是條件概率p(zi | z-i,w)的計(jì)算上。

下文對(duì)狄利克雷分布進(jìn)行了通俗的講解:

https://blog.csdn.net/guleileo/article/details/80971601


-----------------------------------所用到一些參考的定義---------------------------------------------------------------------

1)狄利克雷函數(shù)

狄利克雷函數(shù)(英語(yǔ):dirichlet function)是一個(gè)定義在實(shí)數(shù)范圍上槐脏、值域不連續(xù)的函數(shù)喉童。

2)邊際分布(marginal distribution)

邊際分布是指對(duì)無(wú)關(guān)變量求和或積分的結(jié)果。例如對(duì)于 (x, y) 構(gòu)成的聯(lián)合概率分布中顿天,對(duì)于 x 的邊際分布為:

P(x) = P{ X < x } = P{ X < x, Y < 正無(wú)窮 }

3)大數(shù)定理

大數(shù)定律(law of large numbers)堂氯,是一種描述當(dāng)試驗(yàn)次數(shù)很大時(shí)所呈現(xiàn)的概率性質(zhì)的定律。在隨機(jī)事件的大量重復(fù)出現(xiàn)中牌废,往往呈現(xiàn)幾乎必然的規(guī)律咽白,這個(gè)規(guī)律就是大數(shù)定律。通俗地說(shuō)畔规,這個(gè)定理就是局扶,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率三妈。偶然中包含著某種必然畜埋。


參考 CSDN博主「MLcongcongAI」的原創(chuàng)文章? 原文鏈接:https://blog.csdn.net/MLcongcongAI/article/details/88137005

和https://blog.csdn.net/weixin_34261739/article/details/87444627

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市畴蒲,隨后出現(xiàn)的幾起案子悠鞍,更是在濱河造成了極大的恐慌,老刑警劉巖模燥,帶你破解...
    沈念sama閱讀 223,126評(píng)論 6 520
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件咖祭,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡蔫骂,警方通過(guò)查閱死者的電腦和手機(jī)么翰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,421評(píng)論 3 400
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)辽旋,“玉大人浩嫌,你說(shuō)我怎么就攤上這事〔古撸” “怎么了码耐?”我有些...
    開封第一講書人閱讀 169,941評(píng)論 0 366
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)溶其。 經(jīng)常有香客問(wèn)我骚腥,道長(zhǎng),這世上最難降的妖魔是什么瓶逃? 我笑而不...
    開封第一講書人閱讀 60,294評(píng)論 1 300
  • 正文 為了忘掉前任束铭,我火速辦了婚禮,結(jié)果婚禮上金闽,老公的妹妹穿的比我還像新娘纯露。我一直安慰自己,他們只是感情好代芜,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,295評(píng)論 6 398
  • 文/花漫 我一把揭開白布埠褪。 她就那樣靜靜地躺著,像睡著了一般挤庇。 火紅的嫁衣襯著肌膚如雪钞速。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,874評(píng)論 1 314
  • 那天嫡秕,我揣著相機(jī)與錄音渴语,去河邊找鬼。 笑死昆咽,一個(gè)胖子當(dāng)著我的面吹牛驾凶,可吹牛的內(nèi)容都是我干的牙甫。 我是一名探鬼主播,決...
    沈念sama閱讀 41,285評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼调违,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼窟哺!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起技肩,我...
    開封第一講書人閱讀 40,249評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤虚婿,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后然痊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體至朗,經(jīng)...
    沈念sama閱讀 46,760評(píng)論 1 321
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡剧浸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,840評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辛蚊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,973評(píng)論 1 354
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡真仲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出秸应,到底是詐尸還是另有隱情,我是刑警寧澤桑谍,帶...
    沈念sama閱讀 36,631評(píng)論 5 351
  • 正文 年R本政府宣布锣披,位于F島的核電站,受9級(jí)特大地震影響雹仿,放射性物質(zhì)發(fā)生泄漏整以。R本人自食惡果不足惜公黑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,315評(píng)論 3 336
  • 文/蒙蒙 一摄咆、第九天 我趴在偏房一處隱蔽的房頂上張望人断。 院中可真熱鬧,春花似錦含鳞、人聲如沸蝉绷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,797評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)桅狠。三九已至,卻和暖如春中跌,著一層夾襖步出監(jiān)牢的瞬間漩符,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,926評(píng)論 1 275
  • 我被黑心中介騙來(lái)泰國(guó)打工凸克, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留闷沥,地道東北人舆逃。 一個(gè)月前我還...
    沈念sama閱讀 49,431評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像鸟雏,于是被迫代替她去往敵國(guó)和親览祖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子展蒂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,982評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容