這一部分沒(méi)有參考資料逻杖,自己看書的時(shí)間也比較短,對(duì)于一些概念也比較模糊思瘟,參考了很多人的學(xué)習(xí)筆記荸百,整理摘抄。潮太。管搪。虾攻。。更鲁。霎箍。
---------------------------------------------引用? 作者:閃電隨筆? ?http://www.reibang.com/p/ffda16484509
1)概率模型是一種將學(xué)習(xí)任務(wù)歸結(jié)于計(jì)算變量的概率分布的描述框架,概率模型的學(xué)習(xí)即基于訓(xùn)練樣本來(lái)估計(jì)變量的分布澡为。
2)概率圖模型是一類用圖來(lái)表達(dá)變量相關(guān)關(guān)系的概率模型
3)概率圖模型根據(jù)邊的性質(zhì)不同漂坏,大致可分為有向圖模型和無(wú)向圖模型
4)隱馬爾可夫模型是結(jié)構(gòu)最簡(jiǎn)單的一種著名的有向圖模型,其每一個(gè)節(jié)點(diǎn)代表系統(tǒng)所處的狀態(tài)媒至,且該狀態(tài)只與其前置狀態(tài)有關(guān)
5)馬爾可夫隨機(jī)場(chǎng)是一種著名的無(wú)向圖模型顶别,其用圖模型來(lái)表示屬性之間的相互獨(dú)立性,并且根據(jù)馬爾可夫性拒啰,屬性的聯(lián)合概率可由極大團(tuán)的勢(shì)函數(shù)的乘積獲得
6)條件隨機(jī)場(chǎng)可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場(chǎng)驯绎,其將勢(shì)函數(shù)引入特征函數(shù)中來(lái)對(duì)條件概率進(jìn)行計(jì)算
7)基于概率圖模型定義的聯(lián)合概率分布,我們需要對(duì)其中的目標(biāo)變量或者條件分布進(jìn)行推斷谋旦,根據(jù)推斷方法的不同可分為精確推斷剩失,以及近似推斷
8)精確推斷包括利用乘法對(duì)加法的分配律,把多個(gè)變量的積的求和問(wèn)題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問(wèn)題的變量消去法册着,以及將變量消去法中的求和操作看作一個(gè)消息傳遞的過(guò)程拴孤,較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問(wèn)題的信念傳播法
9)近似推斷包括采樣以及變分推斷兩種方法,前者是通過(guò)采樣來(lái)對(duì)目標(biāo)分布的期望進(jìn)行近似甲捏,后者是通過(guò)將目標(biāo)變量的分布分解為更為簡(jiǎn)單或者結(jié)構(gòu)更好的分布的乘積來(lái)進(jìn)行近似
10)話題模型是一個(gè)具體的用在自然語(yǔ)言處理上的有向圖模型演熟,通過(guò)使用極大似然估計(jì)法以及各種近似推斷方法來(lái)獲得訓(xùn)練樣本集的模型分布,常用狄利克雷分布
隱馬爾科夫鏈模型
概率圖模型是一類用圖來(lái)表達(dá)變量相關(guān)關(guān)系的概率模型司顿,它以圖為表示工具芒粹,最常見的是用一個(gè)結(jié)點(diǎn)表示一個(gè)或一組隨機(jī)變量,結(jié)點(diǎn)之間的邊表示變量間的概率相關(guān)關(guān)系免猾。第一類是使用有向無(wú)環(huán)圖表示變量間的依賴關(guān)系是辕,稱為有向圖模型或貝葉斯網(wǎng);第二類使用無(wú)向圖表示變量間的關(guān)系,稱為無(wú)向圖模型或馬爾可夫網(wǎng)。
什么是馬爾可夫過(guò)程
《概率論與數(shù)理統(tǒng)計(jì)》P319
過(guò)程(或系統(tǒng))在時(shí)刻t0所處的狀態(tài)為已知的條件下踩叭,過(guò)程在時(shí)刻t>t0所處狀態(tài)的條件分布與過(guò)程在時(shí)刻t0之前所處的狀態(tài)無(wú)關(guān)耿币。通俗講,就是已經(jīng)知道過(guò)程現(xiàn)在的條件下棺聊,其將來(lái)不依賴過(guò)去伞租。
時(shí)間和狀態(tài)都是離散的馬爾可夫過(guò)程稱為馬爾可夫鏈
下面是惡補(bǔ)概率論與數(shù)理統(tǒng)計(jì)的內(nèi)容:
條件概率
為馬氏鏈在時(shí)刻m處于ai條件下,在時(shí)刻m+n轉(zhuǎn)移到狀態(tài)aj的轉(zhuǎn)移概率限佩,由于鏈在時(shí)刻m從任何一個(gè)狀態(tài)a出發(fā)葵诈,到另一時(shí)刻m+n裸弦,必然轉(zhuǎn)移到a1,a2……諸狀態(tài)中的某一個(gè),所以
當(dāng)轉(zhuǎn)移概率僅與i作喘,j及時(shí)間間距n有關(guān)時(shí)理疙,把它記為Pij(n),即
并成此轉(zhuǎn)移概率具有平穩(wěn)性,也稱此鏈為齊次或時(shí)齊的泞坦。
隱馬爾可夫模型(Hidden Markov Model窖贤,簡(jiǎn)稱HMM)是結(jié)構(gòu)最簡(jiǎn)單的動(dòng)態(tài)貝葉斯網(wǎng)(dynamic Bayesian network),這是一種著名的有向圖模型贰锁,主要用于時(shí)序數(shù)據(jù)建模赃梧,在語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用豌熄。
隱馬爾可夫模型中的變量可分為兩組授嘀。第一組是狀態(tài)變量{y1,y2锣险,…蹄皱,yn},其中囱持,yi∈Y表示第i時(shí)刻的系統(tǒng)狀態(tài)夯接。通常假定狀態(tài)變量是隱藏的、不可被觀測(cè)的纷妆,因此狀態(tài)變量亦稱隱變量(hidden variable)盔几。第二組是觀測(cè)變量{x1,x2掩幢,…逊拍,xn},其中际邻,xi∈X表示第i時(shí)刻的觀測(cè)值芯丧。在隱馬爾可夫模型中,系統(tǒng)通常在多個(gè)狀態(tài){s1世曾,s2缨恒,…,sN}之間轉(zhuǎn)換轮听。
在任一時(shí)刻骗露,觀測(cè)變量的取值僅依賴于狀態(tài)變量,即xt由yt確定血巍,與其他狀態(tài)變量及觀測(cè)變量的取值無(wú)關(guān)萧锉。同時(shí),t時(shí)刻的狀態(tài)yt僅依賴于
t-1時(shí)刻的狀態(tài)yt-1述寡,與其余n-2個(gè)狀態(tài)無(wú)關(guān)柿隙。這就是所謂的“馬爾可夫鏈”(Markov chain)叶洞,即:系統(tǒng)下一時(shí)刻的狀態(tài)僅由當(dāng)前狀態(tài)決定,不依賴于以往的任何狀態(tài)禀崖。
基于上述變量之間的依賴關(guān)系衩辟,隱馬爾可夫模型中所有變量的聯(lián)合概率分布:
當(dāng)確定了一個(gè)HMM模型的三個(gè)參數(shù)后,便按照下面的規(guī)則來(lái)生成觀測(cè)值序列:
(1)用初始狀態(tài)概率π 算出初始狀態(tài) y0
(2)用 B 算出當(dāng)前狀態(tài)的觀測(cè)值 xt
(3)用 A 算出下一個(gè)狀態(tài) yt+1
1.如何根據(jù)以往的觀測(cè)序列求解當(dāng)前時(shí)刻最有可能的觀測(cè)值惭婿,顯式求解P(x|λ)
2.根據(jù)觀測(cè)信號(hào)來(lái)推斷可能的撞他序列
3.如何根據(jù)訓(xùn)練樣本學(xué)得最優(yōu)的模型參數(shù)
14.2 馬爾可夫隨機(jī)場(chǎng)
馬爾可夫隨機(jī)場(chǎng)(Markov Random Field)是一種典型的馬爾可夫網(wǎng),即使用無(wú)向邊來(lái)表達(dá)變量間的依賴關(guān)系叶雹。
在馬爾可夫隨機(jī)場(chǎng)中财饥,對(duì)于關(guān)系圖中的一個(gè)子集,若任意兩結(jié)點(diǎn)間都有邊連接折晦,則稱該子集為一個(gè)團(tuán)钥星;若再加一個(gè)結(jié)點(diǎn)便不能形成團(tuán),則稱該子集為極大團(tuán)满着。
什么是隨機(jī)場(chǎng)
在概率論中, 由樣本空間Ω = {0, 1, …,?G???1}n取樣構(gòu)成的隨機(jī)變量Xi所組成的S?= {X1, …,?Xn}谦炒。若對(duì)所有的ω∈Ω下式均成立,則稱π為一個(gè)隨機(jī)場(chǎng)风喇。
π(ω) > 0.
當(dāng)給每一個(gè)位置中按照某種分布隨機(jī)賦予相空間的一個(gè)值之后宁改,其全體就叫做隨機(jī)場(chǎng)。我們不妨拿種地來(lái)打個(gè)比方魂莫。其中有兩個(gè)概念:位置(site)还蹲,相空間(phase space)“铱迹“位置”好比是一畝畝農(nóng)田谜喊;“相空間”好比是種的各種莊稼。我們可以給不同的地種上不同的莊稼倦始,這就好比給隨機(jī)場(chǎng)的每個(gè)“位置”斗遏,賦予相空間里不同的值。所以鞋邑,俗氣點(diǎn)說(shuō)诵次,隨機(jī)場(chǎng)就是在哪塊地里種什么莊稼的事情
引入團(tuán)概念的原因是什么呢?
其實(shí)很簡(jiǎn)單枚碗,就是為了能更方便的計(jì)算變量x的聯(lián)合概率藻懒。根據(jù)馬爾可夫特性,每個(gè)變量只與其鄰接結(jié)點(diǎn)相關(guān)视译,那么多個(gè)變量之間的聯(lián)合概率分布能基于團(tuán)分解為多個(gè)因子的乘積。具體來(lái)說(shuō)归敬,對(duì)于 n 個(gè)變量 x = {x1, x2, ..., xn}酷含,所有團(tuán)構(gòu)成的集合為 C鄙早,與團(tuán) Q 屬于 C 對(duì)應(yīng)的變量集合記為 xQ,則聯(lián)合概率 P(x) 定義為:
對(duì)于條件獨(dú)立性呀舔,馬爾可夫隨機(jī)場(chǎng)通過(guò)分離集來(lái)實(shí)現(xiàn)條件獨(dú)立弥虐,若A結(jié)點(diǎn)集必須經(jīng)過(guò)C結(jié)點(diǎn)集才能到達(dá)B結(jié)點(diǎn)集,則稱C為分離集媚赖。
基于分離集的概念霜瘪,得到了MRF的三個(gè)性質(zhì):
全局馬爾可夫性:給定兩個(gè)變量子集的分離集,則這兩個(gè)變量子集條件獨(dú)立惧磺。
局部馬爾可夫性:給定某變量的鄰接變量颖对,則該變量與其它變量條件獨(dú)立。
成對(duì)馬爾可夫性:給定所有其他變量磨隘,兩個(gè)非鄰接變量條件獨(dú)立缤底。
書中給了一個(gè)例子對(duì)勢(shì)函數(shù)進(jìn)行了講解:
14.3 條件隨機(jī)場(chǎng)(CRF)
條件隨機(jī)場(chǎng)是一種判別式無(wú)向圖模型,生成式模型直接對(duì)聯(lián)合分布進(jìn)行建模番捂,判別式模型對(duì)條件分布進(jìn)行建模个唧。前邊介紹的隱馬爾可夫模型和馬爾可夫隨機(jī)場(chǎng)都是“生成式”模型,设预。而條件隨機(jī)場(chǎng)是“判別式”模型徙歼,即給定觀測(cè)數(shù)據(jù){x1, x2, ..., xn}以及對(duì)應(yīng)的標(biāo)記數(shù)據(jù){y1, y2, ..., yn},構(gòu)建條件概率模型 P( y | x )絮缅。它可以被看成是給定觀測(cè)值的馬爾可夫隨機(jī)場(chǎng)鲁沥。
標(biāo)記變量y可以是結(jié)構(gòu)型變量,其分量之間具有某種相關(guān)性
書中舉出的例子也是對(duì)上一概念的說(shuō)明耕魄,標(biāo)記變量之間條件獨(dú)立
與馬爾可夫隨機(jī)場(chǎng)類似画恰,條件隨機(jī)場(chǎng)也使用了合適的“勢(shì)函數(shù)”來(lái)計(jì)算所要求的條件概率,只不過(guò)條件隨機(jī)場(chǎng)是將勢(shì)函數(shù)引入特征函數(shù)(feature function)中來(lái)進(jìn)行計(jì)算的吸奴。
什么是特征函數(shù)允扇?
特征函數(shù)通常是實(shí)值函數(shù),以刻畫數(shù)據(jù)的一些很可能成立或期望成立的經(jīng)驗(yàn)特征则奥。
借鑒別人例子(統(tǒng)計(jì)學(xué)習(xí)方法中也出現(xiàn)了同樣的第二版97頁(yè)考润,關(guān)于最大熵模型中的特征函數(shù),說(shuō)的不是很清楚读处,就引入)
可以引入特征函數(shù)
經(jīng)驗(yàn)上來(lái)說(shuō),第 i 個(gè)觀測(cè)值為“knock”時(shí)罚舱,其相應(yīng)的標(biāo)記 y_i 和 y_i+1 很可能分別為 [V] 和 [P]
引入狀態(tài)特征函數(shù)
條件概率定義為:
以詞性標(biāo)注為例井辜,如何判斷給出的一個(gè)標(biāo)注序列靠譜不靠譜呢绎谦?
轉(zhuǎn)移特征函數(shù)主要判定兩個(gè)相鄰的標(biāo)注是否合理,例如:動(dòng)詞+動(dòng)詞顯然語(yǔ)法不通粥脚;狀態(tài)特征函數(shù)則判定觀測(cè)值與對(duì)應(yīng)的標(biāo)注是否合理窃肠,例如: ly結(jié)尾的詞–>副詞較合理。
因此我們可以定義一個(gè)特征函數(shù)集合刷允,用這個(gè)特征函數(shù)集合來(lái)為一個(gè)標(biāo)注序列打分冤留,并據(jù)此選出最靠譜的標(biāo)注序列。也就是說(shuō)树灶,每一個(gè)特征函數(shù)(對(duì)應(yīng)一種規(guī)則)都可以用來(lái)為一個(gè)標(biāo)注序列評(píng)分纤怒,把集合中所有特征函數(shù)對(duì)同一個(gè)標(biāo)注序列的評(píng)分綜合起來(lái),就是這個(gè)標(biāo)注序列最終的評(píng)分值破托》景希可以看出:特征函數(shù)是一些經(jīng)驗(yàn)的特性(一般特征函數(shù)的選擇需要有對(duì)該領(lǐng)域比較深厚的知識(shí)來(lái)確定特征函數(shù)是什么類型)。
14.4 學(xué)習(xí)與判斷
其中聯(lián)合概率 可基于概率圖模型獲得土砂,因此州既,推斷問(wèn)題的關(guān)鍵就是如何高效的計(jì)算邊際分布,即上式的分母部分萝映。
概率圖模型的推斷方法大致可以分為兩類:第一類是精確推斷方法吴叶,希望能計(jì)算出目標(biāo)變量的邊際分布或條件分布的精確值;遺憾的是序臂,一般情況下蚌卤,此類算法的計(jì)算復(fù)雜度隨著極大團(tuán)數(shù)量的增長(zhǎng)呈指數(shù)增長(zhǎng),適用范圍有限奥秆。第二類是近似推斷方法逊彭,希望在較低的時(shí)間復(fù)雜度下獲得原問(wèn)題的近似解;此類方法在現(xiàn)實(shí)任務(wù)中更常見构订。
14.4.1 變量消去
變量消去是精確推斷方法
變量消去算法通過(guò)利用乘法對(duì)加法的分配律侮叮,把多個(gè)變量的積的求和問(wèn)題轉(zhuǎn)換為對(duì)部分變量交替進(jìn)行求積和求和的問(wèn)題。這種轉(zhuǎn)換使得每次的求和和求積運(yùn)算限制在局部悼瘾,僅與部分變量有關(guān)囊榜,從而簡(jiǎn)化了計(jì)算。
變量消去法有一個(gè)明顯的缺點(diǎn)亥宿,那就是若需計(jì)算多個(gè)邊際概率卸勺,會(huì)造成大量冗余計(jì)算。下一小節(jié)的信念傳播算法就很好的解決了這個(gè)問(wèn)題烫扼。
14.2.2 信念傳播
信念傳播算法將變量消去法中的求和操作看作一個(gè)消息傳遞的過(guò)程曙求,較好的解決了求解多個(gè)邊際分布時(shí)的重復(fù)計(jì)算問(wèn)題。
在變量消去算法的計(jì)算過(guò)程中,通過(guò)求和操作消去變量的過(guò)程 mij(xj)圆到,我們可以看作是從 xi 向 xj 傳遞消息的過(guò)程怎抛。
通過(guò)觀測(cè)不難發(fā)現(xiàn),每次消息的傳遞操作僅與變量 x 的鄰接結(jié)點(diǎn)直接相關(guān)芽淡,換言之,消息傳遞相關(guān)的計(jì)算被限制在圖的局部進(jìn)行豆赏。
在信念傳播算法中挣菲,一個(gè)結(jié)點(diǎn)僅在接收到來(lái)自其它所有結(jié)點(diǎn)的消息后才能向下一個(gè)結(jié)點(diǎn)傳遞信息,且結(jié)點(diǎn)的邊際分布正比于它所接收的消息的乘積掷邦。
若圖結(jié)構(gòu)中沒(méi)有環(huán)白胀,則信念傳播算法經(jīng)過(guò)兩個(gè)步驟即可完成所有消息傳遞,進(jìn)而能計(jì)算所有變量上的邊際分布:
1.指定一個(gè)根結(jié)點(diǎn)抚岗,從所有葉結(jié)點(diǎn)向根結(jié)點(diǎn)傳遞信息或杠,直到所有根結(jié)點(diǎn)收到所有鄰接結(jié)點(diǎn)的信息
2.從根結(jié)點(diǎn)向葉結(jié)點(diǎn)傳遞消息,直到所有葉結(jié)點(diǎn)都接收到消息
例如在下邊的圖結(jié)構(gòu)中宣蔚,我們令 x1 為根結(jié)點(diǎn)向抢,則 x4 與 x5 為葉結(jié)點(diǎn),則以上兩步的消息傳遞過(guò)程如下胚委。此時(shí)圖的每條邊上都有方向不同的兩條信息挟鸠,基于這些消息以及上一小節(jié)的公式,即可得到所有變量的邊際概率??
14.5 近似推斷
精確推斷方法通常需要很大的計(jì)算開銷亩冬,因此在現(xiàn)實(shí)應(yīng)用中近似推斷方法更為常用艘希。近似推斷方法大致可分為兩大類:
第一類是采樣(sampling)通過(guò)使用隨機(jī)化方法完成近似
第二類是使用確定性近似完成近似推斷,典型代表為變分推斷(variational inference)
14.5.1 MCMC采樣
概率圖模型中最常用的采用技術(shù)是馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo硅急,簡(jiǎn)稱MCMC)方法覆享。
簡(jiǎn)單來(lái)說(shuō),若已知變量 x 的概率密度函數(shù) p(x)营袜,那么我要要求 y = f(x) 的期望時(shí)撒顿,我們就不需要去計(jì)算出條件概率 P(y|x) 了,只需要計(jì)算 f(x) 在多個(gè)樣本 {x1, x2, x3, ..., xn}上的 f(xi) 的均值连茧,或者在一定范圍取值內(nèi)的積分核蘸。根據(jù)大數(shù)定理,這種通過(guò)大量采樣的辦法就能獲得較高的近似精度啸驯。
MCMC方法就是概率圖模型中最常用的采樣技術(shù)客扎。對(duì)高維多元變量 x,MCMC采樣通過(guò)構(gòu)造“平穩(wěn)分布為 p 的馬爾可夫鏈”來(lái)產(chǎn)生樣本罚斗。
14.5.2 變分推斷
變分推斷通過(guò)使用已知簡(jiǎn)單分布來(lái)逼近所需推斷的復(fù)雜分布徙鱼,并通過(guò)限制近似分布的類型,從而得到一種局部最優(yōu)、但具有確定解的近似后驗(yàn)分布袱吆。
變分推斷使用的近似分布需要具有良好的數(shù)值性質(zhì)厌衙,通常是基于連續(xù)型變量的概率密度函數(shù)來(lái)刻畫的。
假設(shè)有 N 個(gè)可觀測(cè)變量 {x1, x2, ..., xN}婶希,這 N 個(gè)變量均依賴于其它變量 z,且 x 與 z 均服從分布參數(shù) θ蓬衡。那么一般來(lái)說(shuō)喻杈,我們根據(jù)該概率圖模型的推斷與學(xué)習(xí)任務(wù)主要是由觀測(cè)到的變量 x 來(lái)估計(jì)隱變量 z 和分布參數(shù)變量?θ,即求解 p( z | x,θ ) 和?θ
通常我們可以使用極大似然函數(shù)和 EM 算法來(lái)進(jìn)行推斷狰晚,但是在現(xiàn)實(shí)任務(wù)中筒饰,推斷的過(guò)程可能因?yàn)?z 模型復(fù)雜而難以進(jìn)行。此時(shí)可借助變分推斷壁晒,假設(shè)隱變量 z 服從分布:q(z) = q1(z1) * q2(z2) * ... * qM(zM)
我們通過(guò)使用相對(duì)簡(jiǎn)單或結(jié)構(gòu)更好的的分布 q 去近似 z 的后驗(yàn)分布 p( z | x,θ ) 即能在節(jié)省計(jì)算開銷的情況下得到所要概率分布
14.6 話題模型
話題模型是一族生成式有向圖模型瓷们,主要用于處理離散型的數(shù)據(jù)(如文本集合),在信息檢索秒咐、自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用谬晕。
隱狄利克雷模型(Latent Dirichlet Allocation,簡(jiǎn)稱LDA)是話題模型的典型代表反镇。
基本概念
按照由小到大的順序固蚤,話題模型涉及到的以下幾個(gè)概念:
詞(word):待處理數(shù)據(jù)的基本離散單元
文檔(document):待處理的數(shù)據(jù)對(duì)象,它由一組詞組成
話題(topic):話題表示一個(gè)概念歹茶,具體表示為一系列與該概念相關(guān)的詞夕玩,以及它們?cè)谠摳拍钕鲁霈F(xiàn)的概率
詞袋(bag-of-words):文檔的表示方式,將文檔中的詞不計(jì)順序的存儲(chǔ)成一個(gè)詞的集合
比如在文本處理領(lǐng)域惊豺,LDA算法處理的對(duì)象是一篇篇文章燎孟,不妨假設(shè)數(shù)據(jù)集中包含 K 個(gè)話題,T篇文檔尸昧,文檔中的詞來(lái)自于一個(gè)包含 N 個(gè)詞的詞典揩页。文檔以詞袋的形式表示 W = {w1, w2, ..., wt},wi表示第 i 篇文檔中 N 個(gè)詞分別的詞頻烹俗;同理 K 個(gè) N 維向量 B = {b1, b2, ..., bk} 用來(lái)表示 K 個(gè)話題
模型介紹
在現(xiàn)實(shí)任務(wù)中爆侣,我們可以通過(guò)統(tǒng)計(jì)文檔中的詞來(lái)獲得詞頻向量 W,但我們通常不清楚這組文檔都談?wù)摿四男┰掝}幢妄,也不知道每篇文檔與哪些話題有關(guān)兔仰。
狄利克雷模型以生成式模型的角度來(lái)看待文檔和話題,認(rèn)為文檔的話題分布滿足參數(shù)為?α 的 K 維狄利克雷分布蕉鸳,話題詞頻則依賴于參數(shù)為 η 的 N 維狄利克雷分布
通過(guò)?α 和 η乎赴,我們可以分別得到文檔的話題分布 Θt?以及話題詞頻 Bk忍法,由此可得到話題指派 z_tn (z_tn 表示第 t 個(gè)文檔的第 n 個(gè)詞所屬于的話題分布)以及最終的文檔詞頻 wt
實(shí)際上,我們唯一能觀測(cè)到的變量只有 wt榕吼,但是通過(guò)極大似然估計(jì)以及變分法來(lái)進(jìn)行近似推斷饿序,我們能獲得參數(shù)?α 和 η 的取值。
LDA的參數(shù)估計(jì)(吉布斯采樣)
在LDA最初提出的時(shí)候羹蚣,人們使用EM算法進(jìn)行求解原探。
后來(lái)人們普遍開始使用較為簡(jiǎn)單的Gibbs Sampling(吉布斯采樣),具體過(guò)程如下:
1.首先對(duì)所有文檔中的所有詞遍歷一遍度宦,為其都隨機(jī)分配一個(gè)主題踢匣,即zm,n=k~Mult(1/K),其中m表示第m篇文檔,n表示文檔中的第n個(gè)詞戈抄,k表示主題,K表示主題的總數(shù)后专,之后將對(duì)應(yīng)的n(k)m+1, nm+1, n(t)k+1, nk+1, 他們分別表示在m文檔中k主題出現(xiàn)的次數(shù)划鸽,m文檔中主題數(shù)量的和??(可重復(fù)的,所以應(yīng)該就是文檔中詞的個(gè)數(shù)戚哎,不變的量)??裸诽,k主題對(duì)應(yīng)的t詞的次數(shù),k主題對(duì)應(yīng)的總詞數(shù)(n(k)m等等初始化為0)型凳。
2.之后對(duì)下述操作進(jìn)行重復(fù)迭代丈冬。
對(duì)所有文檔中的所有詞進(jìn)行遍歷,假如當(dāng)前文檔m的詞t對(duì)應(yīng)主題為k甘畅,則n(k)m-1, nm-1, n(t)k-1, nk-1, 即先拿出當(dāng)前詞埂蕊,之后根據(jù)LDA中topic sample的概率分布采樣出新主題,在對(duì)應(yīng)的n(k)m, nm, n(t)k, nk上分別+1疏唾。
迭代完成后輸出主題-詞參數(shù)矩陣φ和文檔-主題矩陣θ
從這里看出蓄氧,gibbs采樣方法求解 LDA 最重要的是條件概率p(zi | z-i,w)的計(jì)算上。
下文對(duì)狄利克雷分布進(jìn)行了通俗的講解:
https://blog.csdn.net/guleileo/article/details/80971601
-----------------------------------所用到一些參考的定義---------------------------------------------------------------------
1)狄利克雷函數(shù)
狄利克雷函數(shù)(英語(yǔ):dirichlet function)是一個(gè)定義在實(shí)數(shù)范圍上槐脏、值域不連續(xù)的函數(shù)喉童。
2)邊際分布(marginal distribution)
邊際分布是指對(duì)無(wú)關(guān)變量求和或積分的結(jié)果。例如對(duì)于 (x, y) 構(gòu)成的聯(lián)合概率分布中顿天,對(duì)于 x 的邊際分布為:
P(x) = P{ X < x } = P{ X < x, Y < 正無(wú)窮 }
3)大數(shù)定理
大數(shù)定律(law of large numbers)堂氯,是一種描述當(dāng)試驗(yàn)次數(shù)很大時(shí)所呈現(xiàn)的概率性質(zhì)的定律。在隨機(jī)事件的大量重復(fù)出現(xiàn)中牌废,往往呈現(xiàn)幾乎必然的規(guī)律咽白,這個(gè)規(guī)律就是大數(shù)定律。通俗地說(shuō)畔规,這個(gè)定理就是局扶,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率三妈。偶然中包含著某種必然畜埋。
參考 CSDN博主「MLcongcongAI」的原創(chuàng)文章? 原文鏈接:https://blog.csdn.net/MLcongcongAI/article/details/88137005
和https://blog.csdn.net/weixin_34261739/article/details/87444627