pLSA與LDA對(duì)比:
LDA就是在pLSA的基礎(chǔ)上加層貝葉斯框架,即LDA就是pLSA的貝葉斯版本保屯。
pLSA與LDA對(duì)比: LDA加入超參 ,認(rèn)為參數(shù)是隨機(jī)變量,EM不再適用于求參過程
-
pLSA與LDA對(duì)比:
-
雙Dirichlet-Multinomial共軛結(jié)構(gòu)
??→??→??表示生成文檔中的所有詞對(duì)應(yīng)的主題意推,顯然 ??→?? 對(duì)應(yīng)的是Dirichlet 分布驶兜,??→?? 對(duì)應(yīng)的是 Multinomial 分布舀凛,所以整體是一個(gè) Dirichlet-Multinomial 共軛結(jié)構(gòu)俊扳。
類似的,??→??→??容易看出猛遍, 此時(shí)??→??對(duì)應(yīng)的是 Dirichlet 分布馋记,??→?? 對(duì)應(yīng)的是 Multinomial 分布号坡, 所以整體也是一個(gè)Dirichlet-Multinomial 共軛結(jié)構(gòu)。
Gibbs Sampling求參數(shù):假定文檔已經(jīng)產(chǎn)生梯醒,反推其主題分布
給定一個(gè)文檔集合宽堆,??是可以觀察到的已知變量,??和??是根據(jù)經(jīng)驗(yàn)給定的先驗(yàn)參數(shù)冤馏,其他的變量 z日麸,??和??都是未知的隱含變量,需要根據(jù)觀察到的變量來學(xué)習(xí)估計(jì)的逮光。根據(jù)LDA的圖模型,可以寫出所有變量的聯(lián)合分布:
排除當(dāng)前詞的主題分配墩划,即根據(jù)其他詞的主題分配和觀察到的單詞來計(jì)算當(dāng)前詞主題的概率公式為:
-
求參數(shù):
-
LDA不完全隨機(jī):選不同的??涕刚,Dirichlet 分布會(huì)偏向不同的主題分布