LDA 主題模型涉及到貝葉斯理論匪燕、Dirichlet 分布、多項分布侮叮、圖模型避矢、變分推斷、EM 算法囊榜、Gibbs 抽樣等知識
這個圖模型表示法也稱作 “盤子表示法”(plate notation)审胸。圖中的雙圓圈表示可觀測變量(observed variable),單圓圈表示潛在變量(latent variable)卸勺,箭頭表示兩變量間的條件依賴性(conditional dependency)歹嘹,把節(jié)點用方框(plate)圈起來,表示其中的節(jié)點有多種選擇孔庭,重復(fù)次數(shù)在方框的右下角。
該模型有兩個參數(shù)需要推斷(infer):一個是 “文檔 - 主題” 分布θ材蛛,另外是T個 “主題 - 單詞” 分布?圆到。通過學(xué)習(xí)(learn)這兩個參數(shù),我們可以知道文檔作者感興趣的主題卑吭,以及每篇文檔所涵蓋的主題比例等芽淡。推斷方法主要有 LDA 模型作者提出的變分 EM 算法,還有現(xiàn)在常用的 Gibbs 抽樣法豆赏。
理解LDA挣菲,可以分為下述5個步驟:
一個函數(shù):gamma函數(shù)
四個分布:二項分布富稻、多項分布、beta分布白胀、Dirichlet分布
一個概念和一個理念:共軛先驗和貝葉斯框架
兩個模型:pLSA椭赋、LDA(在本文第4 部分闡述)
一個采樣:Gibbs采樣
在LDA中,一篇文檔是這樣生成的:
LDA
pLSA是頻率派的思想或杠,那么LDA就是貝葉斯派的思想哪怔。它認(rèn)為主題分布和詞分布也是不確定了,為了得到他們向抢,需要用他們的先驗分布(Dirichlet)來進行估計认境。所以,LDA的過程是這樣的:
來源:https://cosx.org/2010/10/lda_topic_model
? ? ? ? ? ?http://www.360doc.com/content/16/0428/10/478627_554452907.shtml
http://blog.jqian.net/post/lda.html(贊)
http://blog.csdn.net/claire7/article/details/46780849
http://blog.csdn.net/pipisorry/article/details/42649657