LDA解釋:假如有一篇文章text,通過里面的詞畔勤,來確定他是什么類型的文章,如果文章中出現(xiàn)很多體育類的詞扒磁,比如庆揪,籃球,足球之類的妨托,那么主題模型就會(huì)把它劃分為體育類的文章
什么是LDA缸榛?
它是一種無監(jiān)督的貝葉斯模型。
是一種主題模型兰伤,它可以將文檔集中的每篇文檔按照概率分布的形式給出内颗。
是一種無監(jiān)督學(xué)習(xí),在訓(xùn)練時(shí)不需要手工標(biāo)注的訓(xùn)練集敦腔,需要的是文檔集和指定主題的個(gè)數(shù)均澳。
是一種典型的詞袋模型,它認(rèn)為一篇文檔是由一組詞組成的集合符衔,詞與詞之間沒有順序和先后關(guān)系
LDA的目的就是要識(shí)別主題找前,即把文檔—詞匯矩陣變成文檔—主題矩陣(分布)和主題—詞匯矩陣(分布)
P(詞?|?文檔)=P(詞?|?主題)P(主題?|?文檔)
用表達(dá)式如下:
P(w|d)=P(w|t)?P(t|d)
詞→主題→文檔
同一主題下,某個(gè)詞出現(xiàn)的概率柏腻,以及同一文檔下纸厉,某個(gè)主題出現(xiàn)的概率,兩個(gè)概率的乘積五嫂,可以得到某篇文檔出現(xiàn)某個(gè)詞的概率,我們在訓(xùn)練的時(shí)候肯尺,調(diào)整這兩個(gè)分布就可以了沃缘。
由此可以定義LDA的生成過程:
對(duì)每篇文檔,在主題分布中抽取一個(gè)主題则吟;(相當(dāng)于左圖)
對(duì)抽到的主題所對(duì)應(yīng)的單詞分布中隨機(jī)抽取一個(gè)單詞槐臀;(在右圖中抽)
重復(fù)上述過程直至遍歷整篇文檔中的每個(gè)單詞
3 實(shí)例
3.1 計(jì)算文檔-詞匯矩陣
N個(gè)文檔組成的語料庫(??1,??2氓仲,"……" 水慨,????)得糜,由V個(gè)詞組成的詞匯表。矩陣中的值表示了詞???? 〖在文檔??〗?? 中出現(xiàn)的頻率晰洒,主題用Z表示朝抖,下面對(duì)語料庫中的每一個(gè)word隨機(jī)指派一個(gè)主題編號(hào)????,統(tǒng)計(jì)每個(gè)??_??下出現(xiàn)的word次數(shù)谍珊,可得一個(gè)主題—詞匯矩陣治宣。
3.2 計(jì)算主題-詞匯矩陣
3.3 計(jì)算文檔主題矩陣
統(tǒng)計(jì)每個(gè)詞代表的主題在每一個(gè)文檔中出現(xiàn)的次數(shù),可得出以下矩陣文檔—主題矩陣
參考:http://www.reibang.com/p/fa97454c9ffd
參考:https://blog.csdn.net/qq_39422642/article/details/78730662