7 LDA - 簡書

7 LDA

LDA解釋:假如有一篇文章text，通過里面的詞畔勤，來確定他是什么類型的文章，如果文章中出現(xiàn)很多體育類的詞扒磁，比如庆揪，籃球，足球之類的妨托，那么主題模型就會(huì)把它劃分為體育類的文章

什么是LDA缸榛？

它是一種無監(jiān)督的貝葉斯模型。

是一種主題模型兰伤，它可以將文檔集中的每篇文檔按照概率分布的形式給出内颗。

是一種無監(jiān)督學(xué)習(xí)，在訓(xùn)練時(shí)不需要手工標(biāo)注的訓(xùn)練集敦腔，需要的是文檔集和指定主題的個(gè)數(shù)均澳。

是一種典型的詞袋模型，它認(rèn)為一篇文檔是由一組詞組成的集合符衔，詞與詞之間沒有順序和先后關(guān)系

LDA的目的就是要識(shí)別主題找前，即把文檔—詞匯矩陣變成文檔—主題矩陣（分布）和主題—詞匯矩陣（分布）

P(詞?|?文檔)=P（詞?|?主題）P（主題?|?文檔）

用表達(dá)式如下：

P(w|d)=P(w|t)?P(t|d)

詞→主題→文檔

同一主題下，某個(gè)詞出現(xiàn)的概率柏腻，以及同一文檔下纸厉，某個(gè)主題出現(xiàn)的概率，兩個(gè)概率的乘積五嫂，可以得到某篇文檔出現(xiàn)某個(gè)詞的概率，我們在訓(xùn)練的時(shí)候肯尺，調(diào)整這兩個(gè)分布就可以了沃缘。

由此可以定義LDA的生成過程：

對(duì)每篇文檔，在主題分布中抽取一個(gè)主題则吟；（相當(dāng)于左圖）

對(duì)抽到的主題所對(duì)應(yīng)的單詞分布中隨機(jī)抽取一個(gè)單詞槐臀；（在右圖中抽）

重復(fù)上述過程直至遍歷整篇文檔中的每個(gè)單詞

3 實(shí)例

3.1 計(jì)算文檔-詞匯矩陣

N個(gè)文檔組成的語料庫（??1，??2氓仲，"……" 水慨，????）得糜，由V個(gè)詞組成的詞匯表。矩陣中的值表示了詞???? 〖在文檔??〗?? 中出現(xiàn)的頻率晰洒，主題用Z表示朝抖，下面對(duì)語料庫中的每一個(gè)word隨機(jī)指派一個(gè)主題編號(hào)????，統(tǒng)計(jì)每個(gè)??_??下出現(xiàn)的word次數(shù)谍珊，可得一個(gè)主題—詞匯矩陣治宣。

3.2 計(jì)算主題-詞匯矩陣

3.3 計(jì)算文檔主題矩陣

統(tǒng)計(jì)每個(gè)詞代表的主題在每一個(gè)文檔中出現(xiàn)的次數(shù)，可得出以下矩陣文檔—主題矩陣

參考：http://www.reibang.com/p/fa97454c9ffd

參考:https://blog.csdn.net/qq_39422642/article/details/78730662

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者