LDA (LDA文檔主題生成模型)

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型徙歼,也稱為一個(gè)三層貝葉斯概率模型,包含詞姊扔、主題和文檔三層結(jié)構(gòu)惠奸。所謂生成模型,就是說恰梢,我們認(rèn)為一篇文章的每個(gè)詞都是通過“以一定概率選擇了某個(gè)主題佛南,并從這個(gè)主題中以一定概率選擇某個(gè)詞語”這樣一個(gè)過程得到。文檔到主題服從多項(xiàng)式分布嵌言,主題到詞服從多項(xiàng)式分布嗅回。[1]

LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識(shí)別大規(guī)模文檔集(document collection)或語料庫(kù)(corpus)中潛藏的主題信息摧茴。它采用了詞袋(bag of words)的方法绵载,這種方法將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息蓬蝶。但是詞袋方法沒有考慮詞與詞之間的順序尘分,這簡(jiǎn)化了問題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)丸氛。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布培愁,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。


1LDA生成過程

對(duì)于語料庫(kù)中的每篇文檔缓窜,LDA定義了如下生成過程(generativeprocess):

1.對(duì)每一篇文檔定续,從主題分布中抽取一個(gè)主題;

2.從上述被抽到的主題所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞禾锤;

3.重復(fù)上述過程直至遍歷文檔中的每一個(gè)單詞私股。

語料庫(kù)中的每一篇文檔與T(通過反復(fù)試驗(yàn)等方法事先給定)個(gè)主題的一個(gè)多項(xiàng)分布 (multinomialdistribution)相對(duì)應(yīng),將該多項(xiàng)分布記為θ恩掷。每個(gè)主題又與詞匯表(vocabulary)中的V個(gè)單詞的一個(gè)多項(xiàng)分布相對(duì)應(yīng)倡鲸,將這個(gè)多項(xiàng)分布記為φ。[1]

2LDA整體流程

先定義一些字母的含義:文檔集合D黄娘,主題(topic)集合T

D中每個(gè)文檔d看作一個(gè)單詞序列峭状,wi表示第i個(gè)單詞克滴,設(shè)d有n個(gè)單詞。(LDA里面稱之為wordbag优床,實(shí)際上每個(gè)單詞的出現(xiàn)位置對(duì)LDA算法無影響)

·D中涉及的所有不同單詞組成一個(gè)大集合VOCABULARY(簡(jiǎn)稱VOC)劝赔,LDA以文檔集合D作為輸入,希望訓(xùn)練出的兩個(gè)結(jié)果向量(設(shè)聚成k個(gè)topic胆敞,VOC中共包含m個(gè)詞):

·對(duì)每個(gè)D中的文檔d着帽,對(duì)應(yīng)到不同Topic的概率θd,其中移层,pti表示d對(duì)應(yīng)T中第i個(gè)topic的概率仍翰。計(jì)算方法是直觀的,pti=nti/n幽钢,其中nti表示d中對(duì)應(yīng)第i個(gè)topic的詞的數(shù)目歉备,n是d中所有詞的總數(shù)。

·對(duì)每個(gè)T中的topict匪燕,生成不同單詞的概率φt蕾羊,其中,pwi表示t生成VOC中第i個(gè)單詞的概率帽驯。計(jì)算方法同樣很直觀龟再,pwi=Nwi/N,其中Nwi表示對(duì)應(yīng)到topict的VOC中第i個(gè)單詞的數(shù)目尼变,N表示所有對(duì)應(yīng)到topict的單詞總數(shù)利凑。

LDA的核心公式如下:

p(w|d)=p(w|t)*p(t|d)

直觀的看這個(gè)公式,就是以Topic作為中間層嫌术,可以通過當(dāng)前的θd和φt給出了文檔d中出現(xiàn)單詞w的概率哀澈。其中p(t|d)利用θd計(jì)算得到,p(w|t)利用φt計(jì)算得到度气。

實(shí)際上割按,利用當(dāng)前的θd和φt,我們可以為一個(gè)文檔中的一個(gè)單詞計(jì)算它對(duì)應(yīng)任意一個(gè)Topic時(shí)的p(w|d)磷籍,然后根據(jù)這些結(jié)果來更新這個(gè)詞應(yīng)該對(duì)應(yīng)的topic适荣。然后,如果這個(gè)更新改變了這個(gè)單詞所對(duì)應(yīng)的Topic院领,就會(huì)反過來影響θd和φt弛矛。[2]

3LDA學(xué)習(xí)過程(方法之一)

LDA算法開始時(shí),先隨機(jī)地給θd和φt賦值(對(duì)所有的d和t)比然。然后上述過程不斷重復(fù)丈氓,最終收斂到的結(jié)果就是LDA的輸出。再詳細(xì)說一下這個(gè)迭代的學(xué)習(xí)過程:

1.針對(duì)一個(gè)特定的文檔ds中的第i單詞wi,如果令該單詞對(duì)應(yīng)的topic為tj万俗,可以把上述公式改寫為:

pj(wi|ds)=p(wi|tj)*p(tj|ds)

2.現(xiàn)在我們可以枚舉T中的topic鱼鼓,得到所有的pj(wi|ds),其中j取值1~k该编。然后可以根據(jù)這些概率值結(jié)果為ds中的第i個(gè)單詞wi選擇一個(gè)topic。最簡(jiǎn)單的想法是取令pj(wi|ds)最大的tj(注意硕淑,這個(gè)式子里只有j是變量)课竣,即argmax[j]pj(wi|ds)

3.然后,如果ds中的第i個(gè)單詞wi在這里選擇了一個(gè)與原先不同的topic置媳,就會(huì)對(duì)θd和φt有影響了(根據(jù)前面提到過的這兩個(gè)向量的計(jì)算公式可以很容易知道)于樟。它們的影響又會(huì)反過來影響對(duì)上面提到的p(w|d)的計(jì)算。對(duì)D中所有的d中的所有w進(jìn)行一次p(w|d)的計(jì)算并重新選擇topic看作一次迭代拇囊。這樣進(jìn)行n次循環(huán)迭代之后迂曲,就會(huì)收斂到LDA所需要的結(jié)果了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末寥袭,一起剝皮案震驚了整個(gè)濱河市路捧,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌传黄,老刑警劉巖杰扫,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異膘掰,居然都是意外死亡章姓,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門识埋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來凡伊,“玉大人,你說我怎么就攤上這事窒舟∠得Γ” “怎么了?”我有些...
    開封第一講書人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵辜纲,是天一觀的道長(zhǎng)笨觅。 經(jīng)常有香客問我,道長(zhǎng)耕腾,這世上最難降的妖魔是什么见剩? 我笑而不...
    開封第一講書人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮扫俺,結(jié)果婚禮上苍苞,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好羹呵,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開白布骂际。 她就那樣靜靜地躺著,像睡著了一般冈欢。 火紅的嫁衣襯著肌膚如雪歉铝。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,258評(píng)論 1 300
  • 那天凑耻,我揣著相機(jī)與錄音太示,去河邊找鬼。 笑死香浩,一個(gè)胖子當(dāng)著我的面吹牛类缤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播邻吭,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼餐弱,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了囱晴?” 一聲冷哼從身側(cè)響起膏蚓,我...
    開封第一講書人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎速缆,沒想到半個(gè)月后降允,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡艺糜,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年剧董,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片破停。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡翅楼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出真慢,到底是詐尸還是另有隱情毅臊,我是刑警寧澤,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布管嬉,位于F島的核電站蚯撩,受9級(jí)特大地震影響沟启,放射性物質(zhì)發(fā)生泄漏德迹。R本人自食惡果不足惜胳搞,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧页衙,春花似錦店乐、人聲如沸眨八。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至索赏,卻和暖如春潜腻,著一層夾襖步出監(jiān)牢的瞬間砾赔,已是汗流浹背暴心。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工专普, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留檀夹,地道東北人娜亿。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蚌堵,于是被迫代替她去往敵國(guó)和親买决。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容