理解LDA:共軛先驗分布(Conjugate priors)

LDA的全稱是Latent Dirichlet allocation

LDA算法可以根據(jù)給定的文本集合以及預(yù)先指定的主題個數(shù),對文本進行主題分類智亮,并給出每個類別下的主題關(guān)鍵詞卧檐。

理解LDA算法的關(guān)鍵是共軛先驗分布帘瞭,LDA利用了共軛先驗分布的特性:經(jīng)過Bayes推斷之后的后驗分布仍然和先驗分布的形式相同朱浴,這意味著可以利用一批數(shù)據(jù)來更新先驗分布P0的參數(shù),使其變成服從同樣分布的后驗分布P1顶捷,并可以將P1作為下一批數(shù)據(jù)的先驗分布挂绰。這樣,我們就可以使用解析的方法進行機器學(xué)習(xí)了服赎。

用公式來解釋:

Bayes后驗分布

其中


如果制定了數(shù)據(jù)生成過程的概率分布葵蒂,以及參數(shù)模型的先驗分布,我們可以推導(dǎo)出后驗概率分布服從的概率分布模型重虑。如果先驗分布和后驗分布可以使用同一種概率分布模型來表示践付,則稱


共軛分布描述的是概率分布之間的關(guān)系。比如高斯分布是高斯分布的先驗分布缺厉,Beta分布是二項分布的先驗分布永高。這里有個小技巧,為了證明上述兩個例子提针,無須完整計算Bayes后驗分布的表達形式乏梁,即可得出結(jié)論:


如何理解共軛先驗分布?

我們可以將先驗分布看做機器學(xué)習(xí)中的模型(比如Beta分布)关贵,那么Beta分布中的參數(shù)a,b可以作為模型狀態(tài)的表示卖毁。每次有新的訓(xùn)練數(shù)據(jù)(樣本觀測結(jié)果)揖曾,我們就可以更新模型參數(shù)(根據(jù)數(shù)據(jù)將先驗分布轉(zhuǎn)換為后驗分布),以Beta分布為例亥啦,如果數(shù)據(jù)生成過程服從二項分布炭剪,參數(shù)a,b根據(jù)數(shù)據(jù)更新后的值為a+s翔脱,b+f奴拦,其中s和f只依賴于訓(xùn)練數(shù)據(jù)。那么我們可以說模型得到了“訓(xùn)練”届吁,訓(xùn)練的結(jié)果就是模型的狀態(tài)(a错妖,b)得到了更新。這個解釋類似于維基百科【1】中的Dynamical system的解釋疚沐。


更多細節(jié)可以參考文末給出的兩個鏈接暂氯。




參考文獻

1. https://en.wikipedia.org/wiki/Conjugate_prior

2.https://courses.engr.illinois.edu/cs598jhm/sp2010/Slides/Lecture02HO.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市亮蛔,隨后出現(xiàn)的幾起案子痴施,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件辣吃,死亡現(xiàn)場離奇詭異动遭,居然都是意外死亡,警方通過查閱死者的電腦和手機神得,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進店門厘惦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人循头,你說我怎么就攤上這事绵估。” “怎么了卡骂?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵国裳,是天一觀的道長。 經(jīng)常有香客問我全跨,道長缝左,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任浓若,我火速辦了婚禮渺杉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘挪钓。我一直安慰自己是越,他們只是感情好,可當我...
    茶點故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布碌上。 她就那樣靜靜地躺著倚评,像睡著了一般。 火紅的嫁衣襯著肌膚如雪馏予。 梳的紋絲不亂的頭發(fā)上天梧,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天,我揣著相機與錄音霞丧,去河邊找鬼呢岗。 笑死,一個胖子當著我的面吹牛蛹尝,可吹牛的內(nèi)容都是我干的后豫。 我是一名探鬼主播,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼突那,長吁一口氣:“原來是場噩夢啊……” “哼硬贯!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起陨收,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤饭豹,失蹤者是張志新(化名)和其女友劉穎鸵赖,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拄衰,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡它褪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了翘悉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片茫打。...
    茶點故事閱讀 39,769評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖妖混,靈堂內(nèi)的尸體忽然破棺而出老赤,到底是詐尸還是另有隱情,我是刑警寧澤制市,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布抬旺,位于F島的核電站,受9級特大地震影響祥楣,放射性物質(zhì)發(fā)生泄漏开财。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一误褪、第九天 我趴在偏房一處隱蔽的房頂上張望责鳍。 院中可真熱鬧,春花似錦兽间、人聲如沸历葛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽恤溶。三九已至,卻和暖如春屎鳍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背问裕。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工逮壁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人粮宛。 一個月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓窥淆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親巍杈。 傳聞我的和親對象是個殘疾皇子忧饭,可洞房花燭夜當晚...
    茶點故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容