之前有說過pLSA模型酒唉,這是一個鏈式模型阳啥,這個模型能夠快速生成主題,但是也有它的不足之處(畢竟是1999年左右提出的嘛K⑾病)残制,一個很致命的缺點就是不能解決一詞多義的問題。 這樣就不能很好的區(qū)分主題的個數(shù)了掖疮。(但是不能否認這確確實實是一個經典的模型初茶,花了很長時間去看,通過這個模型我才接下來看到更經典的LDA模型)浊闪。所以在這里和大家分享一個可以說是文本主題模型里面最為經典的模型之一-----------------LDA模型恼布。提出這個模型的那篇英文原版論文引用次數(shù)已經是用萬來計數(shù)的。搁宾。折汞。。盖腿。爽待。。很恐怖(比我們這種為了發(fā)一篇論文苦苦搜鍛煉腦細胞的強太多?? 手動流汗 流汗 流汗)
1.游戲規(guī)則
看懂這個模型的話需要對照著PLDA模型來看奸忽,就在上一篇文檔里面吧堕伪!
有一個很神奇的學派叫做貝葉斯學派(這個模型實際上是在PLSA模型上加上貝葉斯框架形成的,至于什么叫貝葉斯框架栗菜,那就得說Beta/Dirichlet分布了欠雌,也在之前的文章有),這個學派對于PLSA模型是有意見滴疙筹!他們覺得doc-topic之中 θm 和? topic-word? 之中???~k都是模型之中的參數(shù)富俄,既然都是參數(shù)禁炒,怎么能沒有先驗分布呢? 為了裝個逼霍比,他們進行如下改造:
類似于Unigram Model? 的貝葉斯改造幕袱,我們也可以在如下兩
Gibbs Sampling
??( 哎呦,看到這個是不是有點熟悉悠瞬,嘿嘿前面的文章專門有介紹吉布斯采樣们豌。說過這個采樣確實是非常經典的方法!)
使用上面兩個公式就可以推導出吉布斯采樣公式
利用LDA模型進行訓練和推導
?? ? 學習LDA模型說到底就是為了用嘛浅妆,其實說句實在話望迎,在工程上,? 利用LDA模型進行文本主題檢測就是一段代碼的事凌外,網(wǎng)上有用C/C++,JAVA,Python編好的代碼辩尊,但是對于想用這個模型進行創(chuàng)新的話就得學習它的理論知識,并且知道它的整個流程康辑,才有機會結合具體情況對模型進行創(chuàng)新摄欲,改造。(寫論文的苦逼之處按薄P厍健)
??
最后一句費曼的名言和大家分享,探索之路還很長............
?????????????????????????? What I cannot create, I do not understand.
?????????????????????????????????????????????????????????????????????????????????? — Richard Feynman