02 主題模型 - SVD矩陣分解轩拨、LSA模型
03 主題模型 - LSA案例
04 主題模型 - NMF
05 主題模型 - 坐標(biāo)軸下降法
pLSA 的另一個名稱是Probabilistic Latent Semantic Indexing(pLSI)炕檩,基于概率的潛在語義分析模型。
pLSA和LSA用到的東西一模一樣。參考:《 LSA,pLSA原理及其代碼實(shí)現(xiàn)》
假定在一篇文檔d中,主題用c來表示仲智,詞語用w來表示,則有下列公式:
p(w,d) 是文擋和詞語聯(lián)合發(fā)生的概率姻氨。
根據(jù)貝葉斯網(wǎng)絡(luò)推導(dǎo)出:d→c→w <=> d→w; 所以 p(w|d,c) <=> p(w|c) ;
以上算是鞏固一下PLS算法的思想坎藐。
在PLA中,根據(jù)一篇文檔去抽出一篇主題的時候哼绑,從概率角度來說岩馍,我們沒有考慮先驗(yàn)條件。在PLA中抖韩,我們認(rèn)為所有主題出現(xiàn)的概率都是一個確定的數(shù)字蛀恩。即我們現(xiàn)在文章中,蘋果公司主題文章出現(xiàn)概率是0.3茂浮,NBA主題是0.5双谆,其他分類出現(xiàn)的概率是0.2壳咕。所有分類出現(xiàn)的概率總和是1。也就是說:我們?nèi)藶榻o定了文檔后出現(xiàn)的概率分布顽馋。
但是我們沒有考慮到先驗(yàn)條件的情況谓厘,比如:蘋果公司發(fā)布新的手機(jī)了。NBA休賽期到了寸谜。
在這種先驗(yàn)條件下竟稳,之前提到的蘋果公司主題、NBA主題這些文章出現(xiàn)的概率應(yīng)該會相應(yīng)得發(fā)生變化:
蘋果公司主題出現(xiàn)概率 ↑熊痴;NBA主題出現(xiàn)概率 ↓
仔細(xì)分析p(w,d)的完整生成過程:
p(w,d) 是文擋和詞語聯(lián)合發(fā)生的概率他爸。
我們先從文檔集合中選擇第m個文檔,即 p(dm)
再從主題集合中選擇第k個主題果善,即p(ck)
再從詞語集合中選擇第n個詞語诊笤,即p(wn)
p(w,d) = p(dm) × p(ck | dm) × p(wn | ck)
這是一個完整的生成過程,而事實(shí)上巾陕,我們只能看到 p(w,d)讨跟,觀測不到ck的值。
所以我們想建立一個似然函數(shù)鄙煤。
p(dm)抽到第m篇文檔中的情況许赃,p(dm,Wn)且抽到第n個詞的概率馆类,考慮從第1個文檔到第m個文檔,以及每個文檔中第1個到第n個詞的聯(lián)合出現(xiàn)的情況弹谁。
再分別乘以這些詞出現(xiàn)的次數(shù)乾巧。最后計算出的值就是我們建立的似然函數(shù)的值。
因?yàn)閜LSA本質(zhì)上是基于詞袋法或TF-IDF预愤,我們是基于詞與詞之間是否獨(dú)立的沟于,但是沒有考慮詞與詞之間出現(xiàn)的先后順序。 這是詞袋法和TF-IDF的核心假設(shè)植康。由于詞與詞之間是互相獨(dú)立的旷太,我們才能求每篇文章中每個詞出現(xiàn)的聯(lián)合概率,最終生成這樣的似然函數(shù)销睁。
因?yàn)橥ㄟ^似然函數(shù)暴露了隱含變量ck供璧,所以之后的求解思路是然后通過EM算法進(jìn)行求解。最終得到了我們想得的隱含變量的值冻记,幫助我們求得主題分類睡毒。
pLSA的不足:
1、概率模型不夠完備冗栗,在文檔層面上沒有提供一個完善的概率模型演顾。使得pLSA無法成為一個好的模型供搀。我們只能在確定了文檔的概率分布后才能對模型進(jìn)行隨機(jī)抽樣。
2钠至、隨著文檔和詞語個數(shù)的增加葛虐,模型的復(fù)雜度也會增加得很快。
07 主題模型 - 知識補(bǔ)充 - 概率知識棉钧、二項(xiàng)\多項(xiàng)\Beta\Dirichlet分布