機(jī)器學(xué)習(xí)算法之主題模型(LFM LSI PLSI LDA)

LFM(MF分解技術(shù))、LSI(SVD分解)嘹承、PLSI(EM)窗价、LDA

隱語(yǔ)義模型LFM和LSI,PLSI叹卷,LDA撼港,Topic Model其實(shí)都屬于隱含語(yǔ)義分析技術(shù),是一類概念骤竹,他們?cè)诒举|(zhì)上是相通的帝牡,都是找出潛在的主題或分類。這些技術(shù)一開始都是在文本挖掘領(lǐng)域中提出來的蒙揣,近些年它們也被不斷應(yīng)用到其他領(lǐng)域中靶溜,并得到了不錯(cuò)的應(yīng)用效果。比如懒震,在推薦系統(tǒng)中它能夠基于用戶的行為對(duì)item進(jìn)行自動(dòng)聚類罩息,也就是把item劃分到不同類別/主題,這些主題/類別可以理解為用戶的興趣个扰。

主題模型:Topic Model

topic model是針對(duì)文本隱含主題的建模方法瓷炮,針對(duì)第一個(gè)case,馬云對(duì)應(yīng)的主題是阿里巴巴锨匆,阿里巴巴集團(tuán)也隱含阿里巴巴主題崭别,這樣兩個(gè)文本的主題匹配上宛琅,認(rèn)為他們是相關(guān)的压恒,針對(duì)第二個(gè),分別針對(duì)水果以及手機(jī)主題弃酌,我們認(rèn)為他們是不相關(guān)的土榴。

究竟什么是主題诀姚?主題就是一個(gè)概念、一個(gè)方面玷禽。它表現(xiàn)為一系列相關(guān)的詞赫段,能夠代表這個(gè)主題。比如如果是”阿里巴巴“主題矢赁,那么”馬云“”電子商務(wù)“等詞會(huì)很高的頻率出現(xiàn)糯笙,而設(shè)計(jì)到”騰訊“主題,那么“馬化騰”“游戲”“QQ”會(huì)以較高的頻率出現(xiàn)撩银。如果用數(shù)學(xué)來描述一下的話给涕,主題就是詞匯表上詞語(yǔ)的條件概率分布,與主題密切相關(guān)的詞,條件概率p(w|z)越大够庙。主題就像一個(gè)桶恭应,裝了出現(xiàn)頻率很高的詞語(yǔ),這些詞語(yǔ)和主題有很強(qiáng)的相關(guān)性耘眨,或者說這些詞語(yǔ)定義了這個(gè)主題昼榛。同時(shí),一個(gè)詞語(yǔ)剔难,可能來自于這個(gè)桶胆屿,也可能來自那個(gè)桶,比如“電子商務(wù)”可以來自“阿里巴巴”主題钥飞,也可以來自“京東“主題莺掠,所以一段文字往往包含多個(gè)主題,也就是說读宙,一段文字不只有一個(gè)主題彻秆。

上面介紹了主題的概念,我們最為關(guān)心的是如何得到這些主題结闸?這就是topic model要解決的問題唇兑。

define: d表示文檔,w表示詞語(yǔ)桦锄,z表示隱含的主題扎附。

p(w|d)=∑zp(w|z)p(z|d)

其中p(w|d)表示w在文檔d中出現(xiàn)的概率,針對(duì)訓(xùn)練語(yǔ)料结耀,對(duì)文本進(jìn)行分詞留夜,w的頻度除以文檔所有詞語(yǔ)的頻度和,可以求出图甜,對(duì)于未知數(shù)據(jù)碍粥,model用來計(jì)算該value.

p(w|z)表示在給定主題情況下詞語(yǔ)的出現(xiàn)的概率是多少,刻畫詞語(yǔ)和主題的相關(guān)程度黑毅。

p(z|d)表示文檔中每個(gè)主題出現(xiàn)的概率

所以主題模型就是 利用大量已知的p(w|d)詞語(yǔ)-文檔信息嚼摩,訓(xùn)練出來主題-文檔p(z|d)以及詞語(yǔ)-主題p(w|z)。

主題模型的用途:

1.計(jì)算文本的相似性矿瘦,考慮到文本語(yǔ)義枕面,更好的刻畫文本相似性,避免多義詞缚去,同義詞的影響

2.文本聚類潮秘,用戶聚類(RS)

3.去除噪音,只保留最重要的主題易结,更好的刻畫文檔


1. LFM:隱語(yǔ)義模型枕荞,MF分解

最終的用戶評(píng)分矩陣(混淆矩陣)=P* Q

P矩陣代表了 user-class

Q矩陣代表了class-item

class:根據(jù)自動(dòng)聚類算法獲得幾個(gè)類標(biāo)簽稠通;

P、Q中的參數(shù)通過模型學(xué)習(xí)得到:

計(jì)算損失函數(shù):隨機(jī)梯度下降法买猖,使得損失值最小滋尉;

參考文獻(xiàn):http://blog.csdn.net/harryhuang1990/article/details/9924377

2. LSI(LSA)模型:基于SVD分解

LSI: Latent Semantic Analysis (Latent Semantic Indexing)

背景:

傳統(tǒng)的信息檢索中:將單詞作為特征玉控,構(gòu)造特征向量;計(jì)算查詢單詞與文檔間的相似度狮惜;

但是沒有考慮到語(yǔ)義高诺、同義詞等相關(guān)信息;

在基于單詞的檢索方法中碾篡,同義詞會(huì)降低檢索算法的召回率(Recall)虱而,而多義詞的存在會(huì)降低檢索系統(tǒng)的準(zhǔn)確率(Precision)

我們希望找到一種模型,能夠捕獲到單詞之間的相關(guān)性开泽。如果兩個(gè)單詞之間有很強(qiáng)的相關(guān)性牡拇,那么當(dāng)一個(gè)單詞出現(xiàn)時(shí),往往意味著另一個(gè)單詞也應(yīng)該出現(xiàn)(同義 詞)穆律;反之惠呼,如果查詢語(yǔ)句或者文檔中的某個(gè)單詞和其他單詞的相關(guān)性都不大,那么這個(gè)詞很可能表示的是另外一個(gè)意思(比如在討論互聯(lián)網(wǎng)的文章中峦耘,Apple 更可能指的是Apple公司剔蹋,而不是水果) ?。

LSA(LSI)使用SVD來對(duì)單詞-文檔矩陣進(jìn)行分解辅髓。SVD可以看作是從單詞-文檔矩陣中發(fā)現(xiàn)不相關(guān)的索引變量(因子)泣崩,將原來的數(shù)據(jù)映射到語(yǔ)義空間內(nèi)。在單詞-文檔矩陣中不相似的兩個(gè)文檔洛口,可能在語(yǔ)義空間內(nèi)比較相似矫付。

SVD,亦即奇異值分解绍弟,是對(duì)矩陣進(jìn)行分解的一種方法技即,一個(gè)t*d維的矩陣(單詞-文檔矩陣)X,可以分解為T*S*DT樟遣, 其中T為t*m維矩陣而叼,T中的每一列稱為左奇異向量(left singular vector),S為m*m維對(duì)角矩陣豹悬,每個(gè)值稱為奇異值(singular value)葵陵,D為d*m維矩陣,D中的每一列稱為右奇異向量。在對(duì)單詞文檔矩陣X做SVD分解之后瞻佛,我們只保存S中最大的K個(gè)奇異值脱篙,以及T和D中對(duì)應(yīng) 的K個(gè)奇異向量娇钱,K個(gè)奇異值構(gòu)成新的對(duì)角矩陣S’,K個(gè)左奇異向量和右奇異向量構(gòu)成新的矩陣T’和D’:X’=T’*S’*D’T形成了一個(gè)新的t*d矩陣绊困。

還原后的X’與X差別很大文搂,這是因?yàn)槲覀冋J(rèn)為之前X存在很大的噪音,X’是對(duì)X處理過同義詞和多義詞后的結(jié)果秤朗。

在查詢時(shí)煤蹭,對(duì)與每個(gè)給定的查詢q,我們根據(jù)這個(gè)查詢中包含的單詞(Xq)構(gòu)造一個(gè)偽文檔:Dq=XqTS-1取视,然后該偽文檔和D’中的每一行計(jì)算相似度(余弦相似度)來得到和給定查詢最相似的文檔硝皂。

參考:http://www.cnblogs.com/kemaswill/archive/2013/04/17/3022100.html


3. PLSI:基于概率LSI

盡管基于SVD的LSA取得了一定的成功,但是其缺乏嚴(yán)謹(jǐn)?shù)臄?shù)理統(tǒng)計(jì)基礎(chǔ)作谭,而且SVD分解非常耗時(shí)稽物。Hofmann在SIGIR'99上提出了基于概率統(tǒng)計(jì)的PLSA模型,并且用EM算法學(xué)習(xí)模型參數(shù)折欠。PLSA的概率圖模型如下:


參考文獻(xiàn):http://san-yun.iteye.com/blog/1966653

? ? ? ? ? ? ? ? ?http://blog.csdn.net/yangliuy/article/details/8330640


3. LDA(推薦系統(tǒng)應(yīng)用):

回顧:

主題模型就是 利用大量已知的p(w|d)詞語(yǔ)-文檔信息贝或,訓(xùn)練出來主題-文檔p(z|d)以及詞語(yǔ)-主題p(w|z);在LDA模型中锐秦,主題-文檔分布是α傀缩,詞語(yǔ)-主題分布是β;

對(duì)于數(shù)據(jù)集D中的每個(gè)文檔w农猬,LDA假定了如下的生成過程:

LDA是一個(gè)三層的模型赡艰,α,β是全局超參數(shù),采樣一次即可斤葱。θd是文檔級(jí)別的變量慷垮,每生成一個(gè)文檔時(shí)采樣一次。zn,wn是單詞級(jí)別的變量揍堕,每生成一個(gè)單詞時(shí)采樣一次

(1)選擇一個(gè)N~Poisson(?)料身,N是該文檔中單詞的個(gè)數(shù);

(2)選擇一個(gè)θ~Dir(α)衩茸,θ是主題分布所服從Dirichet(α)的參數(shù)芹血;

(3)對(duì)于文檔中的每一個(gè)詞wn:

? ? ? ? a.選擇一個(gè)主題zn~Multinomial(θ);每個(gè)主題服從多項(xiàng)式分布楞慈;

? ? ? ? b.在選定主題zn后幔烛,在該主題對(duì)應(yīng)的詞分布中選擇一個(gè)單詞wn,它的概率是p(w|zn,β)囊蓝。wn~Multinomial(β);饿悬,

補(bǔ)充:

伯努利分布: 0-1分布;

二項(xiàng)分布:多個(gè)伯努利分布

多項(xiàng)式分布:有多個(gè)結(jié)果聚霜,伯努利分布的擴(kuò)展

beta分布:來源于二項(xiàng)分布狡恬,是二項(xiàng)分布的共軛先驗(yàn)珠叔;x~U(0,1),隨機(jī)采樣后弟劲,排序之后的分布即為beta分布祷安;

狄雷克類分布:多變量的bata分布

從Dirichet(α)中獲得一篇文檔的主題分布函數(shù)θ,作為先驗(yàn)分布兔乞;θ是文檔級(jí)別的辆憔;

D:數(shù)據(jù)集D中包含M個(gè)文檔,D=w1,w2,…,wM报嵌;w:每個(gè)文檔中有N個(gè)單詞,w=(w1,w2,...,wN)熊榛,wn是文檔詞序列的第n個(gè)詞锚国;

z:z代表一個(gè)主題,是一個(gè)k維向量玄坦,k是主題個(gè)數(shù)血筑,第k個(gè)主題可以表示為:zk=1,zj=0,k≠j,所以每個(gè)z是一個(gè)單位向量煎楣;

w:w代表一個(gè)詞豺总,是一個(gè)V維向量,V是總詞典的大小择懂,詞典中第v個(gè)詞可以表示為:wv=1,wu=0,u≠v喻喳,所以每個(gè)w都是一個(gè)單位向量;

α:是狄利克雷分布的參數(shù)困曙,是我們要估計(jì)的參數(shù)表伦;

β:是一個(gè)k*V的矩陣,k是主題個(gè)數(shù)慷丽,V是詞典個(gè)數(shù)蹦哼,β(i,j)代表主題zi中單詞wj的概率,也就是說要糊,β中存儲(chǔ)的是主題-詞分布纲熏,是我們要估計(jì)的參數(shù)。

概率模型圖锄俄,我們可以得到如下概率公式:

θ服從多項(xiàng)式分布局劲,我們最終獲得一topic分布

給定α,β,根據(jù)文檔生成的過程奶赠,可以得到容握,主題分布的參數(shù)θ,N個(gè)主題的集合z车柠,N個(gè)單詞的集合w剔氏,的聯(lián)合分布:

N 個(gè)主題塑猖,N個(gè)單詞
求得W的邊緣分布

目標(biāo):從給定的文檔和word中,學(xué)習(xí)出一個(gè)topic分布模型谈跛,取對(duì)數(shù)似然:

wd是詞語(yǔ)一篇文檔的詞語(yǔ)集合羊苟,有M篇文檔

算法如下:

3.1 Gamma函數(shù)?

3.2 二項(xiàng)分布


3.3 Beta 分布


參考http://blog.csdn.net/happyer88/article/details/45936107

http://www.cnblogs.com/lixiaolun/p/4455764.html

http://blog.csdn.net/zhaoyin654/article/details/49153999

4. MF(矩陣分解一致)

http://blog.csdn.net/litoupu/article/details/16944359

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市感憾,隨后出現(xiàn)的幾起案子蜡励,更是在濱河造成了極大的恐慌,老刑警劉巖阻桅,帶你破解...
    沈念sama閱讀 211,561評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件凉倚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡嫂沉,警方通過查閱死者的電腦和手機(jī)稽寒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來趟章,“玉大人杏糙,你說我怎么就攤上這事◎就粒” “怎么了宏侍?”我有些...
    開封第一講書人閱讀 157,162評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)蜀漆。 經(jīng)常有香客問我谅河,道長(zhǎng),這世上最難降的妖魔是什么确丢? 我笑而不...
    開封第一講書人閱讀 56,470評(píng)論 1 283
  • 正文 為了忘掉前任旧蛾,我火速辦了婚禮,結(jié)果婚禮上蠕嫁,老公的妹妹穿的比我還像新娘锨天。我一直安慰自己,他們只是感情好剃毒,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,550評(píng)論 6 385
  • 文/花漫 我一把揭開白布病袄。 她就那樣靜靜地躺著,像睡著了一般赘阀。 火紅的嫁衣襯著肌膚如雪益缠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,806評(píng)論 1 290
  • 那天基公,我揣著相機(jī)與錄音幅慌,去河邊找鬼。 笑死轰豆,一個(gè)胖子當(dāng)著我的面吹牛胰伍,可吹牛的內(nèi)容都是我干的齿诞。 我是一名探鬼主播,決...
    沈念sama閱讀 38,951評(píng)論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼骂租,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼祷杈!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起渗饮,我...
    開封第一講書人閱讀 37,712評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤但汞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后互站,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體私蕾,經(jīng)...
    沈念sama閱讀 44,166評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,510評(píng)論 2 327
  • 正文 我和宋清朗相戀三年胡桃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了踩叭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,643評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡标捺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出揉抵,到底是詐尸還是另有隱情亡容,我是刑警寧澤,帶...
    沈念sama閱讀 34,306評(píng)論 4 330
  • 正文 年R本政府宣布冤今,位于F島的核電站闺兢,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏戏罢。R本人自食惡果不足惜屋谭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,930評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望龟糕。 院中可真熱鬧桐磁,春花似錦、人聲如沸讲岁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)缓艳。三九已至校摩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間阶淘,已是汗流浹背衙吩。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留溪窒,地道東北人坤塞。 一個(gè)月前我還...
    沈念sama閱讀 46,351評(píng)論 2 360
  • 正文 我出身青樓冯勉,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親尺锚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子珠闰,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,509評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容