??????? VSM(向量空間模型)是信息檢索領(lǐng)域最為經(jīng)典的分析模型之一作喘,采用VSM對(duì)短文本進(jìn)行建模耐亏,即將每一篇短文本表示為向量的形式广辰,用TF-TDF表示向量的值主之。給出一些符號(hào)定義:短文本集SD= {sd1,sd2几睛,...粤攒,sdM},M為短文本總數(shù)焕济,詞表V = {V1盔几,V2逊拍,...,VN}芍阎,N為詞匯數(shù)缨恒。一篇短文本sdi∈SD的向量表示為V(i)= (w(i)1,w(i)2寿冕,...椒袍,w(i)N),其中w(i)k為詞vk∈V在sdi中的權(quán)重玫恳,通常用TF-IDF來表示
??????? 其中京办,tfki表示vk在sdi中出現(xiàn)的次數(shù),dfk表示SD中含有vk的短文本總數(shù)不恭。然后可采用余弦距離計(jì)算兩個(gè)向量的值财饥,用余弦距離表示兩篇文本的相似度,值越大認(rèn)為兩篇文本越相似沾瓦,計(jì)算公式如下:
?????? 由于短文本的長度短贯莺、表意不明確性和特征稀疏性等問題宁改,使用VSM不能完全建模短文本中存在的問題透且。針對(duì)VSM存在數(shù)據(jù)空間稀疏、不能有效挖掘語義特征等問題鲸沮,將LDA模型應(yīng)用到文本相似度計(jì)算中锅论。LDA模型將VSM的文本向量表示映射到主題空間向量表示,不僅能對(duì)數(shù)據(jù)有效降維怒坯,還能有效解決一詞多義和一義多詞的問題藻懒。
? ? ? ? LDA模型的基本思想是將文檔描述為主題概率分布并進(jìn)一步將主題描述為詞項(xiàng)概率分布嬉荆。LDA模型是一個(gè)3層Bayes結(jié)構(gòu),其LDA圖模型下圖所示汪茧。
LDA模型生成過程可描述如下:
(1)文檔d中詞項(xiàng)總數(shù)Nd服從泊松分布舱污,其參數(shù)為ξ:Nd~Poisson(ξ)
(2)對(duì)每篇文檔d∈{1,2媚赖,...驴剔,|D|}粥庄,按概率生成其主題分布:θ→d~ Dirichlet(α→)惜互;
(3)對(duì)每個(gè)主題z∈{1,2描验,...坑鱼,K},按概率生成其詞項(xiàng)分布:φ→k~ Dirichlet(β→)呼股;
(4)對(duì)文檔d中每個(gè)詞wn的生成過程画恰,其中n∈{1,2缠局,...狭园,Nd}糊治,有:
???????? 1)根據(jù)主題分布θ→d生成文檔d詞項(xiàng)wn主題:zd,n~Multionmial(θ→d)揖赴;
? ? ? ? 2)根 據(jù) 詞 項(xiàng) 分 布φzd,n→生 成 所 選 主 題 詞 項(xiàng):wd渐北,n~Multionmial(φ→zd铭拧,n)搀菩。
基于LDA主題模型的短文本分類算法
其具體步驟總結(jié)如下:
輸入:LDA模型語料庫呕臂、KNN分類語料庫
輸出:待分類文本的分類結(jié)果
(1)通過文本語料庫訓(xùn)練LDA模型并推斷KNN訓(xùn)練和測試文本集的主題分布;
(2)選取特征詞并修改主題分布肪跋;
(3)根據(jù)式
計(jì)算主題相似度歧蒋;
(4)采用KNN分類并根據(jù)下式進(jìn)行類別判斷
引自:楊萌萌等,基于LDA主題模型的短文本分類州既,計(jì)算機(jī)工程與設(shè)計(jì)谜洽,2016