學(xué)習(xí)目標(biāo)
1.? 文本聚類概念 Explain the concept of text clustering and why it is useful.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.? 概念生成模型 Explain how we can design a probabilistic generative model for performing text clustering, and explain the similarity and difference between such a model and a topic model such as PLSA.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
3.? 階層式匯聚分群法 ?Explain how Hierarchical Agglomerative Clustering and k-Means clustering work.? ? ? ? ??
4.? 評(píng)價(jià)? Explain how to evaluate text clustering? ? ? ? ? ? ? ? ? ? ??
5.??文本分類概念??Explain the concept of text categorization and why it is useful.? ? ? ? ? ? ? ? ? ? ??
6.? Na?ve Bayes 分類??Explain how Na?ve Bayes classifier works.
一刑赶、聚類
1.1 聚類概念
聚類的目的:發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),將相似的文本對(duì)象聚集起來
聚焦:如何定義相似性——取決于看問題的角度(聚類偏差)蜡歹。即定義聚類問題時(shí)灶挟,要指定如何界定相似性,這對(duì)于聚類的評(píng)價(jià)也是十分重要的
聚類的應(yīng)用:
對(duì)術(shù)語進(jìn)行聚類——定義概念、主題? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
對(duì)文本片段——深入探究? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
對(duì)大型文本——找出相似碌识,消除冗余 , 給文本增添額外特性虱而,將文本數(shù)據(jù)結(jié)構(gòu)化筏餐,建立結(jié)構(gòu)的層次關(guān)系(微博)例如:搜索結(jié)構(gòu)聚類與對(duì)郵件進(jìn)行聚類
二、概念生成模型( generating probabilistic model)
2.1? 文本聚類方法:?
概念生成模型牡拇,基于相似性的方法
2.2? 主題模型之模型 生成 回憶:
原始:
輸入:文本C魁瞪,話題K,詞匯V惠呼,
輸出:theta i表示一組主題的分布导俘,pi ij表示每個(gè)文檔涵蓋每個(gè)主題的概率。
現(xiàn)在的文本分類概念生成模型:若假設(shè)一個(gè)主題是一個(gè)集群罢杉,則只允許一個(gè)文檔涵蓋一個(gè)主題趟畏,不再是一個(gè)文檔可涵蓋多個(gè)主題的情況。
Ci是文件i的分類滩租,進(jìn)行了集群分配決策
重點(diǎn):強(qiáng)制每個(gè)文件是從一個(gè)主題生成的,而不是在主題模型中的k個(gè)主題
問題:主題模型中利朵,生成的每個(gè)單詞獨(dú)立律想,但是要首先要選擇哪種分配(p(θi)),再使用分布進(jìn)行抽樣 绍弟。
?結(jié)果:希望“text”從第二個(gè)分布θ2產(chǎn)生技即,但更可能是從θ1中生成的。因?yàn)椤皌ext”在θ1中出現(xiàn)概率更高樟遣。0.5*0.04>0.5*0.000006
即單詞可能來自多個(gè)分布而叼。而文本聚類希望所有單詞來自于一個(gè)主題身笤,所以此種方法不適。
2.3 概念生成模型的區(qū)別與改進(jìn):
文本分類:定了一個(gè)詞屬于的θ葵陵,那么剩下的詞就都是在這個(gè)θ中生成液荸。詞的分布就是整體文章的詞分布
主題模型:定了整個(gè)分布的p,對(duì)于每個(gè)詞脱篙,都要確定其是哪個(gè)θ娇钱,亂七八糟生成詞的分布情況并不代表生成文章的情況
需注意:文本分類亦是混合模型,需要確定是哪個(gè)θ绊困,雖然只有一次
2.4? 似然函數(shù):
假設(shè)每個(gè)單詞都是獨(dú)立生成的文搂,整個(gè)文檔的概率是文件中每個(gè)單詞概率的乘積
所以,似然函數(shù)到底代表什么秤朗?——生成一篇文檔的概率——所以既可能選擇1煤蹭,也可能選擇2,所有概率需要相加取视。即:
似然函數(shù)與先驗(yàn)(p(θi))結(jié)合來得到d硝皂。
2.5? EM算法:(需回顧)
M:推斷用哪個(gè)θ來生成文檔,計(jì)算給定文檔的后驗(yàn)概率——隱形變量Zd(1~k)
三贫途、基于相似性的方法
3.1原理
指定相似度函數(shù)來度量兩個(gè)文本對(duì)象之間的相似度吧彪,定義了聚類偏差。
目標(biāo):最大化組內(nèi)相似性(同一個(gè)組中的對(duì)象是相似的)丢早,最小化組間相似性(不同組的對(duì)象 是不相似的)
3.2 方法:
逐步構(gòu)建集群的層次結(jié)構(gòu):(HAC)
1.自下而上:凝聚
?2.自上而下:分裂
平坦聚類:從最初的試探性聚類開始然后迭代地改進(jìn)它姨裸,例如k-Means
區(qū)別:計(jì)算組相似度的方式
HAC方法:
? ? ? ? ? ?單鏈:最近的一對(duì)的相似度≡乖停可預(yù)測一些松散的群傀缩。將兩個(gè)組進(jìn)行組合。對(duì)異常值敏感
? ? ? ? ? ?復(fù)雜鏈:最遠(yuǎn)的农猬∩募瑁可預(yù)測群體的緊張性。對(duì)異常值敏感斤葱。
? ? ? ? ? ?平均鏈:平均值慷垮。由整個(gè)群體決定,對(duì)異常值不敏感
K—Means方法:
? ? ? 隨機(jī)選擇k揍堕,嘗試聚類結(jié)果料身。選定的向量作為k個(gè)簇的質(zhì)心。接著計(jì)算向量與每個(gè)質(zhì)心的距離衩茸,將所有數(shù)據(jù)根據(jù)暫定質(zhì)心分成k個(gè)類芹血。基于此重新調(diào)整計(jì)算質(zhì)心,直到它收斂(最小化群內(nèi)平方和)幔烛。
四啃擦、聚類評(píng)估
4.1聚類基礎(chǔ)
知道聚類偏差(bias),
4.2 評(píng)估方法
直接評(píng)估(與人評(píng)估結(jié)果(黃金評(píng)估)的區(qū)別):
從多重視點(diǎn)得到的,表征質(zhì)量饿悬,
間接評(píng)估:在應(yīng)用中有多有用令蛉,系統(tǒng)基準(zhǔn)線
文本聚類:無監(jiān)督通用文本挖掘工具
五、文本分類(text categorization)
5.1應(yīng)用實(shí)例:
二分類乡恕、多分類言询、層次分類(主題層次)、合并分類(根據(jù)任務(wù)間的相關(guān)性)
5.2 文本分類方法:
類別必須是明確的傲宜,能夠用規(guī)則確定运杭。
缺點(diǎn):人工設(shè)置標(biāo)簽,需要給予規(guī)則函卒,不能很好地?cái)U(kuò)展辆憔。不能處理規(guī)則的不確定性。
解決方法:給機(jī)器帶標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練报嵌。 為計(jì)算機(jī)提供一些基本的功能:短語虱咧,語法結(jié)構(gòu)
優(yōu)點(diǎn):有監(jiān)督
兩種分類器:
? ? 生成分類器(general setup):試圖了解每個(gè)類別中的數(shù)據(jù)。模擬數(shù)據(jù)的聯(lián)合分布標(biāo)簽x和y锚国。使用貝葉斯規(guī)則來分配標(biāo)簽腕巡。只能間接地捕捉訓(xùn)練錯(cuò)誤(損失函數(shù)),特征:(非)線性
? ? 判別分類器(discriminative):試圖了解每個(gè)類別的特征血筑。直接給出數(shù)據(jù)點(diǎn)的標(biāo)簽的條件概率绘沉,目標(biāo)函數(shù)往往直接衡量訓(xùn)練集中分類的錯(cuò)誤。包括邏輯回歸豺总,支持向量機(jī)和k最近鄰
(需理解)
六车伞、生成概率模型進(jìn)行文本分類:
6.1生成概率模型
與文本聚類區(qū)別:文本聚類不知道什么是預(yù)定義的類別,什么是集群(聚類目標(biāo))? ?而分類給出了類別喻喳。
p(θi)是先驗(yàn)概率,要選擇最大化的話題表伦,p(θi|d)是后驗(yàn)概率谦去。
如何確保θi恰好代表我們的分類i
平滑化:
當(dāng)數(shù)據(jù)集過小的話,在利用極大似然估計(jì)求概率時(shí)會(huì)出現(xiàn)概率為0的情況蹦哼,但這是不準(zhǔn)確的哪轿,為了避免這種情況我們應(yīng)該作平滑化處理,即分子分母都加上平滑因子翔怎。
二分類得分:
普遍化:
實(shí)際上,這種一般形式非常接近于一個(gè)稱為logistic回歸的分類器。這式子里的f是指文件赤套,beta是指權(quán)重飘痛,即表示一個(gè)文件更屬于哪一個(gè)類別的偏置。