文本挖掘第四周

學(xué)習(xí)目標(biāo)

1.? 文本聚類概念 Explain the concept of text clustering and why it is useful.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

2.? 概念生成模型 Explain how we can design a probabilistic generative model for performing text clustering, and explain the similarity and difference between such a model and a topic model such as PLSA.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

3.? 階層式匯聚分群法 ?Explain how Hierarchical Agglomerative Clustering and k-Means clustering work.? ? ? ? ??

4.? 評(píng)價(jià)? Explain how to evaluate text clustering? ? ? ? ? ? ? ? ? ? ??

5.??文本分類概念??Explain the concept of text categorization and why it is useful.? ? ? ? ? ? ? ? ? ? ??

6.? Na?ve Bayes 分類??Explain how Na?ve Bayes classifier works.

一刑赶、聚類

1.1 聚類概念

聚類的目的:發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),將相似的文本對(duì)象聚集起來

聚焦:如何定義相似性——取決于看問題的角度(聚類偏差)蜡歹。即定義聚類問題時(shí)灶挟,要指定如何界定相似性,這對(duì)于聚類的評(píng)價(jià)也是十分重要的

聚類的應(yīng)用:

對(duì)術(shù)語進(jìn)行聚類——定義概念、主題? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

對(duì)文本片段——深入探究? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

對(duì)大型文本——找出相似碌识,消除冗余 , 給文本增添額外特性虱而,將文本數(shù)據(jù)結(jié)構(gòu)化筏餐,建立結(jié)構(gòu)的層次關(guān)系(微博)例如:搜索結(jié)構(gòu)聚類與對(duì)郵件進(jìn)行聚類

二、概念生成模型( generating probabilistic model)

2.1? 文本聚類方法:?

概念生成模型牡拇,基于相似性的方法

2.2? 主題模型之模型 生成 回憶:

原始:

輸入:文本C魁瞪,話題K,詞匯V惠呼,

輸出theta i表示一組主題的分布导俘,pi ij表示每個(gè)文檔涵蓋每個(gè)主題的概率

現(xiàn)在的文本分類概念生成模型:若假設(shè)一個(gè)主題是一個(gè)集群罢杉,則只允許一個(gè)文檔涵蓋一個(gè)主題趟畏,不再是一個(gè)文檔可涵蓋多個(gè)主題的情況。

Ci是文件i的分類滩租,進(jìn)行了集群分配決策

重點(diǎn):強(qiáng)制每個(gè)文件是從一個(gè)主題生成的,而不是在主題模型中的k個(gè)主題

問題:主題模型中利朵,生成的每個(gè)單詞獨(dú)立律想,但是要首先要選擇哪種分配(p(θi)),再使用分布進(jìn)行抽樣 绍弟。

?結(jié)果:希望“text”從第二個(gè)分布θ2產(chǎn)生技即,但更可能是從θ1中生成的。因?yàn)椤皌ext”在θ1中出現(xiàn)概率更高樟遣。0.5*0.04>0.5*0.000006

即單詞可能來自多個(gè)分布而叼。而文本聚類希望所有單詞來自于一個(gè)主題身笤,所以此種方法不適。

2.3 概念生成模型的區(qū)別與改進(jìn):

文本分類:定了一個(gè)詞屬于的θ葵陵,那么剩下的詞就都是在這個(gè)θ中生成液荸。詞的分布就是整體文章的詞分布

主題模型:定了整個(gè)分布的p,對(duì)于每個(gè)詞脱篙,都要確定其是哪個(gè)θ娇钱,亂七八糟生成詞的分布情況并不代表生成文章的情況

需注意:文本分類亦是混合模型,需要確定是哪個(gè)θ绊困,雖然只有一次

2.4? 似然函數(shù):

假設(shè)每個(gè)單詞都是獨(dú)立生成的文搂,整個(gè)文檔的概率是文件中每個(gè)單詞概率的乘積

所以,似然函數(shù)到底代表什么秤朗?——生成一篇文檔的概率——所以既可能選擇1煤蹭,也可能選擇2,所有概率需要相加取视。即:

似然函數(shù)與先驗(yàn)(p(θi))結(jié)合來得到d硝皂。

2.5? EM算法:(需回顧)

M:推斷用哪個(gè)θ來生成文檔,計(jì)算給定文檔的后驗(yàn)概率——隱形變量Zd(1~k)






三贫途、基于相似性的方法

3.1原理

指定相似度函數(shù)來度量兩個(gè)文本對(duì)象之間的相似度吧彪,定義了聚類偏差。

目標(biāo):最大化組內(nèi)相似性(同一個(gè)組中的對(duì)象是相似的)丢早,最小化組間相似性(不同組的對(duì)象 是不相似的)

3.2 方法:

逐步構(gòu)建集群的層次結(jié)構(gòu):(HAC)

1.自下而上:凝聚

?2.自上而下:分裂

平坦聚類:從最初的試探性聚類開始然后迭代地改進(jìn)它姨裸,例如k-Means

區(qū)別:計(jì)算組相似度的方式

HAC方法:

? ? ? ? ? ?單鏈:最近的一對(duì)的相似度≡乖停可預(yù)測一些松散的群傀缩。將兩個(gè)組進(jìn)行組合。對(duì)異常值敏感

? ? ? ? ? ?復(fù)雜鏈:最遠(yuǎn)的农猬∩募瑁可預(yù)測群體的緊張性。對(duì)異常值敏感斤葱。

? ? ? ? ? ?平均鏈:平均值慷垮。由整個(gè)群體決定,對(duì)異常值不敏感

K—Means方法

? ? ? 隨機(jī)選擇k揍堕,嘗試聚類結(jié)果料身。選定的向量作為k個(gè)簇的質(zhì)心。接著計(jì)算向量與每個(gè)質(zhì)心的距離衩茸,將所有數(shù)據(jù)根據(jù)暫定質(zhì)心分成k個(gè)類芹血。基于此重新調(diào)整計(jì)算質(zhì)心,直到它收斂(最小化群內(nèi)平方和)幔烛。

四啃擦、聚類評(píng)估

4.1聚類基礎(chǔ)

知道聚類偏差(bias),

4.2 評(píng)估方法

直接評(píng)估(與人評(píng)估結(jié)果(黃金評(píng)估)的區(qū)別):

從多重視點(diǎn)得到的,表征質(zhì)量饿悬,

間接評(píng)估:在應(yīng)用中有多有用令蛉,系統(tǒng)基準(zhǔn)線


文本聚類:無監(jiān)督通用文本挖掘工具



五、文本分類(text categorization)

5.1應(yīng)用實(shí)例:

二分類乡恕、多分類言询、層次分類(主題層次)、合并分類(根據(jù)任務(wù)間的相關(guān)性)

5.2 文本分類方法:

類別必須是明確的傲宜,能夠用規(guī)則確定运杭。

缺點(diǎn):人工設(shè)置標(biāo)簽,需要給予規(guī)則函卒,不能很好地?cái)U(kuò)展辆憔。不能處理規(guī)則的不確定性。

解決方法:給機(jī)器帶標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練报嵌。 為計(jì)算機(jī)提供一些基本的功能:短語虱咧,語法結(jié)構(gòu)

優(yōu)點(diǎn):有監(jiān)督

兩種分類器:

? ? 生成分類器(general setup):試圖了解每個(gè)類別中的數(shù)據(jù)。模擬數(shù)據(jù)的聯(lián)合分布標(biāo)簽x和y锚国。使用貝葉斯規(guī)則來分配標(biāo)簽腕巡。只能間接地捕捉訓(xùn)練錯(cuò)誤(損失函數(shù)),特征:(非)線性

? ? 判別分類器(discriminative):試圖了解每個(gè)類別的特征血筑。直接給出數(shù)據(jù)點(diǎn)的標(biāo)簽的條件概率绘沉,目標(biāo)函數(shù)往往直接衡量訓(xùn)練集中分類的錯(cuò)誤。包括邏輯回歸豺总,支持向量機(jī)和k最近鄰

(需理解)



六车伞、生成概率模型進(jìn)行文本分類:

6.1生成概率模型

與文本聚類區(qū)別:文本聚類不知道什么是預(yù)定義的類別,什么是集群(聚類目標(biāo))? ?而分類給出了類別喻喳。

另玖、

p(θi)是先驗(yàn)概率,要選擇最大化的話題表伦,p(θi|d)是后驗(yàn)概率谦去。


如何確保θi恰好代表我們的分類i


平滑化:

當(dāng)數(shù)據(jù)集過小的話,在利用極大似然估計(jì)求概率時(shí)會(huì)出現(xiàn)概率為0的情況蹦哼,但這是不準(zhǔn)確的哪轿,為了避免這種情況我們應(yīng)該作平滑化處理,即分子分母都加上平滑因子翔怎。

二分類得分:

普遍化:


實(shí)際上,這種一般形式非常接近于一個(gè)稱為logistic回歸的分類器。這式子里的f是指文件赤套,beta是指權(quán)重飘痛,即表示一個(gè)文件更屬于哪一個(gè)類別的偏置。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末容握,一起剝皮案震驚了整個(gè)濱河市宣脉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌剔氏,老刑警劉巖塑猖,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異谈跛,居然都是意外死亡羊苟,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門感憾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蜡励,“玉大人,你說我怎么就攤上這事阻桅×挂校” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵嫂沉,是天一觀的道長稽寒。 經(jīng)常有香客問我,道長趟章,這世上最難降的妖魔是什么杏糙? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮尤揣,結(jié)果婚禮上搔啊,老公的妹妹穿的比我還像新娘。我一直安慰自己北戏,他們只是感情好负芋,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著嗜愈,像睡著了一般旧蛾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蠕嫁,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天锨天,我揣著相機(jī)與錄音,去河邊找鬼剃毒。 笑死病袄,一個(gè)胖子當(dāng)著我的面吹牛搂赋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播益缠,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼脑奠,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了幅慌?” 一聲冷哼從身側(cè)響起宋欺,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎胰伍,沒想到半個(gè)月后齿诞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡骂租,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年祷杈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片菩咨。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡吠式,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出抽米,到底是詐尸還是另有隱情特占,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布云茸,位于F島的核電站是目,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏标捺。R本人自食惡果不足惜懊纳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望亡容。 院中可真熱鬧嗤疯,春花似錦、人聲如沸闺兢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽屋谭。三九已至脚囊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間桐磁,已是汗流浹背悔耘。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留我擂,地道東北人衬以。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓缓艳,卻偏偏與公主長得像,于是被迫代替她去往敵國和親泄鹏。 傳聞我的和親對(duì)象是個(gè)殘疾皇子郎任,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345