二戰(zhàn)周志華《機器學習》--聚類

1敌蚜、聚類任務(wù)

聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個簇摆碉。通過這樣的劃分,每個簇可能對應(yīng)于一些潛在的概念(類別)脓豪。需要說明的是兆解,這些概念對聚類算法來說事先是未知的,聚類過程僅能自動形成簇結(jié)構(gòu)跑揉,簇所對應(yīng)的概念語義需要使用者來把握和命名锅睛。


聚類既能作為一個單獨的過程,用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)历谍,也可以用作其他學習任務(wù)的前驅(qū)過程现拒。例如,在一些商業(yè)應(yīng)用中需要對新用戶的類型進行判別望侈,但定義用戶類型對商家來說卻可能不太容易印蔬,此時往往可能先對用戶進行聚類,根據(jù)聚類結(jié)果將每個簇定義為一個類脱衙,然后再基于這些類訓練分類模型侥猬,用于判別新用戶的類型。

聚類算法涉及兩個主要的問題:性能度量距離計算

2捐韩、性能度量

我們希望聚類結(jié)果能使得同一簇的樣本盡可能彼此相似退唠,而不同簇的樣本盡可能不同。聚類性能度量大致有兩類荤胁,一個是將聚類結(jié)果與某個“參考模型”進行比較瞧预,稱為外部指標,另一個是直接考察聚類結(jié)果而不利用任何參考模型,稱為內(nèi)部指標垢油。

外部指標

內(nèi)部指標

3盆驹、距離計算

所以距離計算要區(qū)分有序?qū)傩?/strong>和無序?qū)傩?/strong>

有序?qū)傩?/strong>

無序?qū)傩?/strong>

4、聚類模型

在介紹了聚類算法涉及兩個主要的問題:性能度量距離計算之后滩愁,我們再來探討一下主要的聚類模型躯喇,主要原型聚類密度聚類層次聚類三種

4.1 原型聚類

原型聚類假設(shè)聚類結(jié)構(gòu)能通過一組原型刻畫硝枉,在現(xiàn)實聚類任務(wù)中極為常用玖瘸。通常情況下,算法先對原型進行初始化檀咙,然后對原型進行迭代更新求解。采用不同的原型表示璃诀、不同的求解方式弧可,有幾種常見的原型聚類方法。

k均值聚類

學習向量量化
學習向量量化方法簡稱LVQ方法劣欢,與一般聚類算法不同的是棕诵,LVQ假設(shè)數(shù)據(jù)樣本帶有標記,學習過程中利用樣本的這些監(jiān)督信息來輔助聚類凿将。


高斯混合聚類
高斯混合聚類采用概率模型來表達聚類原型校套。

4.2 密度聚類

密度聚類算法假設(shè)聚類結(jié)構(gòu)能夠通過樣本分布的緊密程度來確定,通常情形下牧抵,密度聚類算法從樣本密度的角度來考察樣本之間的可連接性笛匙,并基于可連樣本不斷擴展聚類簇以獲得最終的聚類結(jié)果。

4.3 層次聚類

層次聚類試圖在不同層次對數(shù)據(jù)集進行劃分犀变,從而形成樹形的聚類結(jié)果妹孙。數(shù)據(jù)集的劃分可采用自底向上,也可以采用自頂向下的分拆策略获枝。

AGNES是一種采用自底向上聚合策略的層次聚類算法蠢正,它先將數(shù)據(jù)集中的每個樣本看作是一個聚類簇,然后再算法運行的每一步找出距離最近的兩個聚類簇進行合并省店,該過程不斷重復(fù)嚣崭,直到達到預(yù)設(shè)的聚類簇個數(shù)。這里的關(guān)鍵是計算聚類簇之間的距離:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末懦傍,一起剝皮案震驚了整個濱河市雹舀,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌粗俱,老刑警劉巖葱跋,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡娱俺,警方通過查閱死者的電腦和手機稍味,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來荠卷,“玉大人模庐,你說我怎么就攤上這事∮鸵耍” “怎么了掂碱?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長慎冤。 經(jīng)常有香客問我疼燥,道長,這世上最難降的妖魔是什么蚁堤? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任醉者,我火速辦了婚禮,結(jié)果婚禮上披诗,老公的妹妹穿的比我還像新娘撬即。我一直安慰自己,他們只是感情好呈队,可當我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布剥槐。 她就那樣靜靜地躺著,像睡著了一般宪摧。 火紅的嫁衣襯著肌膚如雪粒竖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天几于,我揣著相機與錄音温圆,去河邊找鬼。 笑死孩革,一個胖子當著我的面吹牛岁歉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播膝蜈,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼锅移,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了饱搏?” 一聲冷哼從身側(cè)響起非剃,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎推沸,沒想到半個月后备绽,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體券坞,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年肺素,在試婚紗的時候發(fā)現(xiàn)自己被綠了恨锚。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡倍靡,死狀恐怖猴伶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情塌西,我是刑警寧澤他挎,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站捡需,受9級特大地震影響办桨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜站辉,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一呢撞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧庵寞,春花似錦、人聲如沸不铆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至古沥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間娇跟,已是汗流浹背岩齿。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留苞俘,地道東北人盹沈。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像吃谣,于是被迫代替她去往敵國和親乞封。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容