聚類概述

一虫埂、一句話介紹

聚類通常是指,對于未標記訓練樣本圃验,根據樣本的內在相似性掉伏,將樣本劃分為若干個不相交子集的學習算法。

二澳窑、最簡單的例子

一個不是很恰當的例子斧散。剛上大學的時候,大家來自天南海北摊聋,是一個個單獨的個體鸡捐。過一段時間以后,大家或是因為相同的興趣愛好麻裁,或是因為喜歡打同一個游戲箍镜,或是因為同一個宿舍,總之因為某種相似性煎源,會形成不同的團團伙伙色迂。

三、K均值算法(K-Means)

3.1手销、K均值算法的意義

K均值算法是最簡單的聚類算法歇僧,也是最能簡明地說明聚類思想和聚類過程的聚類算法,凡是講聚類的教材(大多)都會先講K均值聚類锋拖。

K均值聚類算法也包含了樸素的期望最大化(Expectation Maximization)思想诈悍,在吳軍博士的著作《數學之美》[1]中,吳軍博士就是用K均值算法舉例期望最大化算法的兽埃。

3.2侥钳、算法描述

3.3、K均值算法的缺點

A讲仰、是局部最優(yōu)解慕趴,而不是全局最優(yōu)解。這與初始聚類簇中心有關鄙陡,也就是說冕房,聚類結果對初始聚類簇中心敏感。

B趁矾、對樣本分布敏感:對球形分布的數據聚類效果好耙册,對非球形樣本聚類效果不好,尤其是帶狀毫捣、環(huán)狀樣本聚類效果很差详拙;對離群點敏感。

C蔓同、其他缺點饶辙。

四、聚類算法的種類[2]

根據聚類算法實現大的基本原理斑粱,聚類算法主要有以下幾種:

4.1弃揽、順序算法(Sequential Algorithm)

基本順序算法方案(Basic Sequential Algorithm Scheme,BSAS)最能說明順序算法的算法思想:給定相似性度量閾值和最大聚類數,按照順序給樣本分類则北,根據樣本到已有聚類的距離矿微,滿足一定條件將其分配到已有聚類中,不滿足條件則劃分到新生成的聚類中尚揣。

4.2涌矢、層次聚類算法(Hierarchical Clustering Algorithm)

又分為合并算法和分裂算法。合并算法在每一步減少聚類數量快骗,聚類結果來自于前一步的兩個聚類的合并娜庇;分裂算法原理正好相反。

4.3方篮、基于代價函數最優(yōu)的聚類算法(Clustering Algorithm based on Cost Function Optimization)

使用代價函數來量化判斷思灌,當代價函數達到局部最優(yōu)時,算法結束恭取。K均值算法如果采用歐式距離作為相似性度量的話泰偿,其代價函數是平方誤差和

代價函數J不是凸函數。

高斯混合聚類(Mixture-of-Gaussian)是另一個比較有名的此類算法蜈垮。

4.4耗跛、基于密度的算法(Density-based Algorithm)

該類算法把聚類視為空間中數據較為密集的區(qū)域。DBSCAN就是一種著名的密度聚類算法攒发。

值得一提的是调塌,2014年6月Alex Rodriguez, Alessandro Laio在《Science》期刊上發(fā)表了一篇論文,"Clustering by fast search and find of density peaks"惠猿,論文中提出了一種非常巧妙的聚類算法羔砾。

4.5、其他算法

五、聚類的幾個問題

5.1姜凄、相似性度量

無論哪種算法政溃,都離不開相似性度量,只有相似性度量可以說明樣本之間的相似性态秧。相同的樣本集董虱,選擇相同的算法,選擇不同的相似性度量申鱼,可能聚類的結果就會不同愤诱。

我在另一篇筆記中整理了一下常用的相似性度量,《相似性度量》捐友。

5.2淫半、聚類準則

如4.3所述,基于代價函數最優(yōu)的聚類算法都需要一個聚類準則匣砖,K均值算法的聚類準則是最小平方誤差和撮慨;高斯混合聚類聚類準則是最大化樣本出現的概率。

5.3脆粥、性能度量

聚類性能度量也稱為聚類有效性指標(Vadility Index),通過某種度量來評估聚類結果的好壞砌溺。[3]

5.4、超參數

超參數变隔,我的理解就是需要先驗地假設一些參數值规伐,這些參數是聚類過程的基礎參數。

很多聚類算法需要有超參數匣缘。K均值算法需要預先設定聚類簇數k猖闪;DBSCAN需要預先設定鄰域參數和簇內最少樣本,等等肌厨。

超參數的確定有很多方法培慌,比如K均值算法聚類簇數k可通過稱作“肘部法則[4]”的方法確定

六、參考

[1]柑爸、《數學之美》吵护,吳軍著

[2]、《模式識別(第四版)》表鳍,Sergios Theodoridis等著馅而,李晶皎等譯

[3]、《模式識別》譬圣,周志華著

[4]瓮恭、《斯坦福大學2014機器學習教程個人筆記完整版v4.21》,黃廣海整理

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市厘熟,隨后出現的幾起案子屯蹦,更是在濱河造成了極大的恐慌维哈,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件登澜,死亡現場離奇詭異阔挠,居然都是意外死亡,警方通過查閱死者的電腦和手機帖渠,發(fā)現死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來竭宰,“玉大人空郊,你說我怎么就攤上這事∏薪遥” “怎么了狞甚?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長廓旬。 經常有香客問我哼审,道長,這世上最難降的妖魔是什么孕豹? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任涩盾,我火速辦了婚禮,結果婚禮上励背,老公的妹妹穿的比我還像新娘春霍。我一直安慰自己,他們只是感情好叶眉,可當我...
    茶點故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布址儒。 她就那樣靜靜地躺著,像睡著了一般衅疙。 火紅的嫁衣襯著肌膚如雪莲趣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天饱溢,我揣著相機與錄音喧伞,去河邊找鬼。 笑死绩郎,一個胖子當著我的面吹牛絮识,可吹牛的內容都是我干的。 我是一名探鬼主播嗽上,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼次舌,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了兽愤?” 一聲冷哼從身側響起彼念,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤挪圾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后逐沙,有當地人在樹林里發(fā)現了一具尸體哲思,經...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年吩案,在試婚紗的時候發(fā)現自己被綠了棚赔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡徘郭,死狀恐怖靠益,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情残揉,我是刑警寧澤胧后,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站抱环,受9級特大地震影響壳快,放射性物質發(fā)生泄漏。R本人自食惡果不足惜镇草,卻給世界環(huán)境...
    茶點故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一眶痰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧梯啤,春花似錦凛驮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至羽嫡,卻和暖如春本姥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背杭棵。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工婚惫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人魂爪。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓先舷,卻偏偏與公主長得像,于是被迫代替她去往敵國和親滓侍。 傳聞我的和親對象是個殘疾皇子蒋川,可洞房花燭夜當晚...
    茶點故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內容