聚類概述

一终畅、一句話介紹

聚類通常是指,對于未標記訓練樣本竟闪,根據(jù)樣本的內在相似性声离,將樣本劃分為若干個不相交子集的學習算法。

二瘫怜、最簡單的例子

一個不是很恰當?shù)睦印偵洗髮W的時候本刽,大家來自天南海北鲸湃,是一個個單獨的個體赠涮。過一段時間以后,大家或是因為相同的興趣愛好暗挑,或是因為喜歡打同一個游戲笋除,或是因為同一個宿舍,總之因為某種相似性炸裆,會形成不同的團團伙伙垃它。

三、K均值算法(K-Means)

3.1烹看、K均值算法的意義

K均值算法是最簡單的聚類算法国拇,也是最能簡明地說明聚類思想和聚類過程的聚類算法,凡是講聚類的教材(大多)都會先講K均值聚類惯殊。

K均值聚類算法也包含了樸素的期望最大化(Expectation Maximization)思想酱吝,在吳軍博士的著作《數(shù)學之美》[1]中,吳軍博士就是用K均值算法舉例期望最大化算法的土思。

3.2务热、算法描述

3.3、K均值算法的缺點

A己儒、是局部最優(yōu)解崎岂,而不是全局最優(yōu)解。這與初始聚類簇中心有關闪湾,也就是說冲甘,聚類結果對初始聚類簇中心敏感。

B响谓、對樣本分布敏感:對球形分布的數(shù)據(jù)聚類效果好损合,對非球形樣本聚類效果不好,尤其是帶狀娘纷、環(huán)狀樣本聚類效果很差嫁审;對離群點敏感。

C赖晶、其他缺點律适。

四、聚類算法的種類[2]

根據(jù)聚類算法實現(xiàn)大的基本原理遏插,聚類算法主要有以下幾種:

4.1捂贿、順序算法(Sequential Algorithm)

基本順序算法方案(Basic Sequential Algorithm Scheme,BSAS)最能說明順序算法的算法思想:給定相似性度量閾值和最大聚類數(shù),按照順序給樣本分類胳嘲,根據(jù)樣本到已有聚類的距離厂僧,滿足一定條件將其分配到已有聚類中,不滿足條件則劃分到新生成的聚類中了牛。

4.2颜屠、層次聚類算法(Hierarchical Clustering Algorithm)

又分為合并算法和分裂算法辰妙。合并算法在每一步減少聚類數(shù)量,聚類結果來自于前一步的兩個聚類的合并甫窟;分裂算法原理正好相反密浑。

4.3、基于代價函數(shù)最優(yōu)的聚類算法(Clustering Algorithm based on Cost Function Optimization)

使用代價函數(shù)來量化判斷粗井,當代價函數(shù)達到局部最優(yōu)時尔破,算法結束。K均值算法如果采用歐式距離作為相似性度量的話浇衬,其代價函數(shù)是平方誤差和

代價函數(shù)J不是凸函數(shù)懒构。

高斯混合聚類(Mixture-of-Gaussian)是另一個比較有名的此類算法。

4.4径玖、基于密度的算法(Density-based Algorithm)

該類算法把聚類視為空間中數(shù)據(jù)較為密集的區(qū)域痴脾。DBSCAN就是一種著名的密度聚類算法。

值得一提的是梳星,2014年6月Alex Rodriguez, Alessandro Laio在《Science》期刊上發(fā)表了一篇論文赞赖,"Clustering by fast search and find of density peaks",論文中提出了一種非常巧妙的聚類算法冤灾。

4.5前域、其他算法

五、聚類的幾個問題

5.1韵吨、相似性度量

無論哪種算法匿垄,都離不開相似性度量,只有相似性度量可以說明樣本之間的相似性归粉。相同的樣本集椿疗,選擇相同的算法,選擇不同的相似性度量糠悼,可能聚類的結果就會不同届榄。

我在另一篇筆記中整理了一下常用的相似性度量,《相似性度量》倔喂。

5.2铝条、聚類準則

如4.3所述,基于代價函數(shù)最優(yōu)的聚類算法都需要一個聚類準則席噩,K均值算法的聚類準則是最小平方誤差和班缰;高斯混合聚類聚類準則是最大化樣本出現(xiàn)的概率。

5.3悼枢、性能度量

聚類性能度量也稱為聚類有效性指標(Vadility Index),通過某種度量來評估聚類結果的好壞埠忘。[3]

5.4、超參數(shù)

超參數(shù),我的理解就是需要先驗地假設一些參數(shù)值莹妒,這些參數(shù)是聚類過程的基礎參數(shù)假丧。

很多聚類算法需要有超參數(shù)。K均值算法需要預先設定聚類簇數(shù)k动羽;DBSCAN需要預先設定鄰域參數(shù)和簇內最少樣本,等等渔期。

超參數(shù)的確定有很多方法运吓,比如K均值算法聚類簇數(shù)k可通過稱作“肘部法則[4]”的方法確定

六、參考

[1]疯趟、《數(shù)學之美》拘哨,吳軍著

[2]、《模式識別(第四版)》信峻,Sergios Theodoridis等著倦青,李晶皎等譯

[3]、《模式識別》盹舞,周志華著

[4]产镐、《斯坦福大學2014機器學習教程個人筆記完整版v4.21》,黃廣海整理

小禮物走一走,來簡書關注我

作者:Herbert002

鏈接:http://www.reibang.com/p/c5599f0133ba

來源:簡書

簡書著作權歸作者所有踢步,任何形式的轉載都請聯(lián)系作者獲得授權并注明出處癣亚。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市获印,隨后出現(xiàn)的幾起案子述雾,更是在濱河造成了極大的恐慌,老刑警劉巖兼丰,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件玻孟,死亡現(xiàn)場離奇詭異,居然都是意外死亡鳍征,警方通過查閱死者的電腦和手機黍翎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蟆技,“玉大人玩敏,你說我怎么就攤上這事≈世瘢” “怎么了旺聚?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長眶蕉。 經(jīng)常有香客問我砰粹,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任碱璃,我火速辦了婚禮弄痹,結果婚禮上,老公的妹妹穿的比我還像新娘嵌器。我一直安慰自己肛真,他們只是感情好,可當我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布爽航。 她就那樣靜靜地躺著劫侧,像睡著了一般排吴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天扎筒,我揣著相機與錄音坦敌,去河邊找鬼欺冀。 笑死贮庞,一個胖子當著我的面吹牛,可吹牛的內容都是我干的氏义。 我是一名探鬼主播锄列,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼觅赊!你這毒婦竟也來了右蕊?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤吮螺,失蹤者是張志新(化名)和其女友劉穎饶囚,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鸠补,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡萝风,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了紫岩。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片规惰。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖泉蝌,靈堂內的尸體忽然破棺而出歇万,到底是詐尸還是另有隱情,我是刑警寧澤勋陪,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布贪磺,位于F島的核電站,受9級特大地震影響诅愚,放射性物質發(fā)生泄漏寒锚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望刹前。 院中可真熱鬧泳赋,春花似錦、人聲如沸喇喉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拣技。三九已至衅鹿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間过咬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工制妄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留掸绞,地道東北人。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓耕捞,卻偏偏與公主長得像衔掸,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子俺抽,可洞房花燭夜當晚...
    茶點故事閱讀 43,658評論 2 350

推薦閱讀更多精彩內容

  • 一敞映、一句話介紹 聚類通常是指,對于未標記訓練樣本磷斧,根據(jù)樣本的內在相似性振愿,將樣本劃分為若干個不相交子集的學習算法。 ...
    Herbert002閱讀 1,810評論 0 3
  • 1. 章節(jié)主要內容 “聚類”(clustering)算法是“無監(jiān)督學習”算法中研究最多弛饭、應用最廣的算法冕末,它試圖將數(shù)...
    閃電隨筆閱讀 5,027評論 1 24
  • 寫在之前 因簡書導入公式很麻煩,如果想獲得更好的觀看體驗請移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 6,825評論 2 13
  • 忙里偷閑想哥哥侣颂,哥哥經(jīng)營又寫作 哥寫文章妹妹看档桃,看的妹妹心意亂 不見哥哥心里急,微信發(fā)的未停息 千遍萬遍喚哥哥憔晒,心...
    白開水加糖吧閱讀 1,618評論 10 15
  • 用一個我昨天看到的故事開頭:在草原上藻肄,有一只斑馬在獅子面前時,因為斑馬身上有很多黑白的條紋拒担,一頭饑餓的獅子是...
    朝花夕拾云公子閱讀 1,387評論 0 1