聚類算法 - kmeans

一、定義

kmeans即k均值算法枚驻。k均值聚類是最著名的劃分聚類算法,由于簡潔和效率使得他成為所有聚類算法中最廣泛使用的株旷。給定一個數(shù)據(jù)點(diǎn)集合和需要的聚類數(shù)目k再登,k由用戶指定,k均值算法根據(jù)某個距離函數(shù)反復(fù)把數(shù)據(jù)分入k個聚類中晾剖。

二锉矢、算法過程

簡易動畫過程在這,傳送門
第一步齿尽,輸入k的值沽损,即我們希望將數(shù)據(jù)集經(jīng)過聚類得到k類,分為k組
第二步循头,從數(shù)據(jù)集中隨機(jī)選擇k個數(shù)據(jù)點(diǎn)作為初識的聚類中心(質(zhì)心绵估,Centroid)
第三步,對集合中每一個數(shù)據(jù)點(diǎn)卡骂,計(jì)算與每一個聚類中心的距離国裳,離哪個中心距離近,就標(biāo)記為哪個中心偿警。待分配完全時躏救,就有第一次分類。
第四步螟蒸,每一個分類根據(jù)現(xiàn)有的數(shù)據(jù)重新計(jì)算盒使,并重新選取每個分類的中心(質(zhì)心)
第五至N步,重復(fù)第三至四步七嫌,直至符合條件結(jié)束迭代步驟少办。條件是如果新中心和舊中心之間的距離小于某一個設(shè)置的閾值(表示重新計(jì)算的質(zhì)心的位置變化不大,趨于穩(wěn)定诵原,或者說收斂)英妓,可以認(rèn)為我們進(jìn)行的聚類已經(jīng)達(dá)到期望的結(jié)果,終止迭代過程绍赛。

該算法的核心就是選擇合適的k值蔓纠,不同的k值出來有不同的結(jié)果。

三吗蚌、如何選擇合適的K值腿倚?

1、手肘法

手肘法的核心指標(biāo)是SSE(sum of the squared errors蚯妇,誤差平方和)敷燎,

image

其中暂筝,Ci是第i個簇,p是Ci中的樣本點(diǎn)硬贯,mi是Ci的質(zhì)心(Ci中所有樣本的均值)焕襟,SSE是所有樣本的聚類誤差,代表了聚類效果的好壞饭豹。

手肘法的核心思想是:隨著聚類數(shù)k的增大鸵赖,樣本劃分會更加精細(xì),每個簇的聚合程度會逐漸提高墨状,那么誤差平方和SSE自然會逐漸變小卫漫。并且,當(dāng)k小于真實(shí)聚類數(shù)時肾砂,由于k的增大會大幅增加每個簇的聚合程度列赎,故SSE的下降幅度會很大,而當(dāng)k到達(dá)真實(shí)聚類數(shù)時镐确,再增加k所得到的聚合程度回報(bào)會迅速變小包吝,所以SSE的下降幅度會驟減,然后隨著k值的繼續(xù)增大而趨于平緩源葫,也就是說SSE和k的關(guān)系圖是一個手肘的形狀诗越,而這個肘部對應(yīng)的k值就是數(shù)據(jù)的真實(shí)聚類數(shù)。當(dāng)然息堂,這也是該方法被稱為手肘法的原因嚷狞。


image.png

2、輪廓系數(shù)法

該方法的核心指標(biāo)是輪廓系數(shù)(Silhouette Coefficient)荣堰,某個樣本點(diǎn)Xi的輪廓系數(shù)定義如下:

S=(b-a)/max(a,b)

其中床未,a是Xi與同簇的其他樣本的平均距離,稱為凝聚度振坚,b是Xi與最近簇中所有樣本的平均距離薇搁,稱為分離度。而最近簇的定義是


image

其中p是某個簇Ck中的樣本渡八。事實(shí)上啃洋,簡單點(diǎn)講,就是用Xi到某個簇所有樣本平均距離作為衡量該點(diǎn)到該簇的距離后屎鳍,選擇離Xi最近的一個簇作為最近簇宏娄。

求出所有樣本的輪廓系數(shù)后再求平均值就得到了平均輪廓系數(shù)。平均輪廓系數(shù)的取值范圍為[-1,1]逮壁,且簇內(nèi)樣本的距離越近绝编,簇間樣本距離越遠(yuǎn),平均輪廓系數(shù)越大,聚類效果越好十饥。那么,很自然地祖乳,平均輪廓系數(shù)最大的k便是最佳聚類數(shù)逗堵。

四、優(yōu)缺點(diǎn)

1眷昆、優(yōu)點(diǎn)

(1)容易理解蜒秤,聚類效果不錯,雖然是局部最優(yōu)亚斋, 但往往局部最優(yōu)就夠了
(2)處理大數(shù)據(jù)集的時候作媚,該算法可以保證較好的伸縮性
(3)當(dāng)簇近似高斯分布的時候,效果非常不錯
(4)算法復(fù)雜度低

2帅刊、缺點(diǎn)

(1)K 值需要人為設(shè)定纸泡,不同 K 值得到的結(jié)果不一樣
(2)對初始的簇中心敏感,不同選取方式會得到不同結(jié)果
(3)對異常值敏感
(4)樣本只能歸為一類赖瞒,不適合多分類任務(wù)
(5)不適合太離散的分類女揭、樣本類別不平衡的分類、非凸形狀的分類

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末栏饮,一起剝皮案震驚了整個濱河市吧兔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌袍嬉,老刑警劉巖境蔼,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異伺通,居然都是意外死亡箍土,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門泵殴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涮帘,“玉大人,你說我怎么就攤上這事笑诅〉饔В” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵吆你,是天一觀的道長弦叶。 經(jīng)常有香客問我,道長妇多,這世上最難降的妖魔是什么伤哺? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上立莉,老公的妹妹穿的比我還像新娘绢彤。我一直安慰自己,他們只是感情好蜓耻,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布茫舶。 她就那樣靜靜地躺著,像睡著了一般刹淌。 火紅的嫁衣襯著肌膚如雪饶氏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天有勾,我揣著相機(jī)與錄音疹启,去河邊找鬼。 笑死蔼卡,一個胖子當(dāng)著我的面吹牛喊崖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播菲宴,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼贷祈,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了喝峦?” 一聲冷哼從身側(cè)響起势誊,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎谣蠢,沒想到半個月后粟耻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡眉踱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年挤忙,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谈喳。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡册烈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出婿禽,到底是詐尸還是另有隱情赏僧,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布扭倾,位于F島的核電站淀零,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏膛壹。R本人自食惡果不足惜驾中,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一唉堪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肩民,春花似錦唠亚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至共啃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間暂题,已是汗流浹背移剪。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留薪者,地道東北人纵苛。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像言津,于是被迫代替她去往敵國和親攻人。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容