聚類算法—— K-means

1. Intro

聚類算法中最經(jīng)典的要算是 K-means 了螺捐。其中 K 代表劃分的 cluster 的 數(shù)目,而 means 則是算法的核心概念——centroid(質(zhì)心)

2. Basic K-means

K-means 是一個迭代算法材部,以最終 converge 為終止條件。
pseudo code:

SELECT K INITIAL CENTROIDS;
while(true)
    foreach point:
        Compute the distance to every centroid;
        Label this point as the cluster corresponding to the nearest centroid;
    re-calculate K centroids;
    if (all centroids no longer change)
        break;
1. 初始選取K 個 centroid;
2. 以 centroid 代表 cluster。計(jì)算每個點(diǎn)距離哪個 centroid 最近鸵鸥,
   將該點(diǎn)標(biāo)記為屬于最近 centroid 對應(yīng)的 cluster。然后計(jì)算每一個 cluster 的新的 centroid丹皱。
3. 重復(fù)2直到所有 centroid 不再改變

(對于歐氏空間妒穴?) 衡量聚類效果的好壞以平方誤差和(sum of the square error, SSE)作為目標(biāo)函數(shù):

Paste_Image.png

可以將第一個求和號右邊部分視為求每一個簇的簇SSE, 對所有的簇SSE求和,就得到總 SSE摊崭。

3. k-means存在缺點(diǎn):

k-means是局部最優(yōu)的讼油,容易受到初始質(zhì)心的影響;比如在下圖中呢簸,因選擇初始質(zhì)心不恰當(dāng)而造成次優(yōu)的聚類結(jié)果(SSE較大):

另外 basic K-means 容易形成 empty cluster

Paste_Image.png

4. 優(yōu)化

對于empty cluster 我們的策略是當(dāng)選取 initial centroid 的時候矮台,隨機(jī)選取真實(shí)的點(diǎn)作為initial centroid乏屯,這樣就有效避免出現(xiàn)某個 cluster 里面沒有點(diǎn)。

對于收斂于局部最優(yōu)的缺點(diǎn)瘦赫,我們通過 bisecting K-means 來解決辰晕。其基本思想是:

初始只有一個cluster包含所有樣本點(diǎn);
repeat for (K-1) times: //(k-1)次后就得到 k 個 clusters
    從待分裂的clusters中選擇一個進(jìn)行二元分裂耸彪,所選的cluster是具有最大的 簇SSE 的簇伞芹;

這里選取待分裂簇的判斷標(biāo)準(zhǔn)我不同意http://www.cnblogs.com/en-heng/p/5173704.html 這篇博客里面的說法,所選的 cluster 應(yīng)使得 SSE 最小蝉娜,這樣的說法太過于籠統(tǒng)唱较。
直接參考《數(shù)據(jù)挖掘?qū)д摗?16頁結(jié)論就好:分裂一個簇通常選取 SSE 最大的簇。因?yàn)橐粋€簇的 簇SSE 越大召川,說明這個簇越離散南缓,需要進(jìn)一步分解。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末荧呐,一起剝皮案震驚了整個濱河市汉形,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌倍阐,老刑警劉巖概疆,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異峰搪,居然都是意外死亡岔冀,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進(jìn)店門概耻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來使套,“玉大人,你說我怎么就攤上這事鞠柄≌旄撸” “怎么了?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵厌杜,是天一觀的道長奉呛。 經(jīng)常有香客問我,道長夯尽,這世上最難降的妖魔是什么侧馅? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮呐萌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谊娇。我一直安慰自己肺孤,他們只是感情好罗晕,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著赠堵,像睡著了一般小渊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上茫叭,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天酬屉,我揣著相機(jī)與錄音,去河邊找鬼揍愁。 笑死呐萨,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的莽囤。 我是一名探鬼主播谬擦,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼朽缎!你這毒婦竟也來了惨远?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤话肖,失蹤者是張志新(化名)和其女友劉穎北秽,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體最筒,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贺氓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了是钥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掠归。...
    茶點(diǎn)故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖悄泥,靈堂內(nèi)的尸體忽然破棺而出虏冻,到底是詐尸還是另有隱情,我是刑警寧澤弹囚,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布厨相,位于F島的核電站,受9級特大地震影響鸥鹉,放射性物質(zhì)發(fā)生泄漏蛮穿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一毁渗、第九天 我趴在偏房一處隱蔽的房頂上張望践磅。 院中可真熱鬧,春花似錦灸异、人聲如沸府适。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽檐春。三九已至逻淌,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間疟暖,已是汗流浹背卡儒。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留俐巴,地道東北人骨望。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像窜骄,于是被迫代替她去往敵國和親锦募。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容