聚類算法—— K-means

1. Intro

聚類算法中最經(jīng)典的要算是 K-means 了螺捐。其中 K 代表劃分的 cluster 的數(shù)目，而 means 則是算法的核心概念——centroid（質(zhì)心）

2. Basic K-means

K-means 是一個迭代算法材部，以最終 converge 為終止條件。
pseudo code：

SELECT K INITIAL CENTROIDS;
while(true)
    foreach point:
        Compute the distance to every centroid;
        Label this point as the cluster corresponding to the nearest centroid;
    re-calculate K centroids;
    if (all centroids no longer change)
        break;

1. 初始選取K 個 centroid；
2. 以 centroid 代表 cluster。計(jì)算每個點(diǎn)距離哪個 centroid 最近鸵鸥，
   將該點(diǎn)標(biāo)記為屬于最近 centroid 對應(yīng)的 cluster。然后計(jì)算每一個 cluster 的新的 centroid丹皱。
3. 重復(fù)2直到所有 centroid 不再改變

(對于歐氏空間妒穴？) 衡量聚類效果的好壞以平方誤差和（sum of the square error, SSE）作為目標(biāo)函數(shù):

Paste_Image.png

可以將第一個求和號右邊部分視為求每一個簇的簇SSE, 對所有的簇SSE求和，就得到總 SSE摊崭。

3. k-means存在缺點(diǎn)：

k-means是局部最優(yōu)的讼油，容易受到初始質(zhì)心的影響；比如在下圖中呢簸，因選擇初始質(zhì)心不恰當(dāng)而造成次優(yōu)的聚類結(jié)果（SSE較大）：

另外 basic K-means 容易形成 empty cluster

Paste_Image.png

4. 優(yōu)化

對于empty cluster 我們的策略是當(dāng)選取 initial centroid 的時候矮台，隨機(jī)選取真實(shí)的點(diǎn)作為initial centroid乏屯，這樣就有效避免出現(xiàn)某個 cluster 里面沒有點(diǎn)。

對于收斂于局部最優(yōu)的缺點(diǎn)瘦赫，我們通過 bisecting K-means 來解決辰晕。其基本思想是：

初始只有一個cluster包含所有樣本點(diǎn)；
repeat for (K-1) times: //(k-1)次后就得到 k 個 clusters
    從待分裂的clusters中選擇一個進(jìn)行二元分裂耸彪，所選的cluster是具有最大的 簇SSE 的簇伞芹；

這里選取待分裂簇的判斷標(biāo)準(zhǔn)我不同意http://www.cnblogs.com/en-heng/p/5173704.html 這篇博客里面的說法，所選的 cluster 應(yīng)使得 SSE 最小蝉娜，這樣的說法太過于籠統(tǒng)唱较。
直接參考《數(shù)據(jù)挖掘?qū)д摗?16頁結(jié)論就好：分裂一個簇通常選取 SSE 最大的簇。因?yàn)橐粋€簇的簇SSE 越大召川，說明這個簇越離散南缓，需要進(jìn)一步分解。

最后編輯于：2017.12.04 05:43:29

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末荧呐，一起剝皮案震驚了整個濱河市汉形，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌倍阐，老刑警劉巖概疆，帶你破解...
沈念sama閱讀 217,657評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異峰搪，居然都是意外死亡岔冀，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,889評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門概耻，熙熙樓的掌柜王于貴愁眉苦臉地迎上來使套，“玉大人，你說我怎么就攤上這事鞠柄≌旄撸” “怎么了？”我有些...
開封第一講書人閱讀 164,057評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵厌杜，是天一觀的道長奉呛。經(jīng)常有香客問我，道長夯尽，這世上最難降的妖魔是什么侧馅？我笑而不...
開封第一講書人閱讀 58,509評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮呐萌，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘谊娇。我一直安慰自己肺孤，他們只是感情好罗晕，可當(dāng)我...
茶點(diǎn)故事閱讀 67,562評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著赠堵，像睡著了一般小渊。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上茫叭，一...
開封第一講書人閱讀 51,443評論 1贊 302
城市分裂傳說
那天酬屉，我揣著相機(jī)與錄音，去河邊找鬼揍愁。笑死呐萨，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的莽囤。我是一名探鬼主播谬擦，決...
沈念sama閱讀 40,251評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼朽缎！你這毒婦竟也來了惨远？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,129評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤话肖，失蹤者是張志新（化名）和其女友劉穎北秽，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體最筒，經(jīng)...
沈念sama閱讀 45,561評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡贺氓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,779評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了是钥。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掠归。...
茶點(diǎn)故事閱讀 39,902評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖悄泥，靈堂內(nèi)的尸體忽然破棺而出虏冻，到底是詐尸還是另有隱情，我是刑警寧澤弹囚，帶...
沈念sama閱讀 35,621評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布厨相，位于F島的核電站，受9級特大地震影響鸥鹉，放射性物質(zhì)發(fā)生泄漏蛮穿。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,220評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一毁渗、第九天我趴在偏房一處隱蔽的房頂上張望践磅。院中可真熱鬧，春花似錦灸异、人聲如沸府适。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,838評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽檐春。三九已至逻淌，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間疟暖，已是汗流浹背卡儒。一陣腳步聲響...
開封第一講書人閱讀 32,971評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留俐巴，地道東北人骨望。一個月前我還...
沈念sama閱讀 48,025評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像窜骄，于是被迫代替她去往敵國和親锦募。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,843評論 2贊 354

聚類算法—— K-means

1. Intro

2. Basic K-means

3. k-means存在缺點(diǎn)：

4. 優(yōu)化

推薦閱讀更多精彩內(nèi)容