03 聚類算法 - K-means聚類

02 聚類算法 - 相似度距離公式、維度災(zāi)難

二、K-means聚類

給定一個(gè)有M個(gè)對(duì)象的數(shù)據(jù)集圣贸,構(gòu)建一個(gè)具有k個(gè)的模型,其中k<=M扛稽。滿足以下條件:
1吁峻、每個(gè)簇至少包含一個(gè)對(duì)象;
2在张、每個(gè)對(duì)象屬于且僅屬于一個(gè)簇用含;
3、將滿足上述條件的k個(gè)簇成為一個(gè)合理的聚類劃分帮匾;

基本思想:對(duì)于給定的類別數(shù)目k啄骇,首先給定初始劃分,通過(guò)迭代改變樣本和簇的隸屬關(guān)系瘟斜,使的每次處理后得到的劃分方式比上一次的好(簇內(nèi)數(shù)據(jù)集距離變小)

K-means算法

K-means算法缸夹,也稱為K-平均或者K-均值,是一種使用廣泛的最基礎(chǔ)的聚類算法螺句,一般作為掌握聚類算法的第一個(gè)算法虽惭。

假設(shè)輸入樣本為T=X1,X2,...,Xm;則算法步驟為(使用歐幾里得距離公式):
1、選擇初始化的k個(gè)類別中心a1,a2,...ak蛇尚。
2芽唇、對(duì)于每個(gè)樣本Xi,將其標(biāo)記位距離類別中心 aj 最近的類別 j 取劫。
3匆笤、更新每個(gè)類別的中心點(diǎn) aj 為隸屬該類別的所有樣本的均值研侣。
4、重復(fù)上面兩步操作疚膊,直到達(dá)到某個(gè)中止條件义辕。
中止條件:
迭代次數(shù)、最小平方誤差MSE寓盗、簇中心點(diǎn)變化率灌砖。

公式
分析K-means算法原理

那么初始的分類中心設(shè)置多少個(gè)比較合適?
其實(shí)在實(shí)際算法中傀蚌,K-means聚類的算法在設(shè)置初始分類數(shù)量的操作基显,和KNN中設(shè)置決策樹(shù)的深度一樣,都是機(jī)器學(xué)習(xí)調(diào)參的一部分善炫。需要我們對(duì)業(yè)務(wù)數(shù)據(jù)有一定的敏感度绳姨,人為得設(shè)置一個(gè)初始值肩豁。在設(shè)置好初始的分類中心個(gè)數(shù)K之后葬燎,在算法中不會(huì)自動(dòng)增減分類中心的個(gè)數(shù)荤胁。

比如我想根據(jù)一組數(shù)據(jù)判斷消費(fèi)者的消費(fèi)水平,我們可以人為得設(shè)置3個(gè)分類中心艺谆,對(duì)應(yīng)消費(fèi)者水平的高榨惰、中、低静汤。但最終是否能達(dá)到要求呢琅催?是否一定能夠找到一類人群是高消費(fèi)群體,一類人群是低消費(fèi)群體呢虫给?我不知道藤抡。劃分出來(lái)的數(shù)據(jù)可能實(shí)際上意味著人類體重分類的高、中抹估、低缠黍。這三類代表的含義明顯和我們預(yù)期不同。這也是聚類帶來(lái)的一個(gè)問(wèn)題药蜻,我們?cè)趯?duì)分類問(wèn)題貼標(biāo)簽的時(shí)候要綜合考慮樣本的特征瓷式,人為得出一個(gè)較為合理的分類情況。

少年們要成為優(yōu)秀的產(chǎn)品經(jīng)理谷暮,數(shù)據(jù)分析時(shí)的觀察力很重要啊...


下面看看K-means的幾何意義:

a:根據(jù)數(shù)據(jù)分布我們揣摩可以將他們分成2類蒿往。
b:人為定義了紅點(diǎn)和藍(lán)點(diǎn)2個(gè)分類盛垦。
c:計(jì)算每一個(gè)點(diǎn)到達(dá)兩個(gè)分類的距離湿弦,離誰(shuí)近涂上誰(shuí)的顏色。
d:把分類中心紅點(diǎn)和藍(lán)點(diǎn)腾夯,分別放到兩個(gè)簇的中間颊埃。
e:再把所有樣本點(diǎn)到兩個(gè)分類中心的距離計(jì)算一下蔬充,誰(shuí)近涂上誰(shuí)的顏色。
f:更新分類中心班利,發(fā)現(xiàn)分類中心沒(méi)有變化饥漫,意味著樣本也不會(huì)再發(fā)生變化了,迭代停止罗标。

幾何意義

記K個(gè)簇中心分別為a1,a2,...ak庸队;每個(gè)簇的樣本數(shù)量為N1,N2,...,NK;

使用平方誤差作為目標(biāo)函數(shù)(使用歐幾里得距離),公式為:

平方誤差作為目標(biāo)函數(shù)

要獲取最優(yōu)解闯割,也就是目標(biāo)函數(shù)需要盡可能的小彻消,對(duì)J函數(shù)求偏導(dǎo)數(shù),可以得到簇中心點(diǎn)a更新的公式為:

分析

K-means算法思考

思考:如果使用其它距離度量公式宙拉,簇中心點(diǎn)更新公式是啥?

K-means算法在迭代的過(guò)程中使用所有點(diǎn)的均值作為新的質(zhì)點(diǎn)(中心點(diǎn))宾尚,如果簇
中存在異常點(diǎn),將導(dǎo)致均值偏差比較嚴(yán)重谢澈。

比如一個(gè)簇中有2煌贴、4、6锥忿、8牛郑、100五個(gè)數(shù)據(jù),那么新的質(zhì)點(diǎn)為24缎谷,顯然這個(gè)質(zhì)點(diǎn)離絕大多數(shù)點(diǎn)都比較遠(yuǎn)井濒;在當(dāng)前情況下,使用中位數(shù)6可能比使用均值的想法更好列林,使用中位數(shù)的聚類方式叫做K-Mediods聚類(K中值聚類)


K-means算法是初值敏感的瑞你,選擇不同的初始值可能導(dǎo)致不同的簇劃分規(guī)則。

為了避免這種敏感性導(dǎo)致的最終結(jié)果異常性希痴,可以采用初始化多套初始節(jié)點(diǎn)構(gòu)造不同的分類規(guī)則者甲,然后選擇最優(yōu)的構(gòu)造規(guī)則。

K-means算法的初值敏感:

顯然上面的劃分是最優(yōu)的砌创。下面的初始點(diǎn)選的不好虏缸,所以分的效果不好

K-means算法優(yōu)缺點(diǎn)

缺點(diǎn):
1、K值是用戶給定的嫩实,在進(jìn)行數(shù)據(jù)處理前刽辙,K值是未知的,不同的K值得到的結(jié)果也不一樣甲献。
2宰缤、對(duì)初始簇中心點(diǎn)是敏感的。
3、不適合發(fā)現(xiàn)非凸形狀的簇或者大小差別較大的簇慨灭。

左邊兩個(gè)月牙形狀的分類朦乏,但是使用k-means分辨不出這種分類,如右圖所示

4氧骤、特殊值(離群值)對(duì)模型的影響比較大呻疹。

優(yōu)點(diǎn):
1、理解容易筹陵,聚類效果不錯(cuò)刽锤。
2、處理大數(shù)據(jù)集的時(shí)候朦佩,該算法可以保證較好的伸縮性和高效率姑蓝。
3、當(dāng)簇近似高斯分布的時(shí)候吕粗,效果非常不錯(cuò)纺荧。

04 聚類算法 - 代碼案例一 - K-means聚類
05 聚類算法 - 二分K-Means、K-Means++颅筋、K-Means||宙暇、Canopy、Mini Batch K-Means算法

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末议泵,一起剝皮案震驚了整個(gè)濱河市占贫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌先口,老刑警劉巖型奥,帶你破解...
    沈念sama閱讀 218,640評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異碉京,居然都是意外死亡厢汹,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門谐宙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)烫葬,“玉大人,你說(shuō)我怎么就攤上這事凡蜻〈钭郏” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,011評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵划栓,是天一觀的道長(zhǎng)兑巾。 經(jīng)常有香客問(wèn)我,道長(zhǎng)忠荞,這世上最難降的妖魔是什么蒋歌? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,755評(píng)論 1 294
  • 正文 為了忘掉前任月匣,我火速辦了婚禮,結(jié)果婚禮上奋姿,老公的妹妹穿的比我還像新娘。我一直安慰自己素标,他們只是感情好称诗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,774評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著头遭,像睡著了一般寓免。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上计维,一...
    開(kāi)封第一講書(shū)人閱讀 51,610評(píng)論 1 305
  • 那天袜香,我揣著相機(jī)與錄音,去河邊找鬼鲫惶。 笑死蜈首,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的欠母。 我是一名探鬼主播欢策,決...
    沈念sama閱讀 40,352評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼赏淌!你這毒婦竟也來(lái)了踩寇?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,257評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤六水,失蹤者是張志新(化名)和其女友劉穎俺孙,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體掷贾,經(jīng)...
    沈念sama閱讀 45,717評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡睛榄,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,894評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了想帅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片懈费。...
    茶點(diǎn)故事閱讀 40,021評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖博脑,靈堂內(nèi)的尸體忽然破棺而出憎乙,到底是詐尸還是另有隱情,我是刑警寧澤叉趣,帶...
    沈念sama閱讀 35,735評(píng)論 5 346
  • 正文 年R本政府宣布泞边,位于F島的核電站,受9級(jí)特大地震影響疗杉,放射性物質(zhì)發(fā)生泄漏阵谚。R本人自食惡果不足惜蚕礼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,354評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望梢什。 院中可真熱鬧奠蹬,春花似錦、人聲如沸嗡午。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,936評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)荔睹。三九已至狸演,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間僻他,已是汗流浹背宵距。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,054評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吨拗,地道東北人满哪。 一個(gè)月前我還...
    沈念sama閱讀 48,224評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像劝篷,于是被迫代替她去往敵國(guó)和親翩瓜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,974評(píng)論 2 355