講解:K-Means聚類(lèi)算法步驟流程

聚類(lèi)分析是我們數(shù)據(jù)挖掘中常用的算法平夜,常常用于沒(méi)有分類(lèi),但又有相關(guān)相似性的樣本研究當(dāng)中赐稽,包括了K-Means、K-中心點(diǎn)和系統(tǒng)聚類(lèi)三種算法浑侥,各自有各自的特點(diǎn)和適用環(huán)境姊舵。今天我們大圣眾包(www.dashengzb.cn)根據(jù)網(wǎng)絡(luò)資源詳細(xì)介紹下K-Means聚類(lèi)算法。

首先寓落,先看看K-Means聚類(lèi)算法是什么括丁?一般來(lái)說(shuō),K-Means算法是典型的基于距離的非層次聚類(lèi)算法伶选,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類(lèi)數(shù)K史飞,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近考蕾,其相似度就越大祸憋。

k-means算法基本步驟

(1)從數(shù)據(jù)中選擇k個(gè)對(duì)象作為初始聚類(lèi)中心;

(2)計(jì)算每個(gè)聚類(lèi)對(duì)象到聚類(lèi)中心的距離來(lái)劃分;

(3)再次計(jì)算每個(gè)聚類(lèi)中心

(4)計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù)肖卧,之道達(dá)到最大迭代次數(shù)蚯窥,則停止,否則塞帐,繼續(xù)操作拦赠。

K如何確定

與層次聚類(lèi)結(jié)合,經(jīng)常會(huì)產(chǎn)生較好的聚類(lèi)結(jié)果的一個(gè)有趣策略是葵姥,首先采用層次凝聚算法決定結(jié)果粗的數(shù)目荷鼠,并找到一個(gè)初始聚類(lèi),然后用迭代重定位來(lái)改進(jìn)該聚類(lèi)榔幸。

初始質(zhì)心的選取

常見(jiàn)的方法是隨機(jī)的選取初始質(zhì)心允乐,但是這樣簇的質(zhì)量常常很差矮嫉。

(1)多次運(yùn)行,每次使用一組不同的隨機(jī)初始質(zhì)心牍疏,然后選取具有最小SSE(誤差的平方和)的簇集蠢笋。這種策略簡(jiǎn)單,但是效果可能不好鳞陨,這取決于數(shù)據(jù)集和尋找的簇的個(gè)數(shù)昨寞。

(2)取一個(gè)樣本,并使用層次聚類(lèi)技術(shù)對(duì)它聚類(lèi)厦滤。從層次聚類(lèi)中提取K個(gè)簇援岩,并用這些簇的質(zhì)心作為初始質(zhì)心。該方法通常很有效掏导,但僅對(duì)下列情況有效:樣本相對(duì)較邢砘场;K相對(duì)于樣本大小較小碘菜。

(3)取所有點(diǎn)的質(zhì)心作為第一個(gè)點(diǎn)凹蜈。然后限寞,對(duì)于每個(gè)后繼初始質(zhì)心忍啸,選擇離已經(jīng)選取過(guò)的初始質(zhì)心最遠(yuǎn)的點(diǎn)。使用這種方法履植,確保了選擇的初始質(zhì)心不僅是隨機(jī)的计雌,而且是散開(kāi)的。但是玫霎,這種方法可能選中離群點(diǎn)凿滤。

距離的度量

常用的距離度量方法包括:歐幾里得距離和余弦相似度。歐幾里得距離度量會(huì)受指標(biāo)不同單位刻度的影響庶近,所以一般需要先進(jìn)行標(biāo)準(zhǔn)化翁脆,同時(shí)距離越大,個(gè)體間差異越大鼻种;空間向量余弦?jiàn)A角的相似度度量不會(huì)受指標(biāo)刻度的影響反番,余弦值落于區(qū)間[-1,1],值越大叉钥,差異越小罢缸。

質(zhì)心的計(jì)算

對(duì)于距離度量不管是采用歐式距離還是采用余弦相似度,簇的質(zhì)心都是其均值投队。

?  算法停止條件

一般是目標(biāo)函數(shù)達(dá)到最優(yōu)或者達(dá)到最大的迭代次數(shù)即可終止枫疆。對(duì)于不同的距離度量,目標(biāo)函數(shù)往往不同敷鸦。當(dāng)采用歐式距離時(shí)息楔,目標(biāo)函數(shù)一般為最小化對(duì)象到其簇質(zhì)心的距離的平方和寝贡;當(dāng)采用余弦相似度時(shí),目標(biāo)函數(shù)一般為最大化對(duì)象到其簇質(zhì)心的余弦相似度和值依。

空聚類(lèi)的處理

如果所有的點(diǎn)在指派步驟都未分配到某個(gè)簇兔甘,就會(huì)得到空簇。如果這種情況發(fā)生鳞滨,則需要某種策略來(lái)選擇一個(gè)替補(bǔ)質(zhì)心洞焙,否則的話,平方誤差將會(huì)偏大拯啦。

(1)選擇一個(gè)距離當(dāng)前任何質(zhì)心最遠(yuǎn)的點(diǎn)澡匪。這將消除當(dāng)前對(duì)總平方誤差影響最大的點(diǎn)。

(2)從具有最大SSE的簇中選擇一個(gè)替補(bǔ)的質(zhì)心褒链,這將分裂簇并降低聚類(lèi)的總SSE唁情。如果有多個(gè)空簇,則該過(guò)程重復(fù)多次甫匹。

適用范圍及缺陷

K-Menas算法試圖找到使平方誤差準(zhǔn)則函數(shù)最小的簇甸鸟。當(dāng)潛在的簇形狀是凸面的,簇與簇之間區(qū)別較明顯兵迅,且簇大小相近時(shí)抢韭,其聚類(lèi)結(jié)果較理想。對(duì)于處理大數(shù)據(jù)集合,該算法非常高效,且伸縮性較好腰根。

但該算法除了要事先確定簇?cái)?shù)K和對(duì)初始聚類(lèi)中心敏感外,經(jīng)常以局部最優(yōu)結(jié)束鳍贾,同時(shí)對(duì)“噪聲”和孤立點(diǎn)敏感,并且該方法不適于發(fā)現(xiàn)非凸面形狀的簇或大小差別很大的簇交洗。

克服缺點(diǎn)的方法:使用盡量多的數(shù)據(jù)骑科;使用中位數(shù)代替均值來(lái)克服outlier的問(wèn)題。

(更多大數(shù)據(jù)與商業(yè)智能干貨构拳、或電子書(shū)請(qǐng)關(guān)注大圣眾包咆爽,或添加個(gè)人微信號(hào)(dashenghuaer))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市隐圾,隨后出現(xiàn)的幾起案子伍掀,更是在濱河造成了極大的恐慌,老刑警劉巖暇藏,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜜笤,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡盐碱,警方通過(guò)查閱死者的電腦和手機(jī)把兔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)沪伙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人县好,你說(shuō)我怎么就攤上這事围橡。” “怎么了缕贡?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵翁授,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我晾咪,道長(zhǎng)收擦,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任谍倦,我火速辦了婚禮塞赂,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘昼蛀。我一直安慰自己宴猾,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布叼旋。 她就那樣靜靜地躺著仇哆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪送淆。 梳的紋絲不亂的頭發(fā)上税产,一...
    開(kāi)封第一講書(shū)人閱讀 49,842評(píng)論 1 290
  • 那天怕轿,我揣著相機(jī)與錄音偷崩,去河邊找鬼。 笑死撞羽,一個(gè)胖子當(dāng)著我的面吹牛阐斜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播诀紊,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼谒出,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了邻奠?” 一聲冷哼從身側(cè)響起笤喳,我...
    開(kāi)封第一講書(shū)人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎碌宴,沒(méi)想到半個(gè)月后杀狡,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贰镣,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年呜象,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了膳凝。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡恭陡,死狀恐怖蹬音,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情休玩,我是刑警寧澤著淆,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站拴疤,受9級(jí)特大地震影響牧抽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜遥赚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一扬舒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧凫佛,春花似錦讲坎、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至毫炉,卻和暖如春瓮栗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背瞄勾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工费奸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人进陡。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓愿阐,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親趾疚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子缨历,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容