K均值算法(K-Means)

博客CSDN:深入淺出K-Means算法
博客:機(jī)器學(xué)習(xí)算法-K-means聚類
分布式:MapReduce實(shí)現(xiàn)
并行化:kmeans算法并行化的mpi程序

1. K-Means算法步驟

算法步驟

收斂性定義圾浅,畸變函數(shù)(distortion function):

偽代碼:

1) 創(chuàng)建k個(gè)點(diǎn)作為K個(gè)簇的起始質(zhì)心(經(jīng)常隨機(jī)選擇)
2) 當(dāng)任意一個(gè)點(diǎn)的蔟分配結(jié)果發(fā)生變化時(shí)(初始化為True)
    對數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)亮钦,重新分配質(zhì)心
        對每個(gè)質(zhì)心
            計(jì)算質(zhì)心到數(shù)據(jù)點(diǎn)之間的距離
        將數(shù)據(jù)點(diǎn)分配到距其最近的蔟
    對每個(gè)蔟,計(jì)算蔟中所有點(diǎn)的均值并將均值作為新的質(zhì)心

缺點(diǎn):

  1. 需要提前確定K值申眼;
  2. 對異常值敏感;
  3. 對初始聚類中心敏感争拐;

優(yōu)點(diǎn):

  1. 易解釋辰妙;
  2. 運(yùn)行速度快;
  3. 一般效果不錯碉输;

2. K-Means改進(jìn)

2.1 K-Mediods

每次選取中值作為聚類中心,排除異常值的影響亭珍;

2.2 K-Means++算法

K-Means主要有兩個(gè)最重大的缺陷——都和初始值有關(guān):

  • K是事先給定的敷钾,這個(gè)K值的選定是非常難以估計(jì)的。很多時(shí)候肄梨,事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個(gè)類別才最合適阻荒。(ISODATA算法通過類的自動合并和分裂,得到較為合理的類型數(shù)目K)

  • K-Means算法需要用初始隨機(jī)種子點(diǎn)來搞众羡,這個(gè)隨機(jī)種子點(diǎn)太重要侨赡,不同的隨機(jī)種子點(diǎn)會有得到完全不同的結(jié)果。(K-Means++算法可以用來解決這個(gè)問題纱控,其可以有效地選擇初始點(diǎn))

我在這里重點(diǎn)說一下K-Means++算法步驟:

  1. 先從我們的數(shù)據(jù)庫隨機(jī)挑個(gè)隨機(jī)點(diǎn)當(dāng)“種子點(diǎn)”辆毡。
  2. 對于每個(gè)點(diǎn),我們都計(jì)算其和最近的一個(gè)“種子點(diǎn)”的距離D(x)并保存在一個(gè)數(shù)組里甜害,然后把這些距離加起來得到Sum(D(x))。
  3. 然后球昨,再取一個(gè)隨機(jī)值尔店,用權(quán)重的方式來取計(jì)算下一個(gè)“種子點(diǎn)”。這個(gè)算法的實(shí)現(xiàn)是主慰,先取一個(gè)能落在Sum(D(x))中的隨機(jī)值Random嚣州,然后用Random -= D(x),直到其<=0共螺,此時(shí)的點(diǎn)就是下一個(gè)“種子點(diǎn)”该肴。
  4. 重復(fù)第(2)和第(3)步直到所有的K個(gè)種子點(diǎn)都被選出來。
  5. 進(jìn)行K-Means算法藐不。

3. K-Means分布式實(shí)現(xiàn)

算法偽代碼:
k-means的每一次迭代都可以分為以下3個(gè)步驟匀哄。

  • 第一步:Map:對于每一個(gè)點(diǎn)秦效,將其對應(yīng)的最近的聚類中心


  • 第二步:Combine:剛完成map的機(jī)器在本機(jī)上都分別完成同一個(gè)聚類的點(diǎn)的求和,減少reduce操作的通信量和計(jì)算量涎嚼。


  • 第三步:reduce:將同一聚類中心的中間數(shù)據(jù)再進(jìn)行求和阱州,得到新的聚類中心


4. K-Means并行化

并行化思路:使用主從模式。由一個(gè)節(jié)點(diǎn)充當(dāng)主節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)的劃分與分配法梯,其他節(jié)點(diǎn)完成本地?cái)?shù)據(jù)的計(jì)算苔货,并將結(jié)果返回給主節(jié)點(diǎn)。大致過程如下:

  1. 進(jìn)程0為主節(jié)點(diǎn)立哑,先從文件中讀取數(shù)據(jù)集夜惭,然后將數(shù)據(jù)集劃分并傳給其他進(jìn)程;
  2. 進(jìn)程0選擇每個(gè)聚類的中心點(diǎn)铛绰,并發(fā)送給其他進(jìn)程滥嘴;
  3. 其他進(jìn)程計(jì)算數(shù)據(jù)塊中每個(gè)點(diǎn)到中心點(diǎn)的距離,然后標(biāo)出每個(gè)點(diǎn)所屬的聚類至耻,并計(jì)算每個(gè)聚類所有點(diǎn)到其中心點(diǎn)的距離之和若皱,最后將這些結(jié)果返回給進(jìn)程0;
  4. 進(jìn)程0計(jì)算出新的中心點(diǎn)并發(fā)送給其他進(jìn)程尘颓,并計(jì)算其他進(jìn)程傳來的聚類所有點(diǎn)到其中心點(diǎn)的距離總和走触;
  5. 重復(fù)3和4直到,直到步驟4中的所有聚類的距離之和不變(即收斂)疤苹。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末互广,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子卧土,更是在濱河造成了極大的恐慌惫皱,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尤莺,死亡現(xiàn)場離奇詭異旅敷,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)颤霎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進(jìn)店門媳谁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人友酱,你說我怎么就攤上這事晴音。” “怎么了缔杉?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵锤躁,是天一觀的道長。 經(jīng)常有香客問我或详,道長系羞,這世上最難降的妖魔是什么郭计? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮觉啊,結(jié)果婚禮上拣宏,老公的妹妹穿的比我還像新娘。我一直安慰自己杠人,他們只是感情好勋乾,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著嗡善,像睡著了一般辑莫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上罩引,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天各吨,我揣著相機(jī)與錄音,去河邊找鬼袁铐。 笑死揭蜒,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的剔桨。 我是一名探鬼主播屉更,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼洒缀!你這毒婦竟也來了瑰谜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤树绩,失蹤者是張志新(化名)和其女友劉穎萨脑,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饺饭,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡渤早,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了砰奕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛛芥。...
    茶點(diǎn)故事閱讀 40,561評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖军援,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情称勋,我是刑警寧澤胸哥,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站赡鲜,受9級特大地震影響空厌,放射性物質(zhì)發(fā)生泄漏庐船。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一嘲更、第九天 我趴在偏房一處隱蔽的房頂上張望筐钟。 院中可真熱鬧,春花似錦赋朦、人聲如沸篓冲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽壹将。三九已至,卻和暖如春毛嫉,著一層夾襖步出監(jiān)牢的瞬間诽俯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工承粤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留暴区,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓辛臊,卻偏偏與公主長得像仙粱,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子浪讳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容