第十一章 K-Means(K均值)算法模型實(shí)現(xiàn)(下)

KMeans的應(yīng)用

聚類是數(shù)據(jù)挖掘領(lǐng)域中重要的技術(shù)之一,用于發(fā)現(xiàn)數(shù)據(jù)中未知的分類。聚類分析已經(jīng)有了很長(zhǎng)的研究歷史马篮,其重要性已經(jīng)越來(lái)越受到人們的肯定。聚類算法是機(jī)器學(xué)習(xí)怜奖、數(shù)據(jù)挖掘和模式識(shí)別等研究方向的重要研究?jī)?nèi)容之一浑测,在識(shí)別數(shù)據(jù)對(duì)象的內(nèi)在關(guān)系方面,具有極其重要的作用。聚類主要應(yīng)用于模式識(shí)別中的語(yǔ)音識(shí)別迁央、字符識(shí)別等掷匠,機(jī)器學(xué)習(xí)中的聚類算法應(yīng)用于圖像分割,圖像處理中岖圈,主要用于數(shù)據(jù)壓縮讹语、信息檢索。聚類的另一個(gè)主要應(yīng)用是數(shù)據(jù)挖掘蜂科、時(shí)空數(shù)據(jù)庫(kù)應(yīng)用顽决、序列和異常數(shù)據(jù)分析等。此外,聚類還應(yīng)用于統(tǒng)計(jì)科學(xué),同時(shí)舶替,在生物學(xué)憎账、地質(zhì)學(xué)、地理學(xué)以及市場(chǎng)營(yíng)銷、銀行客戶等級(jí)劃分等方面也有著重要的作用。

優(yōu)點(diǎn)

1.算法快速、簡(jiǎn)單;
2.當(dāng)聚類是密集的进每,且類與類之間區(qū)別明顯時(shí),效果較好命斧。
3.對(duì)大數(shù)據(jù)集有較高的效率并且是可伸縮性的;
4.時(shí)間復(fù)雜度近于線性田晚,而且適合挖掘大規(guī)模數(shù)據(jù)集。
K-Means聚類算法的時(shí)間復(fù)雜度是O(nkt) ,其中n代表數(shù)據(jù)集中對(duì)象的數(shù)量国葬,t代表著算法迭代的次數(shù)贤徒,k代表著簇的數(shù)目。

缺點(diǎn)

1.在 K-means 算法中 K 是事先給定的汇四,這個(gè) K 值的選定是非常難以估計(jì)的接奈。有的算法是通過(guò)類的自動(dòng)合并和分裂,得到較為合理的類型數(shù)目 K通孽,例如 ISODATA 算法序宦。

2.在 K-means 算法中,首先需要根據(jù)初始聚類中心來(lái)確定一個(gè)初始劃分背苦,然后對(duì)初始劃分進(jìn)行優(yōu)化互捌。這個(gè)初始聚類中心的選擇對(duì)聚類結(jié)果有較大的影響,一旦初始值選擇的不好行剂,可能無(wú)法得到有效的聚類結(jié)果秕噪,這也成為 K-means算法的一個(gè)主要問(wèn)題。對(duì)于該問(wèn)題的解決厚宰,許多算法采用遺傳算法腌巾,例如文獻(xiàn) 中采用遺傳算法(GA)進(jìn)行初始化,以內(nèi)部聚類準(zhǔn)則作為評(píng)價(jià)指標(biāo)。

3.從 K-means 算法框架可以看出澈蝙,該算法需要不斷地進(jìn)行樣本分類調(diào)整吓坚,不斷地計(jì)算調(diào)整后的新的聚類中心,因此當(dāng)數(shù)據(jù)量非常大時(shí)灯荧,算法的時(shí)間開銷是非常大的凌唬。所以需要對(duì)算法的時(shí)間復(fù)雜度進(jìn)行分析、改進(jìn)漏麦,提高算法應(yīng)用范圍。

應(yīng)用案例

k-means算法一個(gè)有趣的應(yīng)用示例:中國(guó)男足近幾年到底在亞洲處于幾流水平况褪?

  今年中國(guó)男足可算是杯具到家了撕贞,幾乎到了過(guò)街老鼠人人喊打的地步。對(duì)于目前中國(guó)男足在亞洲的地位测垛,各方也是各執(zhí)一詞捏膨,有人說(shuō)中國(guó)男足亞洲二流,有人說(shuō)三流食侮,還有人說(shuō)根本不入流号涯,更有人說(shuō)其實(shí)不比日韓差多少,是亞洲一流锯七。既然爭(zhēng)論不能解決問(wèn)題链快,我們就讓數(shù)據(jù)告訴我們結(jié)果吧。

  下圖是我采集的亞洲15只球隊(duì)在2005年-2010年間大型杯賽的戰(zhàn)績(jī)(由于澳大利亞是后來(lái)加入亞足聯(lián)的眉尸,所以這里沒(méi)有收錄)域蜗。
圖片發(fā)自簡(jiǎn)書App

其中包括兩次世界杯和一次亞洲杯。我提前對(duì)數(shù)據(jù)做了如下預(yù)處理:對(duì)于世界杯噪猾,進(jìn)入決賽圈則取其最終排名霉祸,沒(méi)有進(jìn)入決賽圈的,打入預(yù)選賽十強(qiáng)賽賦予40袱蜡,預(yù)選賽小組未出線的賦予50丝蹭。對(duì)于亞洲杯,前四名取其排名坪蚁,八強(qiáng)賦予5奔穿,十六強(qiáng)賦予9,預(yù)選賽沒(méi)出現(xiàn)的賦予17敏晤。這樣做是為了使得所有數(shù)據(jù)變?yōu)闃?biāo)量巫橄,便于后續(xù)聚類。

  下面先對(duì)數(shù)據(jù)進(jìn)行[0,1]規(guī)格化茵典,下面是規(guī)格化后的數(shù)據(jù):
圖片發(fā)自簡(jiǎn)書App
  接著用k-means算法進(jìn)行聚類湘换。設(shè)k=3,即將這15支球隊(duì)分成三個(gè)集團(tuán)。

  現(xiàn)抽取日本彩倚、巴林和泰國(guó)的值作為三個(gè)簇的種子筹我,即初始化三個(gè)簇的中心為A:{0.3, 0, 0.19},B:{0.7, 0.76, 0.5}和C:{1, 1, 0.5}帆离。下面蔬蕊,計(jì)算所有球隊(duì)分別對(duì)三個(gè)中心點(diǎn)的相異度,這里以歐氏距離度量哥谷。下面是我用程序求取的結(jié)果:
圖片發(fā)自簡(jiǎn)書App

從做到右依次表示各支球隊(duì)到當(dāng)前中心點(diǎn)的歐氏距離岸夯,將每支球隊(duì)分到最近的簇,可對(duì)各支球隊(duì)做如下聚類:

  中國(guó)C们妥,日本A猜扮,韓國(guó)A,伊朗A监婶,沙特A旅赢,伊拉克C,卡塔爾C惑惶,阿聯(lián)酋C煮盼,烏茲別克斯坦B,泰國(guó)C带污,越南C僵控,阿曼C,巴林B鱼冀,朝鮮B喉祭,印尼C。

  第一次聚類結(jié)果:

  A:日本雷绢,韓國(guó)泛烙,伊朗,沙特翘紊;

  B:烏茲別克斯坦蔽氨,巴林,朝鮮帆疟;

  C:中國(guó)鹉究,伊拉克,卡塔爾踪宠,阿聯(lián)酋自赔,泰國(guó),越南柳琢,阿曼绍妨,印尼润脸。

  下面根據(jù)第一次聚類結(jié)果,調(diào)整各個(gè)簇的中心點(diǎn)他去。

  A簇的新中心點(diǎn)為:{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575}

  用同樣的方法計(jì)算得到B和C簇的新中心點(diǎn)分別為{0.7, 0.7333, 0.4167}毙驯,{1, 0.94, 0.40625}。

  用調(diào)整后的中心點(diǎn)再次進(jìn)行聚類灾测,得到:
圖片發(fā)自簡(jiǎn)書App

第二次迭代后的結(jié)果為:

  中國(guó)C爆价,日本A,韓國(guó)A媳搪,伊朗A铭段,沙特A,伊拉克C秦爆,卡塔爾C序愚,阿聯(lián)酋C,烏茲別克斯坦B鲜结,泰國(guó)C,越南C活逆,阿曼C精刷,巴林B,朝鮮B蔗候,印尼C怒允。

  結(jié)果無(wú)變化,說(shuō)明結(jié)果已收斂锈遥,于是給出最終聚類結(jié)果:

  亞洲一流:日本纫事,韓國(guó),伊朗所灸,沙特

  亞洲二流:烏茲別克斯坦丽惶,巴林,朝鮮

  亞洲三流:中國(guó)爬立,伊拉克钾唬,卡塔爾,阿聯(lián)酋侠驯,泰國(guó)抡秆,越南,阿曼吟策,印尼

  看來(lái)數(shù)據(jù)告訴我們儒士,說(shuō)國(guó)足近幾年處在亞洲三流水平真的是沒(méi)有冤枉他們,至少?gòu)膰?guó)際杯賽戰(zhàn)績(jī)是這樣的檩坚。

  其實(shí)上面的分析數(shù)據(jù)不僅告訴了我們聚類信息着撩,還提供了一些其它有趣的信息诅福,例如從中可以定量分析出各個(gè)球隊(duì)之間的差距,例如睹酌,在亞洲一流隊(duì)伍中权谁,日本與沙特水平最接近,而伊朗則相距他們較遠(yuǎn)憋沿,這也和近幾年伊朗沒(méi)落的實(shí)際相符旺芽。另外,烏茲別克斯坦和巴林雖然沒(méi)有打進(jìn)近兩屆世界杯辐啄,不過(guò)憑借預(yù)算賽和亞洲杯上的出色表現(xiàn)占據(jù)B組一席之地采章,而朝鮮由于打入了2010世界杯決賽圈而有幸進(jìn)入B組,可是同樣奇跡般奪得2007年亞洲杯的伊拉克卻被分在三流壶辜,看來(lái)亞洲杯冠軍的分量還不如打進(jìn)世界杯決賽圈重啊悯舟。其它有趣的信息,有興趣的朋友可以進(jìn)一步挖掘砸民。

上面的應(yīng)用案例取自參考文獻(xiàn)3抵怎,資料有點(diǎn)久遠(yuǎn),只供學(xué)習(xí)算法運(yùn)用岭参。Kmeans算法目前就寫這么多反惕,之后有應(yīng)用與新的自己的改進(jìn)或想法會(huì)繼續(xù)補(bǔ)充的。

參考文獻(xiàn)

1演侯、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》(書)
2姿染、《k-means聚類算法的研究》(碩士論文)
3、算法雜貨鋪——KMeans均值聚類(博客)
4秒际、 K均值聚類(kmeans)算法及應(yīng)用(博客)
5悬赏、其他各種網(wǎng)站(略)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市娄徊,隨后出現(xiàn)的幾起案子闽颇,更是在濱河造成了極大的恐慌,老刑警劉巖寄锐,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件进萄,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡锐峭,警方通過(guò)查閱死者的電腦和手機(jī)中鼠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)沿癞,“玉大人援雇,你說(shuō)我怎么就攤上這事∽笛铮” “怎么了惫搏?”我有些...
    開封第一講書人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵具温,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我筐赔,道長(zhǎng)铣猩,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任茴丰,我火速辦了婚禮达皿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘贿肩。我一直安慰自己峦椰,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開白布汰规。 她就那樣靜靜地躺著汤功,像睡著了一般。 火紅的嫁衣襯著肌膚如雪溜哮。 梳的紋絲不亂的頭發(fā)上滔金,一...
    開封第一講書人閱讀 51,562評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音茂嗓,去河邊找鬼餐茵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛在抛,可吹牛的內(nèi)容都是我干的钟病。 我是一名探鬼主播萧恕,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼刚梭,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了票唆?” 一聲冷哼從身側(cè)響起朴读,我...
    開封第一講書人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎走趋,沒(méi)想到半個(gè)月后衅金,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡簿煌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年氮唯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姨伟。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡惩琉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出夺荒,到底是詐尸還是另有隱情瞒渠,我是刑警寧澤良蒸,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站伍玖,受9級(jí)特大地震影響嫩痰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜窍箍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一串纺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧仔燕,春花似錦造垛、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至外恕,卻和暖如春杆逗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鳞疲。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工罪郊, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人尚洽。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓悔橄,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親腺毫。 傳聞我的和親對(duì)象是個(gè)殘疾皇子癣疟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容