聚類算法

聚類:通過(guò)物品來(lái)計(jì)算距離,并自動(dòng)分類到不同的群集或組中刁品。有兩種聚類算法比較常用:

(1)K-means聚類算法

需要提前告訴算法要將數(shù)據(jù)分成幾個(gè)組。
K-means算法過(guò)程可概括為:

  1. 隨機(jī)選取k個(gè)元素作為中心點(diǎn)
  2. 根據(jù)距離將各個(gè)點(diǎn)分配給中心點(diǎn)
  3. 計(jì)算新的中心點(diǎn)
  4. 重復(fù)2,3,直至滿足條件

K-means是一種最大期望算法分冈,這類算法會(huì)在“期望”和“最大化”兩個(gè)階段不斷迭代派哲,比如k-means的期望階段是將各個(gè)點(diǎn)分配到他們所期望的分類中,然后在最大化階段重新計(jì)算中心點(diǎn)的位置志群。

補(bǔ)充:登山式算法
假設(shè)我們想要登上一座山的頂峰着绷,可以通過(guò)以下步驟實(shí)現(xiàn):

  1. 在山上隨機(jī)選取一個(gè)點(diǎn)作為開始
  2. 向高處爬一點(diǎn)
  3. 重復(fù)第2步,直到?jīng)]有更高的點(diǎn)
    對(duì)于如下的山峰看起來(lái)很合理:


    登山式算法

K-means也是這樣的一種算法锌云,它并不能保證最終結(jié)果是最優(yōu)的荠医,因?yàn)槲覀円婚_始選擇的中心點(diǎn)是隨機(jī)的,很有可能就會(huì)選到A點(diǎn),最終獲得局部最優(yōu)解B點(diǎn)彬向。因此兼贡,最終的聚類結(jié)果和起始點(diǎn)的選擇有很大的關(guān)系。但盡管如此娃胆,k-means通常還是能夠獲得良好的結(jié)果的遍希。

誤差平凡和SSE
可以用誤差平凡和(或稱為離散程度)來(lái)評(píng)判聚類結(jié)果的好壞,他的計(jì)算方法是計(jì)算每個(gè)點(diǎn)到中心點(diǎn)的距離平凡和

誤差平凡和

注意:雖然指定了K的值缕棵,但不代表最終結(jié)果就會(huì)有k個(gè)分類孵班,這通常是好事,比如招驴,指定k=10篙程,但結(jié)果有2個(gè)為空,那很可能這個(gè)數(shù)據(jù)集本來(lái)就該分成8個(gè)類別别厘,因此可以嘗試用k=8來(lái)重新計(jì)算虱饿。

K-means++

k-means算法有一個(gè)明顯的缺點(diǎn),在算法一開始需要隨機(jī)選取k個(gè)起始點(diǎn)触趴,這個(gè)隨機(jī)會(huì)有問題氮发。有時(shí)選取的點(diǎn)能產(chǎn)生最佳結(jié)果,而有時(shí)會(huì)讓結(jié)果變得很差冗懦。K-means++則改進(jìn)了起始點(diǎn)的選取過(guò)程爽冕,其余和k-means一致。

k-means++選取起始點(diǎn)的過(guò)程:

  1. 隨機(jī)選取一個(gè)點(diǎn)
  2. 重復(fù)以下步驟披蕉,直到選完k個(gè)點(diǎn)
    I. 計(jì)算沒個(gè)數(shù)據(jù)點(diǎn)(dp)到各個(gè)中心點(diǎn)的距離(D)颈畸,選取最小的值,記為D(dp)
    II. 根據(jù)D(dp)的概率來(lái)隨機(jī)選取一個(gè)點(diǎn)作為中心點(diǎn)

K-means++選取起始點(diǎn)的方法總結(jié)下來(lái)就是:第一個(gè)點(diǎn)還是隨機(jī)的没讲,但后續(xù)的點(diǎn)就會(huì)盡量選擇離現(xiàn)有中心點(diǎn)更遠(yuǎn)的點(diǎn)

(2)層次聚類算法

不需要預(yù)先指定分類的數(shù)量眯娱,這個(gè)方法會(huì)將每條數(shù)據(jù)都當(dāng)做是一個(gè)分類,每次迭代的時(shí)候合并距離最近的兩個(gè)分類爬凑,直到剩下一個(gè)分類為止徙缴。


層次聚類法原理圖

在合并的時(shí)候會(huì)計(jì)算兩個(gè)分類之間的距離,可以采用不同的方法:


層次聚類法

內(nèi)容來(lái)源:《dataminmingguide》---聚類

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嘁信,一起剝皮案震驚了整個(gè)濱河市于样,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌潘靖,老刑警劉巖穿剖,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異秘豹,居然都是意外死亡携御,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)啄刹,“玉大人涮坐,你說(shuō)我怎么就攤上這事∈木” “怎么了袱讹?”我有些...
    開封第一講書人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)昵时。 經(jīng)常有香客問我捷雕,道長(zhǎng),這世上最難降的妖魔是什么壹甥? 我笑而不...
    開封第一講書人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任救巷,我火速辦了婚禮,結(jié)果婚禮上句柠,老公的妹妹穿的比我還像新娘浦译。我一直安慰自己,他們只是感情好溯职,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開白布精盅。 她就那樣靜靜地躺著,像睡著了一般谜酒。 火紅的嫁衣襯著肌膚如雪叹俏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,165評(píng)論 1 299
  • 那天僻族,我揣著相機(jī)與錄音粘驰,去河邊找鬼。 笑死鹰贵,一個(gè)胖子當(dāng)著我的面吹牛晴氨,可吹牛的內(nèi)容都是我干的康嘉。 我是一名探鬼主播碉输,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼亭珍!你這毒婦竟也來(lái)了敷钾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤肄梨,失蹤者是張志新(化名)和其女友劉穎阻荒,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體众羡,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡侨赡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片羊壹。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蓖宦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出油猫,到底是詐尸還是另有隱情稠茂,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布情妖,位于F島的核電站睬关,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏毡证。R本人自食惡果不足惜电爹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望料睛。 院中可真熱鬧藐不,春花似錦、人聲如沸秦效。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)阱州。三九已至挑秉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間苔货,已是汗流浹背犀概。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留夜惭,地道東北人姻灶。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像诈茧,于是被迫代替她去往敵國(guó)和親产喉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 寫在之前 因簡(jiǎn)書導(dǎo)入公式很麻煩敢会,如果想獲得更好的觀看體驗(yàn)請(qǐng)移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 6,831評(píng)論 2 13
  • 簡(jiǎn)單之美 | 聚類算法:K-means http://shiyanjun.cn/archives/539.htm...
    葡萄喃喃囈語(yǔ)閱讀 709評(píng)論 0 1
  • 1. 機(jī)器學(xué)習(xí)基本概念 1.1 什么是機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)(Machine Learning)是一種基本數(shù)據(jù)的學(xué)習(xí)曾沈,...
    ZPPenny閱讀 4,335評(píng)論 0 10
  • 說(shuō)起《芳華》里的丁丁,大家認(rèn)為他毀了劉峰鸥昏,毀了人世間的善良塞俱。依我之見,在那個(gè)“男女同坐一條凳子就會(huì)懷孕”的認(rèn)...
    魚樂兒閱讀 435評(píng)論 0 1
  • 本文列出的9本書在Java程序員界都是被認(rèn)為很棒的書吏垮。當(dāng)一個(gè)程序員開始初學(xué)Java時(shí)障涯,他的第一個(gè)問題應(yīng)該是如何選擇...
    技術(shù)小黑屋閱讀 1,254評(píng)論 2 13