聚類算法

聚類：通過(guò)物品來(lái)計(jì)算距離，并自動(dòng)分類到不同的群集或組中刁品。有兩種聚類算法比較常用：

（1）K-means聚類算法

需要提前告訴算法要將數(shù)據(jù)分成幾個(gè)組。
K-means算法過(guò)程可概括為：

隨機(jī)選取k個(gè)元素作為中心點(diǎn)
根據(jù)距離將各個(gè)點(diǎn)分配給中心點(diǎn)
計(jì)算新的中心點(diǎn)
重復(fù)2,3,直至滿足條件

K-means是一種最大期望算法分冈，這類算法會(huì)在“期望”和“最大化”兩個(gè)階段不斷迭代派哲，比如k-means的期望階段是將各個(gè)點(diǎn)分配到他們所期望的分類中，然后在最大化階段重新計(jì)算中心點(diǎn)的位置志群。

補(bǔ)充：登山式算法
假設(shè)我們想要登上一座山的頂峰着绷，可以通過(guò)以下步驟實(shí)現(xiàn)：

在山上隨機(jī)選取一個(gè)點(diǎn)作為開始
向高處爬一點(diǎn)
重復(fù)第2步，直到?jīng)]有更高的點(diǎn)
對(duì)于如下的山峰看起來(lái)很合理：

登山式算法

K-means也是這樣的一種算法锌云，它并不能保證最終結(jié)果是最優(yōu)的荠医，因?yàn)槲覀円婚_始選擇的中心點(diǎn)是隨機(jī)的，很有可能就會(huì)選到A點(diǎn)，最終獲得局部最優(yōu)解B點(diǎn)彬向。因此兼贡，最終的聚類結(jié)果和起始點(diǎn)的選擇有很大的關(guān)系。但盡管如此娃胆，k-means通常還是能夠獲得良好的結(jié)果的遍希。

誤差平凡和SSE
可以用誤差平凡和（或稱為離散程度）來(lái)評(píng)判聚類結(jié)果的好壞，他的計(jì)算方法是計(jì)算每個(gè)點(diǎn)到中心點(diǎn)的距離平凡和

誤差平凡和

注意：雖然指定了K的值缕棵，但不代表最終結(jié)果就會(huì)有k個(gè)分類孵班，這通常是好事，比如招驴，指定k=10篙程，但結(jié)果有2個(gè)為空，那很可能這個(gè)數(shù)據(jù)集本來(lái)就該分成8個(gè)類別别厘，因此可以嘗試用k=8來(lái)重新計(jì)算虱饿。

K-means++

k-means算法有一個(gè)明顯的缺點(diǎn)，在算法一開始需要隨機(jī)選取k個(gè)起始點(diǎn)触趴，這個(gè)隨機(jī)會(huì)有問題氮发。有時(shí)選取的點(diǎn)能產(chǎn)生最佳結(jié)果，而有時(shí)會(huì)讓結(jié)果變得很差冗懦。K-means++則改進(jìn)了起始點(diǎn)的選取過(guò)程爽冕，其余和k-means一致。

k-means++選取起始點(diǎn)的過(guò)程：

隨機(jī)選取一個(gè)點(diǎn)
重復(fù)以下步驟披蕉，直到選完k個(gè)點(diǎn)
I．計(jì)算沒個(gè)數(shù)據(jù)點(diǎn)（dp）到各個(gè)中心點(diǎn)的距離（D）颈畸，選取最小的值，記為D(dp)
II．根據(jù)D（dp）的概率來(lái)隨機(jī)選取一個(gè)點(diǎn)作為中心點(diǎn)

K-means++選取起始點(diǎn)的方法總結(jié)下來(lái)就是：第一個(gè)點(diǎn)還是隨機(jī)的没讲，但后續(xù)的點(diǎn)就會(huì)盡量選擇離現(xiàn)有中心點(diǎn)更遠(yuǎn)的點(diǎn)

（2）層次聚類算法

不需要預(yù)先指定分類的數(shù)量眯娱，這個(gè)方法會(huì)將每條數(shù)據(jù)都當(dāng)做是一個(gè)分類，每次迭代的時(shí)候合并距離最近的兩個(gè)分類爬凑，直到剩下一個(gè)分類為止徙缴。

層次聚類法原理圖

在合并的時(shí)候會(huì)計(jì)算兩個(gè)分類之間的距離，可以采用不同的方法：

層次聚類法

內(nèi)容來(lái)源：《dataminmingguide》---聚類

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末嘁信，一起剝皮案震驚了整個(gè)濱河市于样，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌潘靖，老刑警劉巖穿剖，帶你破解...
沈念sama閱讀 216,496評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異秘豹，居然都是意外死亡携御，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,407評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)啄刹，“玉大人涮坐，你說(shuō)我怎么就攤上這事∈木” “怎么了袱讹？”我有些...
開封第一講書人閱讀 162,632評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)昵时。經(jīng)常有香客問我捷雕，道長(zhǎng)，這世上最難降的妖魔是什么壹甥？我笑而不...
開封第一講書人閱讀 58,180評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任救巷，我火速辦了婚禮，結(jié)果婚禮上句柠，老公的妹妹穿的比我還像新娘浦译。我一直安慰自己，他們只是感情好溯职，可當(dāng)我...
茶點(diǎn)故事閱讀 67,198評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布精盅。她就那樣靜靜地躺著，像睡著了一般谜酒。火紅的嫁衣襯著肌膚如雪叹俏。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,165評(píng)論 1贊 299
城市分裂傳說(shuō)
那天僻族，我揣著相機(jī)與錄音粘驰，去河邊找鬼。笑死鹰贵，一個(gè)胖子當(dāng)著我的面吹牛晴氨，可吹牛的內(nèi)容都是我干的康嘉。我是一名探鬼主播碉输，決...
沈念sama閱讀 40,052評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼亭珍！你這毒婦竟也來(lái)了敷钾？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,910評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤肄梨，失蹤者是張志新（化名）和其女友劉穎阻荒，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體众羡，經(jīng)...
沈念sama閱讀 45,324評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡侨赡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,542評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片羊壹。...
茶點(diǎn)故事閱讀 39,711評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡蓖宦，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出油猫，到底是詐尸還是另有隱情稠茂，我是刑警寧澤，帶...
沈念sama閱讀 35,424評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布情妖，位于F島的核電站睬关，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏毡证。R本人自食惡果不足惜电爹，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,017評(píng)論 3贊 326
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望料睛。院中可真熱鬧藐不，春花似錦、人聲如沸秦效。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,668評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)阱州。三九已至挑秉，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間苔货，已是汗流浹背犀概。一陣腳步聲響...
開封第一講書人閱讀 32,823評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留夜惭，地道東北人姻灶。一個(gè)月前我還...
沈念sama閱讀 47,722評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像诈茧，于是被迫代替她去往敵國(guó)和親产喉。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,611評(píng)論 2贊 353

聚類算法

（1）K-means聚類算法

K-means++

k-means++選取起始點(diǎn)的過(guò)程：

（2）層次聚類算法

推薦閱讀更多精彩內(nèi)容