ML 無(wú)監(jiān)督學(xué)習(xí) 聚類 K-Means

無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)

在無(wú)監(jiān)督學(xué)習(xí)中肮街,訓(xùn)練樣本的標(biāo)記信息是未知的,目標(biāo)是通過(guò)對(duì)無(wú)標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律速勇,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)截珍。

聚類(clustering)

聚類算法的目標(biāo)是將數(shù)據(jù)集合分成若干簇,使得同一簇內(nèi)的數(shù)據(jù)點(diǎn)相似度盡可能大吞瞪,而不同簇間的數(shù)據(jù)點(diǎn)相似度盡可能小馁启。

聚類要求
k-均值算法(k-means)---基于原型的聚類

K-Means算法是一種較典型的逐點(diǎn)修改迭代的動(dòng)態(tài)聚類算法

1.首先從d維空間中選擇k個(gè)數(shù)據(jù)點(diǎn)作為初始聚類的均值(中心)/簇
2.計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到這些聚類中心的距離,然后把各個(gè)數(shù)據(jù)點(diǎn)分配給離它最近的那個(gè)聚類
3.如果所有數(shù)據(jù)點(diǎn)都不再被重新分配芍秆,難么就停止并保持現(xiàn)有聚類
4.如果仍有數(shù)據(jù)點(diǎn)被重新分配惯疙,則重新計(jì)算均值,并返回到第2步

由于每次都要計(jì)算所有的樣本與每一個(gè)質(zhì)心之間的距離妖啥,因此在大規(guī)模的數(shù)據(jù)集上霉颠,K-Means算法的收斂速度比較慢。

最優(yōu)的聚類結(jié)果需要符合以 下兩個(gè)假設(shè)
1.“簇中心點(diǎn)”(cluster center)是屬于該簇的所有數(shù)據(jù)點(diǎn)坐標(biāo)的算術(shù)平均值荆虱。

  1. 一個(gè)簇的每個(gè)點(diǎn)到該簇中心點(diǎn)的距離蒿偎,比到其他簇中心點(diǎn)的距離短。

k=2 N=14

k-means

k=3


一種用于度量聚類效果的指標(biāo)是SSE(SumofSquaredError,誤差平方和)怀读,SSE值越小表示數(shù)據(jù)點(diǎn)越接近它們的質(zhì)心诉位,聚類效果也越好。因此建議對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化以使其平均值為零愿吹,標(biāo)準(zhǔn)差為1不从。

K-Means算法的局限性

1.聚類中心的個(gè)數(shù)K需要事先指定
2.由于kmeans算法可能停留在局部最優(yōu)而不收斂于全局最優(yōu),在使用K-Means算法進(jìn)行聚類之前犁跪,需要初始化K個(gè)聚類中心

解決方法
1.選擇盡可能遠(yuǎn)離的點(diǎn)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# Generating 100 data points and divide them into 2 groups
X= -2 * np.random.rand(100,2)
X1 = 1 + 2 * np.random.rand(50,2)
X[50:100, :] = X1
plt.scatter(X[ : , 0], X[ :, 1], s = 50, c = 'b')
plt.show()


from sklearn.cluster import KMeans
Kmean = KMeans(n_clusters=2)
Kmean.fit(X)

# Finding the center of the clusters
print(Kmean.cluster_centers_)

plt.scatter(X[ : , 0], X[ : , 1], s =50, c='b')
plt.scatter(-0.94665068, -0.97138368, s=200, c='g', marker='s')
plt.scatter(2.01559419, 2.02597093, s=200, c='r', marker='s')
plt.show()

# Getting the labels
print(Kmean.labels_)

# Predicting the cluster of a data point
sample_test=np.array([-3.0,-3.0])
second_test=sample_test.reshape(1, -1)
print(Kmean.predict(second_test))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末椿息,一起剝皮案震驚了整個(gè)濱河市歹袁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌寝优,老刑警劉巖条舔,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異乏矾,居然都是意外死亡孟抗,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門钻心,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)凄硼,“玉大人,你說(shuō)我怎么就攤上這事捷沸√粒” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵痒给,是天一觀的道長(zhǎng)说墨。 經(jīng)常有香客問(wèn)我,道長(zhǎng)苍柏,這世上最難降的妖魔是什么尼斧? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮试吁,結(jié)果婚禮上棺棵,老公的妹妹穿的比我還像新娘。我一直安慰自己潘悼,他們只是感情好律秃,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著治唤,像睡著了一般棒动。 火紅的嫁衣襯著肌膚如雪吼虎。 梳的紋絲不亂的頭發(fā)上嘱吗,一...
    開(kāi)封第一講書(shū)人閱讀 50,096評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音擂错,去河邊找鬼缕陕。 笑死粱锐,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的扛邑。 我是一名探鬼主播怜浅,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了恶座?” 一聲冷哼從身側(cè)響起搀暑,我...
    開(kāi)封第一講書(shū)人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎跨琳,沒(méi)想到半個(gè)月后自点,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡脉让,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年桂敛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片溅潜。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡术唬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出滚澜,到底是詐尸還是另有隱情碴开,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布博秫,位于F島的核電站,受9級(jí)特大地震影響眶掌,放射性物質(zhì)發(fā)生泄漏挡育。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一朴爬、第九天 我趴在偏房一處隱蔽的房頂上張望即寒。 院中可真熱鬧,春花似錦召噩、人聲如沸母赵。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)凹嘲。三九已至,卻和暖如春构韵,著一層夾襖步出監(jiān)牢的瞬間周蹭,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工疲恢, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留凶朗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓显拳,卻偏偏與公主長(zhǎng)得像棚愤,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子杂数,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容