使用Python實現(xiàn)KMeans算法

簡介

通過使用python語言實現(xiàn)KMeans算法辩稽,不使用sklearn標(biāo)準(zhǔn)庫鸠补。
該實驗中字母代表的含義如下:

  • p:樣本點維度
  • n:樣本點個數(shù)
  • k:聚類中心個數(shù)

實驗要求

使用KMeans算法根據(jù)5名同學(xué)的各項成績將其分為3類法希。

數(shù)據(jù)集

數(shù)據(jù)存儲格式為csv那婉,本實驗使用數(shù)據(jù)集如下:


數(shù)據(jù)集

實驗步驟

  1. 引入需要的包
    本實驗只需要numpy和pandas兩個包锹安, 其中numpy用于數(shù)值計算同仆,pandas用于讀取數(shù)據(jù)。
import numpy as np
import pandas as pd
  1. 定義函數(shù)計算歐氏距離
# 返回兩點之間的歐氏距離枪向,其中point1勤揩、point2為兩個點的坐標(biāo),其維度為(p,)
def get_euclidean_distance(point1, point2):
    return (np.sum((point1 - point2) ** 2)) ** 0.5
  1. 定義函數(shù)返回所有樣本點到聚類中心的歐氏距離
# 返回所有樣本點到所有聚類中心的歐氏距離秘蛔,其維度為(k,n)
def get_distances(train_data, crowds):
    all_distances = []  # 保存所有樣本點到所有聚類中心的歐氏距離陨亡,其維度為(k,n)
    for i in range(len(crowds)):
        distances = []  # 保存所有樣本點到一個聚類中心的歐氏距離,其維度為(n,)
        for j in range(len(train_data)):
            distances.append(get_euclidean_distance(train_data[j], crowds[i]))
        all_distances.append(distances)
    return all_distances
  1. 定義函數(shù)根據(jù)歐氏距離將樣本點分類到最近的聚類中心深员,返回的list維度為(n,)
# 將樣本點分類到最近的聚類中心负蠕,其維度為(n,)
def classify(train_data, crowds):
    all_distances = get_distances(train_data, crowds)
    clsy = np.argmin(all_distances, axis=0)
    return clsy
  1. 定義函數(shù)比較兩聚類結(jié)果
    由于KMeans算法需要迭代知道聚類結(jié)果收斂,所以使用如下函數(shù)判斷兩個聚類結(jié)果是否相等倦畅。
# 返回一個bool值遮糖,表示分類結(jié)果是否改變
def clsy_change(new_clsy, clsy):
    changed = False
    for i in range(len(clsy)):
        if clsy[i] != new_clsy[i]:
            changed = True
            break
    return changed
  1. 定義聚類函數(shù)
    該函數(shù)為最終的聚類函數(shù),實現(xiàn)思路為根據(jù)KMeans算法的原理使用上述函數(shù)迭代獲取新的聚類結(jié)果知道聚類結(jié)果收斂滔迈。
def final_classify(train_data, crowds):
    p = train_data.shape[1]
    n = len(train_data)
    k = len(crowds)

    new_crowds = crowds
    clsy = np.ndarray((n,))
    new_clsy = np.ndarray((n,))
    while (clsy != new_clsy).any():
        clsy = new_clsy
        new_clsy = classify(train_data, new_crowds)
        print('new_clsy:', new_clsy)
        new_crowds = []
        clusters = []  # 每一個聚類中的樣本點的索引
        for i in range(k):
            clusters.append([])
        for i in range(n):
            clusters[new_clsy[i]].append(i)
        for j in range(k):
            if len(clusters[j]) == 0:
                new_crowds.append(crowds[j])
            else:
                sums = np.zeros((p,))
                for m in clusters[j]:
                    sums += train_data[m]
                means = sums / len(clusters[j])
                new_crowds.append(means)

    return (new_crowds, new_clsy)
  1. 調(diào)用函數(shù)獲取實驗結(jié)果
# 初始聚類中心
crowds2 = np.array([[12, 15, 13, 28, 24], [7, 11, 10, 19, 21], [6, 7, 4, 13, 20]])
dataCsv2 = 'p2.csv'
data2 = pd.read_csv(dataCsv2)

train_data2 = data2.iloc[:, 1:].values
result2 = final_classify(train_data2, crowds2)

print('聚類中心:', np.array(result2[0]))
print('聚類結(jié)果:', np.array(result2[1]))

最終的聚類結(jié)果如下:


聚類結(jié)果

總結(jié)

KMeans算法是一種迭代求解的算法止吁,在實驗過程中要注意收斂的判定被辑,同時也要注意數(shù)據(jù)與求解過程中分類結(jié)果的表示方法,而且要明白初始聚類中心的選擇會對聚類結(jié)果產(chǎn)生直接的影響敬惦。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末盼理,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子俄删,更是在濱河造成了極大的恐慌宏怔,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件畴椰,死亡現(xiàn)場離奇詭異臊诊,居然都是意外死亡,警方通過查閱死者的電腦和手機斜脂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門抓艳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人帚戳,你說我怎么就攤上這事玷或。” “怎么了片任?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵偏友,是天一觀的道長。 經(jīng)常有香客問我对供,道長位他,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任产场,我火速辦了婚禮鹅髓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘涝动。我一直安慰自己迈勋,他們只是感情好炬灭,可當(dāng)我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布醋粟。 她就那樣靜靜地躺著,像睡著了一般重归。 火紅的嫁衣襯著肌膚如雪米愿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天鼻吮,我揣著相機與錄音育苟,去河邊找鬼。 笑死椎木,一個胖子當(dāng)著我的面吹牛违柏,可吹牛的內(nèi)容都是我干的博烂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼漱竖,長吁一口氣:“原來是場噩夢啊……” “哼禽篱!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起馍惹,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤躺率,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后万矾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悼吱,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年良狈,在試婚紗的時候發(fā)現(xiàn)自己被綠了后添。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡薪丁,死狀恐怖吕朵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窥突,我是刑警寧澤努溃,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站阻问,受9級特大地震影響梧税,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜称近,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一第队、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧刨秆,春花似錦凳谦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至缓醋,卻和暖如春如失,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背送粱。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工褪贵, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓脆丁,卻偏偏與公主長得像世舰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子槽卫,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,055評論 2 355