2020-06-07

我們打算從零構(gòu)建我們自己的 KMeans 算法空执。之前提到過 KMeans 算法的步驟浪箭。

  1. 選擇 K 值。
  2. 隨機選取 K 個特征作為形心辨绊。
  3. 計算所有其它特征到形心的距離奶栖。
  4. 將其它特征分類到最近的形心。
  5. 計算每個分類的均值(分類中所有特征的均值)门坷,使均值為新的形心宣鄙。
  6. 重復(fù)步驟 3 ~ 5,直到最優(yōu)(形心不再變化)默蚌。

最開始冻晤,我們:

import matplotlib.pyplot as plt
from matplotlib import style
style.use('ggplot')
import numpy as np

X = np.array([[1, 2],
              [1.5, 1.8],
              [5, 8 ],
              [8, 8],
              [1, 0.6],
              [9,11]])

plt.scatter(X[:,0], X[:,1], s=150)
plt.show()

我們的簇應(yīng)該很顯然了。我們打算選取K=2绸吸。我們開始構(gòu)建我們的 KMeans 分類:

class K_Means:
    def __init__(self, k=2, tol=0.001, max_iter=300):
        self.k = k
        self.tol = tol
        self.max_iter = max_iter

我們剛剛配置了一些起始值鼻弧,k就是簇的數(shù)量设江,tol就是容差,如果簇的形心移動沒有超過這個值攘轩,就是最優(yōu)的叉存。max_iter值用于限制循環(huán)次數(shù)。

現(xiàn)在我們開始處理fit方法:

    def fit(self,data):

        self.centroids = {}

        for i in range(self.k):
            self.centroids[i] = data[i]

最開始度帮,我們知道我們僅僅需要傳入擬合數(shù)據(jù)歼捏。之后我們以空字典開始,它之后會存放我們的形心笨篷。下面瞳秽,我們開始循環(huán),僅僅將我們的起始形心賦為數(shù)據(jù)中的前兩個樣例率翅。如果你打算真正隨機選取形心寂诱,你應(yīng)該首先打亂數(shù)據(jù),但是這樣也不錯安聘。

繼續(xù)構(gòu)建我們的類:

class K_Means:
    def __init__(self, k=2, tol=0.001, max_iter=300):
        self.k = k
        self.tol = tol
        self.max_iter = max_iter

    def fit(self,data):

        self.centroids = {}

        for i in range(self.k):
            self.centroids[i] = data[i]

        for i in range(self.max_iter):
            self.classifications = {}

            for i in range(self.k):
                self.classifications[i] = []

現(xiàn)在我們開始迭代我們的max_iter值痰洒。這里,我們以空分類開始浴韭,之后創(chuàng)建兩個字典的鍵(通過遍歷self.k的范圍)丘喻。

下面,我們需要遍歷我們的特征念颈,計算當前形心個特征的距離泉粉,之后分類他們:

class K_Means:
    def __init__(self, k=2, tol=0.001, max_iter=300):
        self.k = k
        self.tol = tol
        self.max_iter = max_iter

    def fit(self,data):

        self.centroids = {}

        for i in range(self.k):
            self.centroids[i] = data[i]

        for i in range(self.max_iter):
            self.classifications = {}

            for i in range(self.k):
                self.classifications[i] = []

            for featureset in data:
                distances = [np.linalg.norm(featureset-self.centroids[centroid]) for centroid in self.centroids]
                classification = distances.index(min(distances))
                self.classifications[classification].append(featureset)

下面,我們需要創(chuàng)建新的形心榴芳,并且度量形心的移動嗡靡。如果移動小于我們的容差(sel.tol),我們就完成了窟感。包括添加的代碼讨彼,目前為止的代碼為:

import matplotlib.pyplot as plt
from matplotlib import style
style.use('ggplot')
import numpy as np

X = np.array([[1, 2],
              [1.5, 1.8],
              [5, 8 ],
              [8, 8],
              [1, 0.6],
              [9,11]])

plt.scatter(X[:,0], X[:,1], s=150)
plt.show()

colors = 10*["g","r","c","b","k"]


class K_Means:
    def __init__(self, k=2, tol=0.001, max_iter=300):
        self.k = k
        self.tol = tol
        self.max_iter = max_iter

    def fit(self,data):

        self.centroids = {}

        for i in range(self.k):
            self.centroids[i] = data[i]

        for i in range(self.max_iter):
            self.classifications = {}

            for i in range(self.k):
                self.classifications[i] = []

            for featureset in data:
                distances = [np.linalg.norm(featureset-self.centroids[centroid]) for centroid in self.centroids]
                classification = distances.index(min(distances))
                self.classifications[classification].append(featureset)

            prev_centroids = dict(self.centroids)

            for classification in self.classifications:
                self.centroids[classification] = np.average(self.classifications[classification],axis=0)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市柿祈,隨后出現(xiàn)的幾起案子哈误,更是在濱河造成了極大的恐慌,老刑警劉巖躏嚎,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜜自,死亡現(xiàn)場離奇詭異,居然都是意外死亡卢佣,警方通過查閱死者的電腦和手機重荠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來虚茶,“玉大人戈鲁,你說我怎么就攤上這事尾膊。” “怎么了荞彼?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵冈敛,是天一觀的道長。 經(jīng)常有香客問我鸣皂,道長抓谴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任寞缝,我火速辦了婚禮癌压,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘荆陆。我一直安慰自己滩届,他們只是感情好,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布被啼。 她就那樣靜靜地躺著帜消,像睡著了一般。 火紅的嫁衣襯著肌膚如雪浓体。 梳的紋絲不亂的頭發(fā)上泡挺,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天,我揣著相機與錄音命浴,去河邊找鬼娄猫。 笑死,一個胖子當著我的面吹牛生闲,可吹牛的內(nèi)容都是我干的媳溺。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼碍讯,長吁一口氣:“原來是場噩夢啊……” “哼悬蔽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起冲茸,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤屯阀,失蹤者是張志新(化名)和其女友劉穎缅帘,沒想到半個月后轴术,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡钦无,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年逗栽,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片失暂。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡彼宠,死狀恐怖鳄虱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情凭峡,我是刑警寧澤拙已,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站摧冀,受9級特大地震影響倍踪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜索昂,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一建车、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧椒惨,春花似錦缤至、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至沃暗,卻和暖如春戒突,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背描睦。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工膊存, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人忱叭。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓隔崎,卻偏偏與公主長得像,于是被迫代替她去往敵國和親韵丑。 傳聞我的和親對象是個殘疾皇子爵卒,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351