聚類算法(二)——K-means聚類

簡介

k-means算法是1967年由MacQueen首次提出的一種經(jīng)典算法市怎,它是一種基于質(zhì)心的劃分方法,這種方法將簇中所有對象的平均值看作是簇的質(zhì)心,根據(jù)一個(gè)數(shù)據(jù)對象與簇質(zhì)心的距離,將該對象賦予最近的簇苇瓣。在此類方法中,需要給定劃分的簇個(gè)數(shù)k偿乖,首先得到k個(gè)初始劃分的集合击罪,然后采用迭代重定位技術(shù),通過將對象從一個(gè)簇移到另一個(gè)簇來改進(jìn)劃分的質(zhì)量汹想。

算法

誤差函數(shù)

對于k-means算法外邓,通常使用SSE作為度量質(zhì)量的目標(biāo)函數(shù),對于相同的k值古掏,更小的SSE表示簇中對象越集中损话。對于不同的k值,越大的k值應(yīng)該對應(yīng)越小的SSE

Python實(shí)現(xiàn)

任意選擇k個(gè)對象作為初始質(zhì)心槽唾,并建立k個(gè)簇

def init_cluster(self):
      for i in range(self.k):
            c = clusterUnit()
            initCentroid = random.choice(self.data)
            c.add_node(initCentroid)
            self.clusterList.append(c)

定義clusterChange變量丧枪,監(jiān)控聚類是否變化

clusterChange = True

循環(huán)讀取數(shù)據(jù),通過比對每個(gè)數(shù)據(jù)到k個(gè)簇簇心的距離找出該數(shù)據(jù)所屬的簇庞萍,并使用與數(shù)據(jù)等長的列表來記錄該數(shù)據(jù)所屬的簇拧烦。

for j in range(self.k):
    distance = clusterUnit.distance(self.clusterList[j].centroid, data)
    if distance < minDist:
        minDist = distance
        minIndex = j
if int(self.note[i]) != minIndex:
    clusterChange = True
    if int(self.note[i]) != -1:
        self.clusterList[int(self.note[i])].remove_node(data)
    self.clusterList[minIndex].add_node(data)
    self.note[i] = minIndex

使用鳶尾花的數(shù)據(jù),調(diào)用可視化方法钝计,可視化每個(gè)循環(huán)后的結(jié)果


1恋博,2齐佳,3,4次循環(huán)的結(jié)果

輸出SSE值

def calcualte_SSE(self):
    sum_SSE = 0
    for i in self.clusterList:
        sum_SSE += i.SSE()
    return sum_SSE

分析

K-means算法描述容易债沮,實(shí)現(xiàn)簡單炼吴,快速,但存在以下不足:

  1. k需要提前給定
  2. 算法對初始值選取依賴性極大以及算法常陷入局部最優(yōu)解
  3. 離群點(diǎn)和噪聲點(diǎn)會(huì)影響簇質(zhì)心偏離
  4. 不能處理分類屬性的簇

變體

為了解決K-means算法的缺點(diǎn)疫衩,還提出了包括二分-K-means算法硅蹦,k-modes算法,k-prototypes算法闷煤,k-summary算法童芹,k-medoids算法等。

Ref

深入淺出聚類算法之k-means算法

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鲤拿,一起剝皮案震驚了整個(gè)濱河市假褪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌皆愉,老刑警劉巖嗜价,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艇抠,死亡現(xiàn)場離奇詭異幕庐,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)家淤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門异剥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人絮重,你說我怎么就攤上這事冤寿。” “怎么了青伤?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵督怜,是天一觀的道長。 經(jīng)常有香客問我狠角,道長号杠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任丰歌,我火速辦了婚禮姨蟋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘立帖。我一直安慰自己眼溶,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般觅玻。 火紅的嫁衣襯著肌膚如雪虏束。 梳的紋絲不亂的頭發(fā)上笨枯,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天览祖,我揣著相機(jī)與錄音膳殷,去河邊找鬼膨疏。 笑死别智,一個(gè)胖子當(dāng)著我的面吹牛宗苍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播薄榛,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼讳窟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了敞恋?” 一聲冷哼從身側(cè)響起丽啡,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎硬猫,沒想到半個(gè)月后补箍,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡啸蜜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年坑雅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衬横。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡裹粤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蜂林,到底是詐尸還是另有隱情遥诉,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布噪叙,位于F島的核電站矮锈,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏睁蕾。R本人自食惡果不足惜苞笨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望惫霸。 院中可真熱鬧猫缭,春花似錦、人聲如沸壹店。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽硅卢。三九已至射窒,卻和暖如春藏杖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脉顿。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工蝌麸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人艾疟。 一個(gè)月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓来吩,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蔽莱。 傳聞我的和親對象是個(gè)殘疾皇子弟疆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容