關于層次聚類算法的python實現(xiàn)

from scipy.cluster import hierarchy

0.層次聚類的概念

層次聚類和k-means一樣都是很常用的聚類方法撞蚕。層次聚類是對群體的劃分盛霎,最終將樣本劃分為樹狀的結構铆农。他的基本思路是每個樣本先自成一類嫁怀,然后按照某種規(guī)則進行合并锅铅,直到只有一類或者某一類的樣本只有一個點刃唐。層次聚類又分為自底而上的聚合層次聚類和自頂而下的分裂層次聚類羞迷。

0.1 聚合層次聚類

每一個點初始為1類,得到N(樣本點個數(shù))類画饥,計算每一類之間的距離衔瓮,計算方法有很多,具體可以參考距離的計算方法抖甘。聚合層次聚類方法的終止條件是所有樣本點都處于同一類了热鞍,或者兩類之間的距離超過設置的某個閾值。大多數(shù)層次聚類都是聚合層次聚類衔彻。

0.2 分裂層次聚類

和聚合層次聚類是反著的薇宠,屬于自上而下的一種聚類方法。剛開始的時候所有的樣本點都位于同一類艰额,然后一步步劃分澄港,終止條件是所有的樣本點都位于單獨的一類,或者兩類之間的距離超過設置的某個閾值柄沮。
下面這個圖可以比較好的說明這個過程:


層次聚類的兩種方法

1.凝聚層次聚類算法步驟

1.1 算法過程

1)N個樣本單獨成類回梧,G1(0)、G2(0)祖搓、G3(0)狱意、……、GN(0)拯欧,0代表初始狀態(tài)详囤。
2)更新距離矩陣D(n),找出D(n)中最小值镐作,把對應的兩類合并為1類藏姐。
3)更新距離矩陣D(n+1)蚓再,重復步驟2-3。

  1. 當兩類之間的最小距離小于給定的閾值或者所有樣本都單獨成類的時候包各,結束算法摘仅。

1.2算法案例

有個老師帶了五個學生,想給學生分組问畅,讓他們分組學習娃属,采用層次聚類來對學生進行聚類,基礎數(shù)據(jù)如下圖护姆。


學生基礎數(shù)據(jù)

先來算距離D(0)矾端,就采用歐式距離就好了。


初始距離矩陣

找到最小的那兩個合并為1類卵皂。
合并后的新數(shù)據(jù)

然后計算更新后的距離D(1)


合并的后新距離

以后的以此類推:
聚類的整體過程

我們看到其實124是一類秩铆,35是一類。
畫出圖來就是下面這個格式:
聚類結果

3.Python處理層次聚類的包

用的是在scipy.cluster里的hierarchy方法灯变,下面來看代碼殴玛,支持hierarchical clustering 和 agglomerative clustering。
首先來看一些基本函數(shù)的用法

  • linkage
    scipy.cluster.hierarchy.linkage(data,method = 'single')
    method 參數(shù)是類距離的計算公式
    singele 兩個類之間最短的點的距離
    complete 兩個類之間最長距離的點的距離
    centroid 兩個類所有點的中點的距離
  • pdist計算樣本點之間的兩兩距離
    scipy.cluster.hierarchy.distance.pdist(data, metric='euclidean')
    metric參數(shù)是求距離的方法添祸,默認是歐氏距離滚粟,可選的還有:
    ‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘cityblock’, ‘correlation’, ‘cosine’, ‘dice’, ‘euclidean’, ‘hamming’, ‘jaccard’, ‘jensenshannon’, ‘kulsinski’, ‘mahalanobis’, ‘matching’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule’
    關于求距離的函數(shù)我可能還會再更一篇文章,感興趣的朋友可以等一下刃泌。筆者之前算字符相似度自己還寫了一個杰爾卡德相似度凡壤,現(xiàn)在看看真實太費事了。
  • dendrogram(linkage)
    scipy.cluster.hierarchy.dendrogram(linkage)耙替,這個函數(shù)是畫圖用的亚侠。
import numpy
import pandas
from sklearn import datasets
import scipy.cluster.hierarchy as hcluster
import scipy
#iris = datasets.load_iris()
#data = iris.data
#target = iris.target
points=scipy.randn(20,4)  
# Compute and plot first dendrogram.
linkage = hcluster.linkage(points, method='centroid')
hcluster.dendrogram(linkage,  leaf_font_size=10.)
p = hcluster.fcluster( linkage,  3, criterion='maxclust')

聚類結果如下圖所示:


聚類結果

以上就是層次聚類的簡單應用,當然有不同的需求可以繼續(xù)探索一些函數(shù)的參數(shù)俗扇,這個方法還是很好用的硝烂。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市狐援,隨后出現(xiàn)的幾起案子钢坦,更是在濱河造成了極大的恐慌,老刑警劉巖啥酱,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件爹凹,死亡現(xiàn)場離奇詭異,居然都是意外死亡镶殷,警方通過查閱死者的電腦和手機禾酱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人颤陶,你說我怎么就攤上這事颗管。” “怎么了滓走?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵垦江,是天一觀的道長。 經(jīng)常有香客問我搅方,道長比吭,這世上最難降的妖魔是什么枕扫? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任碘橘,我火速辦了婚禮,結果婚禮上驳糯,老公的妹妹穿的比我還像新娘涛漂。我一直安慰自己赏表,他們只是感情好,可當我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布匈仗。 她就那樣靜靜地躺著瓢剿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪锚沸。 梳的紋絲不亂的頭發(fā)上跋选,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天,我揣著相機與錄音哗蜈,去河邊找鬼。 笑死坠韩,一個胖子當著我的面吹牛距潘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播只搁,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼音比,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了氢惋?” 一聲冷哼從身側響起洞翩,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎焰望,沒想到半個月后骚亿,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡熊赖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年来屠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡俱笛,死狀恐怖捆姜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情迎膜,我是刑警寧澤泥技,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站磕仅,受9級特大地震影響零抬,放射性物質發(fā)生泄漏。R本人自食惡果不足惜宽涌,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一平夜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧卸亮,春花似錦忽妒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至溶诞,卻和暖如春鸯檬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背螺垢。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工喧务, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人枉圃。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓功茴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親孽亲。 傳聞我的和親對象是個殘疾皇子坎穿,可洞房花燭夜當晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容