層次聚類方法--BIRCH

姓名:梁祥????????學(xué)號:17021210935

【嵌牛導(dǎo)讀】:層次聚類方法作為一種能夠在一定程度上將聚類過程顯化的聚類方法,在很多時候都能大顯身手全闷,因此在這里介紹一下層次聚類方法的主要思想,并以BIRCH算法為例進行了詳細分析斑鸦。

【嵌牛鼻子】:層次聚類担租,BIRCH

【嵌牛提問】:層次聚類過程中,從頭到腳與自下而上有區(qū)別嗎喷众?在聚類的過程中數(shù)據(jù)是怎么慢慢分散或者逐漸聚攏的呢?

【嵌牛正文】:

一紧憾、層次聚類

層次的聚類方法將數(shù)據(jù)對象組成一棵聚類的樹到千。根據(jù)層次分解是底向上, 還是自頂向下形成, 層次的聚類方法可以進一步分為凝聚的(agglomerative)和分裂的(divisive)層次聚類。

凝聚的和分裂的層次聚類圖示:

層次聚類的主要缺點:

不具有很好的可伸縮性:時間復(fù)雜性至少是平方級赴穗;合并和分裂的決定需要檢查和估算大量的對象或簇憔四;不能撤銷已做的處理,聚類之間不能交換對象般眉。如果某一步?jīng)]有很好地選擇合并或分裂的決定了赵,可能會導(dǎo)致低質(zhì)量的聚類結(jié)果。該算法的特點是能利用有限的內(nèi)存資源完成對大數(shù)據(jù)集的高質(zhì)量的聚類甸赃,同時通過單遍掃描數(shù)據(jù)集能最小化I/O代價柿汛。

二、 改進層次方法的聚類質(zhì)量的方法:

將層次聚類和其他的聚類技術(shù)進行集成, 形成多階段聚類埠对。其中络断,BIRCH方法使用CF-tree對對象進行層次劃分裁替,然后采用其他的聚類算法對聚類結(jié)果進行求精。

2.1 兩個重要的概念:

聚類特征(Clustering Feature貌笨,CF)

聚類特征樹(Cluttering Feature Tree胯究,CF樹)

2.2 聚類特征

聚類特征(CF)是一個三元組,給出對象子類的信息的匯總描述躁绸。

設(shè)某個子類中有N個d維的點或?qū)ο笤Q瑒t該子類的CF定義如下:

其中,N表示數(shù)據(jù)點數(shù)目净刮,LS表示全體數(shù)據(jù)的和剥哑,SS表示全體數(shù)據(jù)的平方和。從統(tǒng)計學(xué)的觀點來看淹父,聚類特征是對給定子類統(tǒng)計匯總: 子聚類的0階, 1階和 2階矩株婴。記錄了計算聚類和有效利用存儲的關(guān)鍵度量, 并有效地利用了存儲,因為它匯總了關(guān)于子類的信息,而不是存儲所有的對象暑认。

2.3 聚類特征樹

CF 樹是高度平衡的樹困介,它存儲了層次聚類的聚類特征。樹中的非葉節(jié)點有后代或“孩子”蘸际,非葉節(jié)點存儲了其孩子的CF的總和座哩,即匯總了關(guān)于其孩子的聚類信息。CF樹有兩個參數(shù) ----影響CF樹的大辛竿:分支因子B根穷,定義非樹葉節(jié)點的孩子的最大個數(shù);閾值T:导坟,給出了存儲在樹的葉子節(jié)點中的子類的最大直徑屿良。

CF tree的結(jié)構(gòu)類似于一棵B-樹,它有3個參數(shù):內(nèi)部節(jié)點平衡因子B惫周,葉節(jié)點平衡因子L尘惧,簇直徑閾值T。樹中每個Nlonleaf節(jié)點最多包含B個孩子節(jié)點递递,Leaf最多只能有L個MinCluster(初始劃分子簇)喷橙,而一個MinCluster的直徑不能超過T。

CF樹構(gòu)造過程:

(1)從根節(jié)點開始漾狼,自上而下選擇最近的孩子節(jié)點重慢;

(2)到達葉子節(jié)點后,檢查最近的元組CFi能否吸收此數(shù)據(jù)點逊躁;

????是,更新CF值隅熙;

????否稽煤,是否可以添加一個新的元組核芽;

????????是,添加一個新的元組酵熙;

????????否則轧简,分裂最遠的一對元組,作為種子匾二,按最近距離重新分配其它元組哮独;

(3)更新每個非葉節(jié)點的CF信息,如果分裂節(jié)點察藐,在父節(jié)點中插入新的元組皮璧,檢查分裂,直到root分飞。

算法起初悴务,我們掃描數(shù)據(jù)庫,拿到第一個data point instance--(1,2,3),我們創(chuàng)建一個空的Leaf和MinCluster譬猫,把點(1,2,3)的id值放入Mincluster讯檐,更新MinCluster的CF值為(1,(1,2,3),(1,4,9))染服,把MinCluster作為Leaf的一個孩子别洪,更新Leaf的CF值為(1,(1,2,3),(1,4,9))柳刮。實際上只要往樹中放入一個CF(這里我們用CF作為Nonleaf蕉拢、Leaf、MinCluster的統(tǒng)稱)诚亚,就要更新從Root到該葉子節(jié)點的路徑上所有節(jié)點的CF值晕换。

當(dāng)又有一個數(shù)據(jù)點要插入樹中時,把這個點封裝為一個MinCluster(這樣它就有了一個CF值)站宗,把新到的數(shù)據(jù)點記為CF_new闸准,我們拿到樹的根節(jié)點的各個孩子節(jié)點的CF值,根據(jù)D2來找到CF_new與哪個節(jié)點最近梢灭,就把CF_new加入那個子樹上面去夷家。這是一個遞歸的過程。遞歸的終止點是要把CF_new加入到一個MinCluster中敏释,如果加入之后MinCluster的直徑?jīng)]有超過T库快,則直接加入,否則譔CF_new要單獨作為一個簇钥顽,成為MinCluster的兄弟結(jié)點义屏。插入之后注意更新該節(jié)點及其所有祖先節(jié)點的CF值。

插入新節(jié)點后,可能有些節(jié)點的孩子數(shù)大于了B(或L)闽铐,此時該節(jié)點要分裂蝶怔。對于Leaf,它現(xiàn)在有L+1個MinCluster兄墅,我們要新創(chuàng)建一個Leaf踢星,使它作為原Leaf的兄弟結(jié)點,同時注意每新創(chuàng)建一個Leaf都要把它插入到雙向鏈表中隙咸。L+1個MinCluster要分到這兩個Leaf中沐悦,怎么分呢?找出這L+1個MinCluster中距離最遠的兩個Cluster(根據(jù)D2)五督,剩下的Cluster看離哪個近就跟誰站在一起藏否。分好后更新兩個Leaf的CF值,其祖先節(jié)點的CF值沒有變化概荷,不需要更新秕岛。這可能導(dǎo)致祖先節(jié)點的遞歸分裂,因為Leaf分裂后恰好其父節(jié)點的孩子數(shù)超過了B误证。Nonleaf的分裂方法與Leaf的相似继薛,只不過產(chǎn)生新的Nonleaf后不需要把它放入一個雙向鏈表中。如果是樹的根節(jié)點要分裂愈捅,則樹的高度加1遏考。

重建過程從舊樹的葉子節(jié)點建造一個新樹。這樣蓝谨,重建樹的過程不需要重讀所有的對象 ----建樹只需讀一次數(shù)據(jù)灌具。在階段三和四采用任何聚類算法,例如典型的劃分方法譬巫。

2.3 BIRCH的性能

支持增量聚類:(1)因為它對每一個數(shù)據(jù)點的聚類的決策都是基于當(dāng)前已經(jīng)處理過的數(shù)據(jù)點咖楣,而不是基于全局的數(shù)據(jù)點。(2)線性可伸縮性: 計算復(fù)雜性O(shè)(n), 單遍掃描, 附加的掃描可以改善聚類質(zhì)量芦昔。(3)具有較好的聚類質(zhì)量诱贿。

2.4 缺點

(1)只能處理數(shù)值數(shù)據(jù);(2)對數(shù)據(jù)的輸入次序敏感咕缎;(3)CF樹結(jié)點不總是對應(yīng)于[用戶考慮的]自然簇(參數(shù)B和T)珠十;(4)簇非球形時效果不好(使用半徑/直徑控制簇邊界).

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市凭豪,隨后出現(xiàn)的幾起案子焙蹭,更是在濱河造成了極大的恐慌,老刑警劉巖嫂伞,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件孔厉,死亡現(xiàn)場離奇詭異拯钻,居然都是意外死亡,警方通過查閱死者的電腦和手機烟馅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門说庭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來然磷,“玉大人郑趁,你說我怎么就攤上這事∽怂眩” “怎么了寡润?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長舅柜。 經(jīng)常有香客問我梭纹,道長,這世上最難降的妖魔是什么致份? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任变抽,我火速辦了婚禮,結(jié)果婚禮上氮块,老公的妹妹穿的比我還像新娘绍载。我一直安慰自己,他們只是感情好滔蝉,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布击儡。 她就那樣靜靜地躺著,像睡著了一般蝠引。 火紅的嫁衣襯著肌膚如雪阳谍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天螃概,我揣著相機與錄音矫夯,去河邊找鬼。 笑死吊洼,一個胖子當(dāng)著我的面吹牛训貌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播融蹂,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼旺订,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了超燃?” 一聲冷哼從身側(cè)響起区拳,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎意乓,沒想到半個月后樱调,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體约素,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年笆凌,在試婚紗的時候發(fā)現(xiàn)自己被綠了圣猎。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡乞而,死狀恐怖送悔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情爪模,我是刑警寧澤欠啤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站屋灌,受9級特大地震影響洁段,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜共郭,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一祠丝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧除嘹,春花似錦写半、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至龙考,卻和暖如春蟆肆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背晦款。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工炎功, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人缓溅。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓蛇损,卻偏偏與公主長得像,于是被迫代替她去往敵國和親坛怪。 傳聞我的和親對象是個殘疾皇子淤齐,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Birch層次聚類算法 標簽(空格分隔): CF樹建立 主要借鑒的網(wǎng)文地址,并進行大量引用:【非常淺顯易懂】htt...
    AresAnt閱讀 1,486評論 0 1
  • 前言 其實讀完斯坦福的這本《互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘》袜匿,讓我感覺到更啄,什么是人工智能?人工智能就是更高層次的數(shù)據(jù)挖掘居灯。機...
    我偏笑_NSNirvana閱讀 12,578評論 1 23
  • 1 聚類分析基本概念 聚類分析將數(shù)據(jù)劃分成有意義或有用的簇祭务。如果目標是劃分成有意義的組内狗,則簇應(yīng)當(dāng)捕獲數(shù)據(jù)的自然結(jié)構(gòu)...
    JasonDing閱讀 2,607評論 0 13
  • 參考自初識聚類算法:K均值、凝聚層次聚類和DBSCAN义锥,模糊聚類FCM算法柳沙。 聚類的目的 將數(shù)據(jù)劃分為若干個簇,簇...
    胡哈哈哈閱讀 4,175評論 0 16
  • 聚簇索引并不是一種單獨的索引類型拌倍,而是一種數(shù)據(jù)存儲方式赂鲤。比如,InnoDB的聚簇索引使用B+Tree的數(shù)據(jù)結(jié)構(gòu)存儲...
    大頭8086閱讀 17,480評論 7 40