層次聚類

一阶界、了解層次聚類

????層次聚類方法對給定的數(shù)據(jù)集進行層次的分解摘盆，直到滿足某種條件為止挺尿，傳統(tǒng)的層次聚類算法主要分為兩大類算法：

1奏黑、凝聚的層次聚類：AGNES算法(AGglomerative NESting)==>采用自底向上的策略。最初將每個對象作為一個簇编矾，然后這些簇根據(jù)某些準則被一步一步合并熟史，兩個簇間的距離可以由這兩個不同簇中距離最近的數(shù)據(jù)點的相似度來確定；聚類的合并過程反復進行直到所有的對象滿足簇數(shù)目窄俏。

2蹂匹、分裂的層次聚類：DIANA算法(DIvisive ANALysis)==>采用自頂向下的策略。首先將所有對象置于一個簇中凹蜈，然后按照某種既定的規(guī)則逐漸細分為越來越小的簇(比如最大的歐式距離)限寞，直到達到某個終結(jié)條件(簇數(shù)目或者簇距離達到閾值)忍啸；

二、AGNES和DIANA算法優(yōu)缺點

1履植、簡單计雌，理解容易。

2玫霎、合并點/分裂點選擇不太容易凿滤。

3、合并/分類的操作不能進行撤銷庶近。

4翁脆、大數(shù)據(jù)集不太適合。

5拦盹、執(zhí)行效率較低O(t*n2)鹃祖，t為迭代次數(shù)，n為樣本點數(shù)普舆。

三恬口、AGNES算法中簇間距離

1、最小距離(SL聚類)

????兩個聚簇中最近的兩個樣本之間的距離(single/word-linkage聚類法)沼侣。

????最終得到模型容易形成鏈式結(jié)構(gòu)祖能。

2、最大距離(CL聚類)

????兩個聚簇中最遠的兩個樣本的距離(complete-linkage聚類法)蛾洛。

????如果存在異常值养铸，那么構(gòu)建可能不太穩(wěn)定。

3轧膘、平均距離(AL聚類)

????兩個聚簇中樣本間兩兩距離的平均值(average-linkage聚類法)钞螟。

????兩個聚簇中樣本間兩兩距離的中值(median-linkage聚類法)。

四谎碍、層次聚類優(yōu)化算法?

1鳞滨、CF-Tree：

? ??CF-Tree(Cluster Feature Tree)：每個節(jié)點是由三個聚類特征組成。這三個聚類特征構(gòu)成一個三元組蟆淀，用(N, LS, SS)來表示拯啦。

其中：

N表示這個CF中包含的樣本數(shù)量；

LS表示這個CF中包含的樣本點的向量和熔任；

SS表示這個CF中包含的樣本點各個特征的平方和褒链。

CF-Tree中父節(jié)點的某個CF值等于其指向的所有子節(jié)點CF值的總和。

CF-Tree的幾個關(guān)鍵超參數(shù)：

B：每個內(nèi)部節(jié)點最大的CF個數(shù)疑苔。

L：每個葉節(jié)點最大的CF個數(shù)甫匹。

T：新樣本若被分到某一CF中，其到該CF中心的距離最大值。

CF-Tree構(gòu)建步驟：

1兵迅、初始狀態(tài)哀墓，CF樹是空的，無任何樣本喷兼。讀入第一個樣本x(a,b)，生成一個CF三元組后雷，此處N=1季惯，LS=(a,b)，SS=a2+b2臀突，我們令其為CF1勉抓。

2、讀入第二個樣本候学，若到CF1的距離小于T藕筋，那么這個樣本也歸入CF1，更新三元組數(shù)據(jù)梳码；如果大于T隐圾，則新劃分出一個CF，這個樣本作為CF2當中的首個樣本掰茶，生成一個CF三元組暇藏。

注意：此時都是在節(jié)點內(nèi)進行CF的建立，而非產(chǎn)生新的節(jié)點濒蒋。

3盐碱、分裂：如果新數(shù)據(jù)進入該節(jié)點后，距離所有CF中心的距離都大于T沪伙，且Cf個數(shù)在生成新CF后大于B瓮顽，則該節(jié)點需要進行劃分。

4围橡、找到該分支內(nèi)各個CF之間的距離最大的兩個CF期奔，分別作為兩個新葉子結(jié)點的CF，再計算剩余CF到這兩個CF之間的距離锦援，距離近的分到一個節(jié)點當中剃袍。

5、如果節(jié)點分裂過后葉子節(jié)點個數(shù)超過L黔漂，則該節(jié)點要進行分裂诫尽，分裂方式和上一步相同。

6炬守、生成CF和分裂過程直至所有樣本均進入CF樹后停止牧嫉。

BIRCH算法

? ??BIRCH算法(平衡迭代削減聚類法)：聚類特征使用3元組進行一個簇的相關(guān)信息，通過構(gòu)建滿足分枝因子和簇直徑限制的聚類特征樹(CF-Tree)來求聚類，聚類特征樹其實是一個具有兩個參數(shù)分枝因子(B酣藻、L)和類直徑(T)的高度平衡樹曹洽；分枝因子規(guī)定了樹的每個節(jié)點的子女的最多個數(shù)，而類直徑體現(xiàn)了對這一類點的距離范圍辽剧；非葉子節(jié)點為它子女的最大特征值送淆；聚類特征樹的構(gòu)建可以是動態(tài)過程的，可以隨時根據(jù)數(shù)據(jù)對模型進行更新操作怕轿。對應生成的結(jié)果就是一個簇(聚類特征 - CF)偷崩；BIRCH算法的過程就是建立CF-Tree的過程。

優(yōu)缺點：

1撞羽、適合大規(guī)模數(shù)據(jù)集阐斜，線性效率；

? 層次聚類算法的復雜度為OT(n2)诀紊；

? 優(yōu)化后的BIRCH算法構(gòu)建聚類特征樹(CF-Tree)的時間復雜度為O(n)谒出；

2、只適合分布呈凸形或者球形的數(shù)據(jù)集邻奠、需要給定聚類個數(shù)和簇之間的相關(guān)參數(shù)笤喳；

CURE算法

CURE算法(使用代表點的聚類法)：是一種凝聚算法(AGNES)。該算法先把每個數(shù)據(jù)點看成一類碌宴，然后合并距離最近的類直至類個數(shù)為所要求的個數(shù)為止莉测。但是和AGNES算法的區(qū)別是：取消了使用所有點或用中心點+距離來表示一個類，而是從每個類中抽取固定數(shù)量唧喉、分布較好的點作為此類的代表點捣卤，并將這些代表點(一般10個)乘以一個適當?shù)?b>收縮因子(一般設置0.2~0.7之間)，使它們更加靠近類中心點八孝。代表點的收縮特性可以調(diào)整模型可以匹配那些非球形的場景董朝，而且收縮因子的使用可以減少噪音對聚類的影響。

代表點不是原來的點干跛，而是那些需要重新計算的點子姜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市楼入，隨后出現(xiàn)的幾起案子哥捕，更是在濱河造成了極大的恐慌，老刑警劉巖嘉熊，帶你破解...
沈念sama閱讀 216,692評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件遥赚，死亡現(xiàn)場離奇詭異，居然都是意外死亡阐肤，警方通過查閱死者的電腦和手機凫佛，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門讲坎，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人愧薛，你說我怎么就攤上這事晨炕。” “怎么了毫炉？”我有些...
開封第一講書人閱讀 162,995評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵瓮栗，是天一觀的道長。經(jīng)常有香客問我瞄勾，道長遵馆，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,223評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任丰榴，我火速辦了婚禮，結(jié)果婚禮上秆撮，老公的妹妹穿的比我還像新娘四濒。我一直安慰自己，他們只是感情好职辨，可當我...
茶點故事閱讀 67,245評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布盗蟆。她就那樣靜靜地躺著，像睡著了一般舒裤。火紅的嫁衣襯著肌膚如雪喳资。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,208評論 1贊 299
城市分裂傳說
那天腾供，我揣著相機與錄音仆邓，去河邊找鬼。笑死伴鳖，一個胖子當著我的面吹牛节值，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播榜聂，決...
沈念sama閱讀 40,091評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼搞疗，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了须肆？” 一聲冷哼從身側(cè)響起匿乃，我...
開封第一講書人閱讀 38,929評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎豌汇，沒想到半個月后幢炸，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,346評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡拒贱，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,570評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年阳懂，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,739評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡岩调，死狀恐怖巷燥，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情号枕，我是刑警寧澤缰揪，帶...
沈念sama閱讀 35,437評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站葱淳，受9級特大地震影響钝腺，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赞厕，卻給世界環(huán)境...
茶點故事閱讀 41,037評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一艳狐、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧皿桑，春花似錦毫目、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評論 0贊 22
一樁弒父案镀虐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至沟绪，卻和暖如春刮便，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背绽慈。一陣腳步聲響...
開封第一講書人閱讀 32,833評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工恨旱，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人坝疼。一個月前我還...
沈念sama閱讀 47,760評論 2贊 369
代替公主和親
正文我出身青樓窖杀，卻偏偏與公主長得像，于是被迫代替她去往敵國和親裙士。傳聞我的和親對象是個殘疾皇子入客，可洞房花燭夜當晚...
茶點故事閱讀 44,647評論 2贊 354