聚類(lèi)分析常見(jiàn)方法:
原型聚類(lèi)(主要K-Means聚類(lèi))豺憔;層次聚類(lèi)撤摸;密度聚類(lèi)
1.原型聚類(lèi)(K-Means聚類(lèi)莺掠、學(xué)習(xí)向量量化LVQ、高斯混合聚類(lèi)GMM)
2.層次聚類(lèi)(AGNES)
3.密度聚類(lèi)(DBSCAN)
K-Means聚類(lèi)
1. 先隨機(jī)選取k個(gè)聚類(lèi)中心(又稱(chēng)均值向量)鳖眼;
2. 計(jì)算各樣本到各聚類(lèi)中心的距離黑毅,根據(jù)k個(gè)距離,將各個(gè)樣本分簇钦讳;
3. 從k個(gè)簇中求出新的聚類(lèi)中心矿瘦;
4. 按2、3更新聚類(lèi)中心愿卒,不斷重復(fù)以上過(guò)程匪凡,直至迭代差異小于設(shè)定值。
但K-Means聚類(lèi)掘猿,首次隨機(jī)選取的聚類(lèi)中心會(huì)影響最終的聚類(lèi)分簇結(jié)果病游。
學(xué)習(xí)向量量化 LVQ
LVQ的樣本帶有類(lèi)別標(biāo)記,利用這些標(biāo)記輔助聚類(lèi)稠通,屬于監(jiān)督學(xué)習(xí)范疇
(說(shuō)在前面:每個(gè)原型向量代表一個(gè)聚類(lèi)簇衬衬。但是,原型向量的個(gè)數(shù) 與 類(lèi)別標(biāo)記的種類(lèi)不一定要相等改橘,多個(gè)原型向量可以時(shí)同一個(gè)類(lèi)型標(biāo)記滋尉。)
1. 初始化一組原型向量;
2. 從樣本中隨機(jī)選取樣本飞主,計(jì)算樣本到原型向量的距離狮惜,找出距離最近的原型向量p*
3.?
4. 重復(fù)2、3直至滿(mǎn)足迭代終止條件碌识,輸出最終原型向量碾篡。
其中:第3步表示,當(dāng)該樣本對(duì)應(yīng)的p*與其類(lèi)型標(biāo)記相同筏餐,則該原型向量向樣本方向靠攏开泽;當(dāng)其p*與其標(biāo)記不同,則向樣本方向遠(yuǎn)離魁瞪。
高斯混合聚類(lèi) GMM
假定所有樣本是由k個(gè)混合多元高斯分布組組成的混合分布生成的穆律。
1. 初始化k個(gè)多元高斯分布及其權(quán)重;
2. 根據(jù)概率統(tǒng)計(jì)中的貝葉斯定理导俘,得到每個(gè)樣本在k個(gè)分布下的后驗(yàn)分布(與條件概率類(lèi)似)峦耘;
3. 根據(jù)均值、協(xié)方差旅薄、后驗(yàn)概率辅髓,更新均值向量、協(xié)方差矩陣、權(quán)重利朵;
4. 重復(fù)2、3猎莲,直至迭代滿(mǎn)足終止條件绍弟;
5. 對(duì)每個(gè)樣本點(diǎn),計(jì)算相對(duì)k個(gè)簇的后驗(yàn)概率著洼,歸于最大后驗(yàn)概率的簇樟遣。
層次聚類(lèi)?Hierarchical methods
1. 計(jì)算各樣本與樣本之間的距離,按合并規(guī)則合并為一類(lèi)身笤;
2. 計(jì)算各類(lèi)與類(lèi)之間的距離豹悬,按合并規(guī)則合并成一個(gè)大類(lèi);
3. 不斷合并液荸,直至最終合成一個(gè)類(lèi)
其中瞻佛,類(lèi)與類(lèi)之間合并的規(guī)則有:最短距離法、最長(zhǎng)距離法娇钱、中間距離法伤柄、類(lèi)平均法等。
實(shí)現(xiàn)算法有:
BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)文搂、ROCK适刀、Chameleon、KNN(k-nearest-neighbor)
優(yōu)點(diǎn):
1. 距離和規(guī)則的相似度容易定義煤蹭,限制少笔喉;
2. 不需預(yù)先指定聚類(lèi)數(shù);
3. 體現(xiàn)類(lèi)之間的層次關(guān)系硝皂;
4. 可聚類(lèi)成其它形狀
缺點(diǎn):
計(jì)算復(fù)雜度太高常挚;受奇異值影響大;可能聚類(lèi)成鏈
密度聚類(lèi) DBSCAN
需要 ε-鄰域 和形成高密度區(qū)域所需的最少點(diǎn)數(shù)稽物。
1. 隨機(jī)選取未被訪(fǎng)問(wèn)過(guò)的點(diǎn)待侵,檢驗(yàn)其ε-鄰域內(nèi)是否有足夠點(diǎn)數(shù)。
2. 若有姨裸,則以該鄰域內(nèi)點(diǎn)建立一類(lèi)秧倾;若沒(méi)有,則這個(gè)點(diǎn)被標(biāo)記為噪音傀缩。
3. 循環(huán)1那先,若原標(biāo)記被噪音的點(diǎn)之后含于某符合要求的ε-鄰域,則也可聚為其類(lèi)赡艰。
算法有:OPTICS算法(Ordering points to identify the clustering structure)
優(yōu)點(diǎn):對(duì)噪音不敏感售淡,可以聚成任意形狀
缺點(diǎn):對(duì)參數(shù)的依賴(lài)性強(qiáng)
譜聚類(lèi)
是一種基于圖論的聚類(lèi)方法
聚類(lèi)原則為:將帶權(quán)無(wú)向圖(相似度矩陣)劃分為兩個(gè)或兩個(gè)以上的最優(yōu)子圖,使子圖內(nèi)部盡量相似,而子圖間距離盡量距離較遠(yuǎn)揖闸。
聚類(lèi)性能度量指標(biāo):
外部指標(biāo):Jaccard系數(shù)(JC)揍堕、FM指數(shù)(FMI)、Rand指數(shù)(RI)
內(nèi)部指標(biāo):DB指數(shù)(DBI)汤纸、Dunn指數(shù)(DI)
其中只有DB指數(shù)為越小越好
參考引用:
K-Means聚類(lèi):https://blog.csdn.net/haluoluo211/article/details/78524599
LVQ:https://blog.csdn.net/weixin_35732969/article/details/81141005
GMM:https://blog.csdn.net/FAICULTY/article/details/79343640
層次聚類(lèi):https://blog.csdn.net/sjpljr/article/details/70169222
密度聚類(lèi):https://blog.csdn.net/weixin_42134141/article/details/80413598
譜聚類(lèi):https://blog.csdn.net/xsqlx/article/details/39338989
聚類(lèi)性能度量指標(biāo):https://blog.csdn.net/weixin_35732969/article/details/81137111