機(jī)器學(xué)習(xí)-聚類(lèi)分析匯總

聚類(lèi)分析常見(jiàn)方法:

原型聚類(lèi)(主要K-Means聚類(lèi))豺憔;層次聚類(lèi)撤摸;密度聚類(lèi)

1.原型聚類(lèi)(K-Means聚類(lèi)莺掠、學(xué)習(xí)向量量化LVQ、高斯混合聚類(lèi)GMM)

2.層次聚類(lèi)(AGNES)

3.密度聚類(lèi)(DBSCAN)


K-Means聚類(lèi)

1. 先隨機(jī)選取k個(gè)聚類(lèi)中心(又稱(chēng)均值向量)鳖眼;

2. 計(jì)算各樣本到各聚類(lèi)中心的距離黑毅,根據(jù)k個(gè)距離,將各個(gè)樣本分簇钦讳;

3. 從k個(gè)簇中求出新的聚類(lèi)中心矿瘦;

4. 按2、3更新聚類(lèi)中心愿卒,不斷重復(fù)以上過(guò)程匪凡,直至迭代差異小于設(shè)定值。

但K-Means聚類(lèi)掘猿,首次隨機(jī)選取的聚類(lèi)中心會(huì)影響最終的聚類(lèi)分簇結(jié)果病游。


學(xué)習(xí)向量量化 LVQ

LVQ的樣本帶有類(lèi)別標(biāo)記,利用這些標(biāo)記輔助聚類(lèi)稠通,屬于監(jiān)督學(xué)習(xí)范疇

說(shuō)在前面:每個(gè)原型向量代表一個(gè)聚類(lèi)簇衬衬。但是,原型向量的個(gè)數(shù) 與 類(lèi)別標(biāo)記的種類(lèi)不一定要相等改橘,多個(gè)原型向量可以時(shí)同一個(gè)類(lèi)型標(biāo)記滋尉。)

1. 初始化一組原型向量;

2. 從樣本中隨機(jī)選取樣本飞主,計(jì)算樣本到原型向量的距離狮惜,找出距離最近的原型向量p*

3.?

4. 重復(fù)2、3直至滿(mǎn)足迭代終止條件碌识,輸出最終原型向量碾篡。

其中:第3步表示,當(dāng)該樣本對(duì)應(yīng)的p*與其類(lèi)型標(biāo)記相同筏餐,則該原型向量向樣本方向靠攏开泽;當(dāng)其p*與其標(biāo)記不同,則向樣本方向遠(yuǎn)離魁瞪。


高斯混合聚類(lèi) GMM

假定所有樣本是由k個(gè)混合多元高斯分布組組成的混合分布生成的穆律。

1. 初始化k個(gè)多元高斯分布及其權(quán)重;

2. 根據(jù)概率統(tǒng)計(jì)中的貝葉斯定理导俘,得到每個(gè)樣本在k個(gè)分布下的后驗(yàn)分布(與條件概率類(lèi)似)峦耘;

3. 根據(jù)均值、協(xié)方差旅薄、后驗(yàn)概率辅髓,更新均值向量、協(xié)方差矩陣、權(quán)重利朵;

4. 重復(fù)2、3猎莲,直至迭代滿(mǎn)足終止條件绍弟;

5. 對(duì)每個(gè)樣本點(diǎn),計(jì)算相對(duì)k個(gè)簇的后驗(yàn)概率著洼,歸于最大后驗(yàn)概率的簇樟遣。


層次聚類(lèi)?Hierarchical methods

1. 計(jì)算各樣本與樣本之間的距離,按合并規(guī)則合并為一類(lèi)身笤;

2. 計(jì)算各類(lèi)與類(lèi)之間的距離豹悬,按合并規(guī)則合并成一個(gè)大類(lèi);

3. 不斷合并液荸,直至最終合成一個(gè)類(lèi)

其中瞻佛,類(lèi)與類(lèi)之間合并的規(guī)則有:最短距離法、最長(zhǎng)距離法娇钱、中間距離法伤柄、類(lèi)平均法等。

實(shí)現(xiàn)算法有:

BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)文搂、ROCK适刀、Chameleon、KNN(k-nearest-neighbor)

優(yōu)點(diǎn):

1. 距離和規(guī)則的相似度容易定義煤蹭,限制少笔喉;

2. 不需預(yù)先指定聚類(lèi)數(shù);

3. 體現(xiàn)類(lèi)之間的層次關(guān)系硝皂;

4. 可聚類(lèi)成其它形狀

缺點(diǎn):

計(jì)算復(fù)雜度太高常挚;受奇異值影響大;可能聚類(lèi)成鏈


密度聚類(lèi) DBSCAN

需要 ε-鄰域 和形成高密度區(qū)域所需的最少點(diǎn)數(shù)稽物。

1. 隨機(jī)選取未被訪(fǎng)問(wèn)過(guò)的點(diǎn)待侵,檢驗(yàn)其ε-鄰域內(nèi)是否有足夠點(diǎn)數(shù)。

2. 若有姨裸,則以該鄰域內(nèi)點(diǎn)建立一類(lèi)秧倾;若沒(méi)有,則這個(gè)點(diǎn)被標(biāo)記為噪音傀缩。

3. 循環(huán)1那先,若原標(biāo)記被噪音的點(diǎn)之后含于某符合要求的ε-鄰域,則也可聚為其類(lèi)赡艰。

算法有:OPTICS算法(Ordering points to identify the clustering structure)

優(yōu)點(diǎn):對(duì)噪音不敏感售淡,可以聚成任意形狀

缺點(diǎn):對(duì)參數(shù)的依賴(lài)性強(qiáng)


譜聚類(lèi)

是一種基于圖論的聚類(lèi)方法

聚類(lèi)原則為:將帶權(quán)無(wú)向圖(相似度矩陣)劃分為兩個(gè)或兩個(gè)以上的最優(yōu)子圖,使子圖內(nèi)部盡量相似,而子圖間距離盡量距離較遠(yuǎn)揖闸。


聚類(lèi)性能度量指標(biāo):

外部指標(biāo):Jaccard系數(shù)(JC)揍堕、FM指數(shù)(FMI)、Rand指數(shù)(RI)

內(nèi)部指標(biāo):DB指數(shù)(DBI)汤纸、Dunn指數(shù)(DI)

其中只有DB指數(shù)為越小越好


參考引用:

K-Means聚類(lèi):https://blog.csdn.net/haluoluo211/article/details/78524599

LVQ:https://blog.csdn.net/weixin_35732969/article/details/81141005

GMM:https://blog.csdn.net/FAICULTY/article/details/79343640

層次聚類(lèi):https://blog.csdn.net/sjpljr/article/details/70169222

密度聚類(lèi):https://blog.csdn.net/weixin_42134141/article/details/80413598

譜聚類(lèi):https://blog.csdn.net/xsqlx/article/details/39338989

聚類(lèi)性能度量指標(biāo):https://blog.csdn.net/weixin_35732969/article/details/81137111

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末衩茸,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子贮泞,更是在濱河造成了極大的恐慌楞慈,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件啃擦,死亡現(xiàn)場(chǎng)離奇詭異囊蓝,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)令蛉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)聚霜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人珠叔,你說(shuō)我怎么就攤上這事俯萎。” “怎么了运杭?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵夫啊,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我辆憔,道長(zhǎng)撇眯,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任虱咧,我火速辦了婚禮熊榛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘腕巡。我一直安慰自己玄坦,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布绘沉。 她就那樣靜靜地躺著煎楣,像睡著了一般。 火紅的嫁衣襯著肌膚如雪车伞。 梳的紋絲不亂的頭發(fā)上择懂,一...
    開(kāi)封第一講書(shū)人閱讀 51,190評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音另玖,去河邊找鬼困曙。 笑死表伦,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的慷丽。 我是一名探鬼主播蹦哼,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼要糊!你這毒婦竟也來(lái)了纲熏?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤杨耙,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后飘痛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體珊膜,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年宣脉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了车柠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡塑猖,死狀恐怖竹祷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情羊苟,我是刑警寧澤塑陵,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站蜡励,受9級(jí)特大地震影響令花,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜凉倚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一兼都、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧稽寒,春花似錦扮碧、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至宏侍,卻和暖如春柬祠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背负芋。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工漫蛔, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嗜愈,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓莽龟,卻偏偏與公主長(zhǎng)得像蠕嫁,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子毯盈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354