聚類算法對比

K-Means

算法流程(密度聚類)

1)隨機(jī)初始化k個(gè)組,求其中心點(diǎn)作為初始簇的中心點(diǎn)晾腔。

2)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離栓票,數(shù)據(jù)點(diǎn)距離哪個(gè)中心點(diǎn)最近就劃分到哪一類中舞丛。

3)計(jì)算每一類中中心點(diǎn)作為新的中心點(diǎn)构捡。

4)重復(fù),直到每一類中心在每次迭代后變化不大為止踩麦。(也可以多次隨機(jī)初始化中心點(diǎn)廊佩,然后選擇運(yùn)行結(jié)果最好的一個(gè)。)

優(yōu)點(diǎn):收斂速度快靖榕;計(jì)算簡便标锄;可解釋性強(qiáng)。

缺點(diǎn):如何設(shè)k值茁计;對于非凸數(shù)據(jù)集難以準(zhǔn)確收斂料皇;類別不平衡結(jié)果不佳;局部最優(yōu)星压;噪聲敏感践剂。

優(yōu)化:K-Medians,用中位數(shù)代替均值娜膘,減少異常值的影響逊脯;但是數(shù)據(jù)排序求中位數(shù)的過程使速度變慢。


DBSCAN

算法流程

1)確定密度閾值和鄰域半徑竣贪。從一個(gè)沒有被訪問過的任意數(shù)據(jù)點(diǎn)開始军洼,以這個(gè)點(diǎn)為中心巩螃,r為半徑的圓內(nèi)包含的點(diǎn)的數(shù)量是否大于或等于minPoints,如果大于或等于minPoints則改點(diǎn)被標(biāo)記為中心點(diǎn)匕争,反之標(biāo)記為噪聲點(diǎn)避乏。?

2)重復(fù)1的步驟,如果一個(gè)噪聲點(diǎn)存在于某個(gè)中心點(diǎn)為半徑的圓內(nèi)甘桑,則這個(gè)點(diǎn)被標(biāo)記為邊緣點(diǎn)拍皮,反之仍為噪聲點(diǎn)。

3)重復(fù)步驟1跑杭,直至所有的點(diǎn)都被訪問過铆帽。

優(yōu)點(diǎn):不需要知道簇的數(shù)量;可檢測任意形狀簇德谅;噪聲不敏感爹橱。

缺點(diǎn):需要確定距離r和minPoints;收斂時(shí)間長女阀;不平衡數(shù)據(jù)結(jié)果不好。


Mean-Shift

算法流程(基于滑動(dòng)窗口)

1)在未被標(biāo)記的數(shù)據(jù)點(diǎn)中隨機(jī)選擇一個(gè)點(diǎn)作為起始中心點(diǎn)center屑迂;

2)找出以center為中心半徑為R的區(qū)域中出現(xiàn)的所有數(shù)據(jù)點(diǎn)浸策,認(rèn)為這些點(diǎn)同屬于一個(gè)簇。同時(shí)在該聚類中記錄數(shù)據(jù)點(diǎn)出現(xiàn)的次數(shù)加1惹盼。

3)以center為中心點(diǎn)庸汗,落在窗口圓中的所有點(diǎn)和圓心都會(huì)對應(yīng)的一個(gè)向量,把所有這些向量相加手报,最終我們只得到一個(gè)向量蚯舱,就是meanshift向量。

4)移動(dòng)窗口(以meanshift向量的終點(diǎn)為新的圓心)掩蛤,計(jì)算窗口內(nèi)的中心點(diǎn)以及窗口內(nèi)的密度枉昏,直到?jīng)]有方向在窗口內(nèi)可以容納更多的點(diǎn),即一直移動(dòng)到圓內(nèi)密度不再增加為止揍鸟。

5)重復(fù)4)直至shift的很小兄裂,此時(shí)的中心點(diǎn)就是該簇的中心,這個(gè)迭代過程中的所有窗口內(nèi)的點(diǎn)都屬于該簇阳藻。

6)如果收斂時(shí)當(dāng)前簇C的center與其它已經(jīng)存在的簇C2中心的距離小于閾值晰奖,那么把簇合并,數(shù)據(jù)點(diǎn)出現(xiàn)次數(shù)也對應(yīng)合并腥泥。

7)重復(fù)匾南,直到所有的點(diǎn)都被標(biāo)記為已訪問。

優(yōu)點(diǎn):不需要提前知道簇的數(shù)量蛔外;相比K-Means來說受均值影響較小

缺點(diǎn):需要確定R(R的選擇可能不重要)


GMM

算法流程

1)選擇簇的數(shù)量蛆楞,隨機(jī)初始化每個(gè)簇的高斯分布參數(shù)(均值和方差)溯乒。(也可以先觀察數(shù)據(jù)給出一個(gè)相對精確的均值和方差。 )

2)給定每個(gè)簇的高斯分布臊岸,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)屬于每個(gè)簇的概率橙数。(一個(gè)點(diǎn)越靠近高斯分布的中心就越可能屬于該簇。)

3)基于概率帅戒,計(jì)算高斯分布參數(shù)使得數(shù)據(jù)點(diǎn)的概率最大化灯帮,可以使用數(shù)據(jù)點(diǎn)概率的加權(quán)來計(jì)算這些新的參數(shù),權(quán)重就是數(shù)據(jù)點(diǎn)屬于該簇的概率逻住。

4)重復(fù)迭代2和3直到在迭代中的變化不大钟哥。

優(yōu)點(diǎn):簇可以呈現(xiàn)出橢圓形而不是僅僅限制于圓形。(K-Means是GMMs的一個(gè)特殊情況瞎访,是方差在所有維度上都接近于0時(shí)簇就會(huì)呈現(xiàn)出圓形腻贰。);使用概率扒秸,所以一個(gè)數(shù)據(jù)點(diǎn)可以屬于多個(gè)簇播演,也就是說GMMs可以支持混合資格。

缺點(diǎn):形狀不是任意的伴奥;需要提前確定簇?cái)?shù)写烤。

優(yōu)化:常先用K-Means初步計(jì)算,再輸入至GMM拾徙。


凝聚層次聚類

算法流程

1)將每個(gè)數(shù)據(jù)點(diǎn)視為一個(gè)單一的簇洲炊,選擇一個(gè)測量兩個(gè)簇之間距離的度量標(biāo)準(zhǔn)。

2)每次迭代尼啡,將兩個(gè)具有最小距離的簇合并成為一個(gè)簇暂衡。

3)重復(fù)2),直至所有數(shù)據(jù)點(diǎn)合并成一個(gè)簇崖瞭,然后選擇需要的簇狂巢。

優(yōu)點(diǎn):不需要知道有多少個(gè)簇 ;對距離度量標(biāo)準(zhǔn)的選擇不敏感书聚。

缺點(diǎn):效率低隧膘。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市寺惫,隨后出現(xiàn)的幾起案子疹吃,更是在濱河造成了極大的恐慌,老刑警劉巖西雀,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萨驶,死亡現(xiàn)場離奇詭異,居然都是意外死亡艇肴,警方通過查閱死者的電腦和手機(jī)腔呜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進(jìn)店門叁温,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人核畴,你說我怎么就攤上這事膝但。” “怎么了谤草?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵跟束,是天一觀的道長。 經(jīng)常有香客問我丑孩,道長冀宴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任温学,我火速辦了婚禮略贮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘仗岖。我一直安慰自己逃延,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布轧拄。 她就那樣靜靜地躺著揽祥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪紧帕。 梳的紋絲不亂的頭發(fā)上盔然,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天桅打,我揣著相機(jī)與錄音是嗜,去河邊找鬼。 笑死挺尾,一個(gè)胖子當(dāng)著我的面吹牛鹅搪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播遭铺,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼丽柿,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了魂挂?” 一聲冷哼從身側(cè)響起甫题,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎涂召,沒想到半個(gè)月后坠非,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡果正,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年炎码,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了盟迟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡潦闲,死狀恐怖攒菠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情歉闰,我是刑警寧澤辖众,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站新娜,受9級特大地震影響赵辕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜概龄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一还惠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧私杜,春花似錦蚕键、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至铝耻,卻和暖如春誊爹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背瓢捉。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工频丘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人泡态。 一個(gè)月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓搂漠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親某弦。 傳聞我的和親對象是個(gè)殘疾皇子桐汤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容