DBSCAN聚類算法

一坷牛、算法描述

? ??????DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類方法)是一種很典型的密度聚類算法很澄,和K-Means京闰,BIRCH這些一般只適用于凸樣本集的聚類相比,DBSCAN既可以適用于凸樣本集痴怨,也可以適用于非凸樣本集忙干。DBSCAN算法的顯著優(yōu)點(diǎn)是聚類速度快且能夠有效處理噪聲點(diǎn)和發(fā)現(xiàn)任意形狀的空間聚類

????????該算法利用基于密度的聚類的概念浪藻,即要求聚類空間中的一定區(qū)域內(nèi)所包含對(duì)象(點(diǎn)或其他空間對(duì)象)的數(shù)目不小于某一給定閾值。過濾低密度區(qū)域乾翔,發(fā)現(xiàn)稠密度樣本點(diǎn)爱葵。同一類別的樣本,他們之間的緊密相連的反浓,也就是說萌丈,在該類別任意樣本周圍不遠(yuǎn)處一定有同類別的樣本存在。

二雷则、基本概念

????????DBSCAN密度定義:DBSCAN是基于一組鄰域來描述樣本集的緊密程度的辆雾,參數(shù)?(?, MinPts)?用來描述鄰域的樣本分布緊密程度。其中月劈,??描述了某一樣本的鄰域距離閾值度迂,MinPts?描述了某一樣本的距離為?的鄰域中樣本個(gè)數(shù)的閾值藤乙。

三、密度可達(dá)和密度相連直觀解釋

????????從上圖可以很容易看出理解上述定義惭墓,圖中MinPts=5坛梁,紅色的點(diǎn)都是核心對(duì)象,因?yàn)槠?-鄰域至少有5個(gè)樣本腊凶。黑色的樣本是非核心對(duì)象划咐。所有核心對(duì)象密度直達(dá)的樣本在以紅色核心對(duì)象為中心的超球體內(nèi),如果不在超球體內(nèi)钧萍,則不能密度直達(dá)褐缠。圖中用綠色箭頭連起來的核心對(duì)象組成了密度可達(dá)的樣本序列。在這些密度可達(dá)的樣本序列的?-鄰域內(nèi)所有的樣本相互都是密度相連的风瘦。

????????由密度可達(dá)關(guān)系導(dǎo)出的最大密度相連的樣本集合队魏,即為我們最終聚類的一個(gè)類別,或者說一個(gè)簇弛秋。這個(gè)DBSCAN的簇里面可以有一個(gè)或者多個(gè)核心對(duì)象器躏。如果只有一個(gè)核心對(duì)象,則簇里其他的非核心對(duì)象樣本都在這個(gè)核心對(duì)象的?-鄰域里蟹略;如果有多個(gè)核心對(duì)象登失,則簇里的任意一個(gè)核心對(duì)象的?-鄰域中一定有一個(gè)其他的核心對(duì)象,否則這兩個(gè)核心對(duì)象無法密度可達(dá)挖炬。這些核心對(duì)象的??-鄰域里所有的樣本的集合組成的一個(gè)DBSCAN聚類簇揽浙。

四、DBSCAN聚類算法流程

1意敛、DBSCAN發(fā)現(xiàn)簇的過程

?????????初始馅巷,給定數(shù)據(jù)集D中所有對(duì)象都被標(biāo)記為“unvisited”,DBSCAN隨機(jī)選擇一個(gè)未訪問的對(duì)象p草姻,標(biāo)記p為“visited”钓猬,并檢查p的?-領(lǐng)域是否至少包含MinPts個(gè)對(duì)象。如果不是撩独,則p被標(biāo)記為噪聲點(diǎn)敞曹。否則為p創(chuàng)建一個(gè)新的簇C,并且把p的?-領(lǐng)域中所有對(duì)象都放在候選集合N中综膀。DBSCAN迭代地把N中不屬于其他簇的對(duì)象添加到C中澳迫。在此過程中,對(duì)應(yīng)N中標(biāo)記為“unvisited”的對(duì)象 P'?,DBSCAN把它標(biāo)記為“visited”剧劝,并且檢查它的?-領(lǐng)域橄登,如果 P' 的?-領(lǐng)域至少包含MinPts個(gè)對(duì)象,則P' 的?-領(lǐng)域中的對(duì)象都被添加到N中。DBSCAN繼續(xù)添加對(duì)象到C拢锹,直到C不能擴(kuò)展谣妻,即直到N為空。此時(shí)簇C完成生成面褐,輸出拌禾。

? ? ?為了找到下一個(gè)簇,DBSCAN從剩下的對(duì)象中隨機(jī)選擇一個(gè)未訪問過的對(duì)象展哭。聚類過程繼續(xù)湃窍,直到所有對(duì)象都被訪問。

還需考慮三個(gè)問題:

????????第一個(gè)是一些異常樣本點(diǎn)或者說少量游離于簇外的樣本點(diǎn)匪傍,這些點(diǎn)不在任何一個(gè)核心對(duì)象在周圍您市,在DBSCAN中,我們一般將這些樣本點(diǎn)標(biāo)記為噪音點(diǎn)役衡。DBSCAN算法很容易檢測異常點(diǎn)茵休。

????????第二個(gè)是距離的度量問題,即如何計(jì)算某樣本和核心對(duì)象樣本的距離手蝎。在DBSCAN中榕莺,一般采用最近鄰思想,采用某一種距離度量來衡量樣本距離棵介,比如歐式距離钉鸯。這和KNN分類算法的最近鄰思想完全相同。對(duì)應(yīng)少量的樣本邮辽,尋找最近鄰可以直接去計(jì)算所有樣本的距離唠雕,如果樣本量較大,則一般采用KD樹或者球樹來快速的搜索最近鄰吨述。

????????第三種問題岩睁,某些樣本可能到兩個(gè)核心對(duì)象的距離都小于?,但是這兩個(gè)核心對(duì)象由于不是密度直達(dá)揣云,又不屬于同一個(gè)聚類簇捕儒,那么如果界定這個(gè)樣本的類別呢?一般來說邓夕,此時(shí)DBSCAN采用先來后到肋层,先進(jìn)行聚類的類別簇會(huì)標(biāo)記這個(gè)樣本為它的類別。也就是說BDSCAN的算法不是完全穩(wěn)定的算法翎迁。

2、DBSCAN算法流程

五净薛、DBSCAN算法優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

? ? ? ? 和傳統(tǒng)的K-Means算法相比汪榔,DBSCAN最大的不同就是不需要輸入類別數(shù)k,當(dāng)然它最大的優(yōu)勢是可以發(fā)現(xiàn)任意形狀的聚類簇,而不是像K-Means痴腌,一般僅僅使用于凸的樣本集聚類雌团。同時(shí)它在聚類的同時(shí)還可以找出異常點(diǎn),對(duì)數(shù)據(jù)集中的異常點(diǎn)不敏感士聪。一般來說锦援,如果數(shù)據(jù)集是稠密的,并且數(shù)據(jù)集不是凸的剥悟,那么用DBSCAN會(huì)比K-Means聚類效果好很多灵寺。如果數(shù)據(jù)集不是稠密的,則不推薦用DBSCAN來聚類区岗。

缺點(diǎn):

????????1略板、如果樣本集的密度不均勻、聚類間距差相差很大時(shí)慈缔,聚類質(zhì)量較差叮称,這時(shí)用DBSCAN聚類一般不適合。

? ? ? ? 2藐鹤、調(diào)參相對(duì)于傳統(tǒng)的K-Means之類的聚類算法稍復(fù)雜瓤檐,主要需要對(duì)距離閾值?,鄰域樣本數(shù)閾值MinPts聯(lián)合調(diào)參娱节,不同的參數(shù)組合對(duì)最后的聚類效果有較大影響挠蛉。一般這兩個(gè)參數(shù)的確定靠經(jīng)驗(yàn)值。如果覺得經(jīng)驗(yàn)值聚類的結(jié)果不滿意括堤,可以適當(dāng)調(diào)整?和MinPts的值碌秸,經(jīng)過多次迭代計(jì)算對(duì)比,選擇最合適的參數(shù)值悄窃。如果MinPts不變讥电,?取得值過大,會(huì)導(dǎo)致大多數(shù)點(diǎn)都聚到同一個(gè)簇中轧抗,?過小恩敌,會(huì)導(dǎo)致一個(gè)簇的分裂;如果?不變横媚,MinPts的值取得過大纠炮,會(huì)導(dǎo)致同一個(gè)簇中點(diǎn)被標(biāo)記為離群點(diǎn),?過小灯蝴,會(huì)導(dǎo)致發(fā)現(xiàn)大量的核心點(diǎn)恢口。

????????3、不適合高維數(shù)據(jù)穷躁,可以先進(jìn)行降維操作

? ? ? ? 4耕肩、Sklearn中效率很慢,可以先執(zhí)行數(shù)據(jù)削減策略

六、分類效果演示

可視化演示的網(wǎng)址



參考文章

劉建平

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末猿诸,一起剝皮案震驚了整個(gè)濱河市婚被,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌梳虽,老刑警劉巖址芯,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異窜觉,居然都是意外死亡谷炸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門竖螃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來淑廊,“玉大人,你說我怎么就攤上這事特咆〖境停” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵腻格,是天一觀的道長画拾。 經(jīng)常有香客問我,道長菜职,這世上最難降的妖魔是什么青抛? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮酬核,結(jié)果婚禮上蜜另,老公的妹妹穿的比我還像新娘。我一直安慰自己嫡意,他們只是感情好举瑰,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蔬螟,像睡著了一般此迅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上旧巾,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天耸序,我揣著相機(jī)與錄音,去河邊找鬼鲁猩。 笑死坎怪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的廓握。 我是一名探鬼主播芋忿,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼炸客,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了戈钢?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤是尔,失蹤者是張志新(化名)和其女友劉穎殉了,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拟枚,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡薪铜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了恩溅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隔箍。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖脚乡,靈堂內(nèi)的尸體忽然破棺而出蜒滩,到底是詐尸還是另有隱情,我是刑警寧澤奶稠,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布俯艰,位于F島的核電站,受9級(jí)特大地震影響锌订,放射性物質(zhì)發(fā)生泄漏竹握。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一辆飘、第九天 我趴在偏房一處隱蔽的房頂上張望啦辐。 院中可真熱鬧,春花似錦蜈项、人聲如沸芹关。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽充边。三九已至,卻和暖如春常侦,著一層夾襖步出監(jiān)牢的瞬間浇冰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國打工聋亡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肘习,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓坡倔,卻偏偏與公主長得像漂佩,于是被迫代替她去往敵國和親脖含。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 本篇結(jié)構(gòu) 簡介 聚類算法的分類 K-Means聚類算法 DBSCAN聚類算法 本篇介紹了聚類算法的種類投蝉,重點(diǎn)關(guān)注K...
    w1992wishes閱讀 7,431評(píng)論 0 14
  • 前言密度聚類的優(yōu)點(diǎn): 能夠找出 不規(guī)則形狀的類簇养葵,并且聚類時(shí)不需要事先知道類簇的個(gè)數(shù)。DBSCAN是密度聚類的一...
    一心一意弄算法閱讀 2,162評(píng)論 0 1
  • 其他 這篇文章的整體排版主要是根據(jù)個(gè)人的博客來噠瘩缆,如果感興趣的話可以去我的自己搭建的個(gè)人博客看這篇文章关拒。 正文 聚...
    DeamoV閱讀 1,922評(píng)論 0 1
  • 英文地址 作者:Martin Ester, Hans-Peter Kriegel, Jiirg Sander, X...
    劉開心_8a6c閱讀 3,845評(píng)論 0 2
  • 基于密度的方法(Density-based methods) 基本思想 基于密度的方法:k-means解決不了不規(guī)...
    偲偲爸閱讀 1,057評(píng)論 0 1