一、定義
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基于密度的聚類算法觉吭。與劃分和層次聚類方法不同观谦,它將簇定義為密度相連的點的最大集合芬首,能夠把具有足夠高密度的區(qū)域劃分為簇熄诡,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類临燃。
二浴捆、算法過程
算法的過程要提到幾個概念:
核心點:指的是在數(shù)據(jù)指定半徑內(nèi)周圍存在>=n個數(shù)據(jù)蒜田,那么這個數(shù)據(jù)就是核心點
邊緣點:指的是在數(shù)據(jù)指定半徑內(nèi)周圍存在<n個數(shù)據(jù),那么這個數(shù)據(jù)就是邊緣點
離群點:指的是在數(shù)據(jù)指定半徑內(nèi)周圍沒有數(shù)據(jù)选泻,那么這個數(shù)據(jù)就是離群點
即設(shè)定的半徑和最小包含點數(shù)(minpoints)是這個算法的2個參數(shù)
第一步冲粤,先按照上述的概念將所有的數(shù)據(jù)標(biāo)記為核心點美莫、邊緣點和離群點
第二步,刪除離群點
第三步色解,為距離在半徑之內(nèi)的所有核心點之間賦予一條邊
第四步茂嗓,每組連通的核心點形成一個簇
第五步,將每個邊界點指派到一個與之關(guān)聯(lián)的核心點的簇中(哪一個核心點的半徑范圍之內(nèi))
大功告成科阎!
以下是DBSCAN的動畫展示述吸,--->傳送門
三、優(yōu)點與缺點
1锣笨、優(yōu)點
1)與K-means方法相比蝌矛,DBSCAN不需要事先知道要形成的簇類的數(shù)量
2) 與K-means方法相比,DBSCAN可以發(fā)現(xiàn)任意形狀的簇類
3)DBSCAN能夠識別出噪聲點
4)DBSCAN對于數(shù)據(jù)庫中樣本的順序不敏感错英,即Pattern的輸入順序?qū)Y(jié)果的影響不大入撒。但是,對于處于簇類之間邊界樣本椭岩,可能會根據(jù)哪個簇類優(yōu)先被探測到而其歸屬有所擺動
2茅逮、缺點
1)DBScan不能很好反映高維數(shù)據(jù)
2)DBScan不能很好反映數(shù)據(jù)集以變化的密度
3)如果樣本集的密度不均勻、聚類間距差相差很大時判哥,聚類質(zhì)量較差