機器學習(七) 聚類之DBSCAN

針對聚類K-means算法中不能對特定形狀的樣本進行分類,提出了一種新的聚類算法(DBSCAN)。
DBSCAN 是一種著名的密度聚類算法更耻,它基于一組“鄰域”參數(shù)來刻畫樣本分布的緊密程度。

7.1 基本概念

DBSCAN:Density-Based Spatial Clustering of Applications with Noise
核心對象:若某個點的密度達到算法設(shè)定的閾值則其為核心點。即r領(lǐng)域內(nèi)點的數(shù)量不小于minPts誉己。
距離閾值:設(shè)定的半徑r
直接密度可達:若某點p在點q的r領(lǐng)域內(nèi),且q是核心點袱蜡,則p-q直接密度可達镜沽。
密度可達:若有一個點的序列q0、q1、...、qk结澄,對任何qi-(qi-1)是直接密度可達的。稱從q0-qk密度可達岸夯。
密度相連:若從某核心點p出發(fā)麻献,點q和點k都是密度可達的。則稱q和點k是密度相連的猜扮。
邊界點:屬于某一個類的非核心點勉吻,不能發(fā)展下線了。
噪聲點:不屬于任何一個類簇的點旅赢,從任何一個核心點出發(fā)都是密度不可達的齿桃。

7.2 算法思想

這個算法很有意思,總結(jié)8個字就是:畫圈找點,發(fā)展下線
設(shè)定參數(shù)D:輸入數(shù)據(jù)集;參數(shù)\epsilon:指定半徑缚忧;MinPts:密度閾值

1. 標記所有對象為unvisited
2. Do
3. 隨機選擇一個 unvited 對象 p;
4. 標記 p 為visited香到;
5. if p 的 e-(半徑范圍內(nèi)) 領(lǐng)域內(nèi)至少有 MinPts 個對象
        創(chuàng)建一個新簇 C,并把p添加到C;
        令 N 為 p 的 e- 領(lǐng)域中的對象集合
        for N 中每個點 p
            if p 是 unvisited
                標記 p 為visited
                if p 的e-領(lǐng)域至少有 MinPts 個對象悠就,把這些對象添加到N千绪;
                如果 p 還不是任何簇的成員,把 p 添加到 C理卑;
              End for翘紊;
              輸出 C;
              
      Else 標記 p 為噪聲藐唠;
      Unitl 沒有標記為unvisited 的對象。

參數(shù)選擇
半徑e:給定數(shù)據(jù)集P={p(i);i=0,1,...,n},計算點P(i)到集合D的子集S中所有點之間的距離鹉究,距離按照從小到大的順序排序宇立, d(k)就被稱為k-距離。
MunPts: k-距離中k的值自赔,一般取的小一些妈嘹,多次嘗試

7.3 優(yōu)劣勢

優(yōu)勢:

  • 不需要指定簇個數(shù)
  • 可以發(fā)現(xiàn)任意形狀的簇
  • 擅長找到離群點
  • 兩個參數(shù)就夠了

劣勢:

  • 高維數(shù)據(jù)有些困難(可以做降維)
  • 參數(shù)難以選擇(參數(shù)對結(jié)果的影響非常大)
  • Sklearn中效率很慢(數(shù)據(jù)削減策略)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市绍妨,隨后出現(xiàn)的幾起案子润脸,更是在濱河造成了極大的恐慌,老刑警劉巖他去,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件毙驯,死亡現(xiàn)場離奇詭異,居然都是意外死亡灾测,警方通過查閱死者的電腦和手機爆价,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來媳搪,“玉大人铭段,你說我怎么就攤上這事∏乇” “怎么了序愚?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長等限。 經(jīng)常有香客問我爸吮,道長,這世上最難降的妖魔是什么精刷? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任拗胜,我火速辦了婚禮,結(jié)果婚禮上怒允,老公的妹妹穿的比我還像新娘埂软。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布勘畔。 她就那樣靜靜地躺著所灸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪炫七。 梳的紋絲不亂的頭發(fā)上爬立,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天,我揣著相機與錄音万哪,去河邊找鬼侠驯。 笑死,一個胖子當著我的面吹牛奕巍,可吹牛的內(nèi)容都是我干的吟策。 我是一名探鬼主播,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼的止,長吁一口氣:“原來是場噩夢啊……” “哼檩坚!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起诅福,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤匾委,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后氓润,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赂乐,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年旺芽,在試婚紗的時候發(fā)現(xiàn)自己被綠了沪猴。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡采章,死狀恐怖运嗜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情悯舟,我是刑警寧澤担租,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站抵怎,受9級特大地震影響奋救,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜反惕,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一尝艘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧姿染,春花似錦背亥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽娄徊。三九已至,卻和暖如春盾戴,著一層夾襖步出監(jiān)牢的瞬間寄锐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工尖啡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留橄仆,地道東北人。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓可婶,卻偏偏與公主長得像沿癞,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子矛渴,可洞房花燭夜當晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容