??這篇文章是自己在上大數(shù)據(jù)分析課程時老師推薦的一篇文章,當時自己聽著也是對原作者當年的的思路新奇非常敬佩,相信很多伙伴也會非常感興趣,就來做個分享吧。原論文于2014
年發(fā)表于Science
期刊雜志上喊衫。
- 論文題目:Clustering by fast search and find of density peaks
所解決的問題?
??作者提出了一種更加強大的聚類算法杆怕,其對參數(shù)的依賴更少族购,泛化能力更強。集成了k-means
和DBSCAN
算法的思想陵珍。
背景
??在研究問題前寝杖,我們先做綜述算法分析,看看研究進展互纯,還有未研究問題瑟幕,需要歸納總結,從實際問題留潦,不同門類的研究問題只盹,發(fā)現(xiàn)共性問題。這是科研的基本素養(yǎng)兔院。作者正是基于規(guī)劃總結各類聚類算法得出一種更強的聚類算法殖卑。
??如今已有很多聚類的方法,但是這些聚類方法針對很多衡量方式都沒有達成一致坊萝,也就是缺少一種通用的方式孵稽,或者說generalization
不夠许起。k-means
是完全聚類,無法分辨噪聲肛冶。K
參數(shù)選擇也比較困難街氢,對于非凸形狀也無法處理。DBSCAN
可以聚類任意形狀睦袖,但是找一個恰當?shù)?code>minpoint也比較玄學,并且對參數(shù)敏感荣刑。
所采用的方法馅笙?
??聚類的中心點會有什么特征呢?作者提出了兩點直觀的理解厉亏,之后對其量化建模:
- Cluster centers are surrounded by neighbors with lower local density董习。(聚類的中心周圍都是比它密度低的點)。也就是說聚類中心周圍密度較低爱只,中心密度較高皿淋。
- They are a relatively large distance from any points with a higher local density。(聚類中心點與其它密度更高的點之間通常都距離較遠)恬试。
??也就是滿足這兩個點才能成為聚類中心點
??因此窝趣,對于每個樣本點 計算兩個值:
- 局部密度值(
local density
):
??其中函數(shù):
??參數(shù) 為截斷距離(cutoff distance
),需要事先指定训柴。
- 距離的定義如下:
??對于非局部密度最大點哑舒,計算距離實際上分兩步 :
- 找到所有局部密度比點高的點;
- 在這些點中找到距離點最近的那個點幻馁,和的距離就是的值洗鸵。
??對于局部密度最大點,實際上是該點和其他所有點距離值的最大值仗嗦。
取得的效果膘滨?
??依據(jù)上述決策圖進行定性分析,結合主觀判斷才得到最終的結果稀拐』鸬耍可以看到聚類中心為1和10。26钩蚊、27贡翘、28為離群點(outlier)。
參考鏈接
??論文鏈接:http://sites.psu.edu/mcnl/files/2017/03/9-2dhti48.pdf
??代碼實現(xiàn):https://github.com/lanbing510/DensityPeakCluster
公眾號介紹:主要研究分享深度學習砰逻、機器博弈鸣驱、強化學習等相關內(nèi)容!期待您的關注蝠咆,歡迎一起學習交流進步踊东!