一扫责、定義
將大量的數(shù)據(jù)集中后作為樣品,從中必然存在一定的相似數(shù)據(jù)或者規(guī)律,基于這個假設(shè)將數(shù)據(jù)分離出來并且發(fā)現(xiàn)不同類的特征
二萝喘、應(yīng)用場景
聚類分析常用于數(shù)據(jù)探索或挖掘的前期,做探索性分析琼懊;同樣適用于樣本數(shù)量較大的情況下做數(shù)據(jù)預(yù)處理工作阁簸。
三、常用的聚類分析算法
聚類分析算法基于劃分哼丈、層次启妹、密度、網(wǎng)格醉旦、統(tǒng)計學(xué)饶米、模型等類型的算法,典型算法包括:K均值(經(jīng)典算法)车胡、DBSCAN檬输、兩步聚類、BIRCH匈棘、譜聚類
四褪猛、解決的問題與缺點
能解決的問題:數(shù)據(jù)集可以分為幾類;每個類別有多少樣本量羹饰。
缺點:無法提供明確的行動指向伊滋,聚類結(jié)果更多的是為后期挖掘和分析工作提供預(yù)處理和參考,無法回答“為什么”和“怎么辦”
五队秩、數(shù)據(jù)異常對聚類的影響
K均值異常
1笑旺、數(shù)據(jù)的異常值
2、數(shù)據(jù)的一場量綱(量級單位)
3馍资、超大量時應(yīng)該放棄K均值算法
DBSCAN算法:基于密度尋找被低密度趨于分離的高密度空間筒主,以此來實現(xiàn)不同數(shù)據(jù)樣本的聚類。
優(yōu)點:
1、原始數(shù)據(jù)集的分布規(guī)律沒有明顯要求乌妙,能適應(yīng)任何數(shù)據(jù)集分布形狀的空間聚類使兔,因此數(shù)據(jù)適應(yīng)性更廣。
2藤韵、無須制定聚類數(shù)量虐沥,對結(jié)果的先驗要求不高
3、由于DBSCAN可區(qū)分核心對象泽艘、邊界點和噪聲點欲险,因此對噪聲的過濾效果好,能有效對應(yīng)數(shù)據(jù)噪點匹涮。
高緯度聚類處理方法
1天试、降維
2、子空間聚類