一. 異常值填補(bǔ)方法
1.1 k-近鄰替換法
1.2 局部加權(quán)替換法
1.3 有序最近鄰替換法
1.4 均值法
1.5 最常見值法
1.6 回歸填補(bǔ)法
1.7 多重填補(bǔ)方法(M-試探法)
二. 基于距離檢測
k-近鄰法
根據(jù)距離來確定具有缺失值數(shù)據(jù)最近的k個近鄰蘸鲸,然后將這個k個值加權(quán)(權(quán)重一般是距離的比值吧),然后根據(jù)自定義的閾值窿锉,將距離k個近鄰距離超過閾值的當(dāng)做異常點(diǎn)棚贾。
三. 基于統(tǒng)計(jì)學(xué)方法檢測
3σ探測方法
3σ 探測方法的思想其實(shí)就是來源于切比雪夫不等式,一般來說:
- 所有數(shù)據(jù)中榆综,至少有 3/4(75.0%)的數(shù)據(jù)位于平均數(shù)2個標(biāo)準(zhǔn)差范圍內(nèi)妙痹。
- 所有數(shù)據(jù)中,至少有 8/9(88.9%)的數(shù)據(jù)位于平均數(shù)3個標(biāo)準(zhǔn)差范圍內(nèi)鼻疮。
- 所有數(shù)據(jù)中怯伊,至少有 24/25(96.0%)的數(shù)據(jù)位于平均數(shù)5個標(biāo)準(zhǔn)差范圍內(nèi)。
注:只適用于單維數(shù)據(jù)
四. 基于分布的異常值檢測
本方法是根據(jù)統(tǒng)計(jì)模型或者數(shù)據(jù)分布判沟。然后根絕這些模型對樣本集中的每個點(diǎn)進(jìn)行不一致檢驗(yàn)的方法耿芹。只適用于單維數(shù)據(jù)。因?yàn)閿?shù)據(jù)分布未知挪哄,所以不是太準(zhǔn)確吧秕。
3.1 Grubbs檢驗(yàn)
步驟一:先把數(shù)據(jù)按照從小到大的順序排列x1,x2…xn;
步驟二:假設(shè)我們認(rèn)為xi為異常點(diǎn)迹炼。計(jì)算平均值avg砸彬;
步驟三:計(jì)算算數(shù) 平均值 和 標(biāo)準(zhǔn)差 的估計(jì)量s;
步驟四:計(jì)算統(tǒng)計(jì)量 gi=|xi - avg|/s斯入;
步驟五:將gi與查Grubbs檢驗(yàn)法的臨界值表所得的g(a, n)進(jìn)行比較砂碉。如果gi < g(a,n),則認(rèn)為不是異常值刻两;如果大于增蹭,就認(rèn)為這個點(diǎn)是異常值。
3.2 Dixon檢驗(yàn)
查表
3.3 3t分布檢驗(yàn)方法
查表
五. 基于密度聚類
5.1 DBSCAN
由密度可達(dá)關(guān)系導(dǎo)出的最大密度相連的樣本集合磅摹,即為我們最終聚類的一個簇滋迈。
DBSCAN是基于一組鄰域來描述樣本集的緊密程度的霎奢,參數(shù)(?, MinPts)用來描述鄰域的樣本分布緊密程度。其中饼灿,?描述了某一樣本的鄰域距離閾值椰憋,MinPts描述了某一樣本的距離為?的鄰域中樣本個數(shù)的閾值。
5.2 OPTICS
目標(biāo)是將空間中的數(shù)據(jù)按照密度分布進(jìn)行聚類赔退,其思想和DBSCAN非常類似橙依,但是和DBSCAN不同的是,OPTICS算法可以獲得不同密度的聚類硕旗,理論上可以獲得任意密度的聚類窗骑。
5.3 Chameleon
步驟一:創(chuàng)建稀疏圖(kNN圖);
步驟二:分裂稀疏圖為小partitions漆枚;
步驟三:合并partitions创译;
Chameleon沒有考慮簇與簇之間的連通性