load and check data
outliner detection:
一個(gè)是標(biāo)準(zhǔn)化數(shù)值檢測(cè)法丢氢。具有鐘型正態(tài)分布的數(shù)據(jù),大約68%的數(shù)據(jù)分布于距離平均值一個(gè)標(biāo)準(zhǔn)差以?xún)?nèi)痒芝,95%的數(shù)據(jù)分布于距離平均值兩個(gè)標(biāo)準(zhǔn)差以?xún)?nèi)包竹,幾乎所有的數(shù)據(jù)都分布于距離平均值三個(gè)標(biāo)準(zhǔn)差以?xún)?nèi)。
所以如果距離平均值三個(gè)標(biāo)準(zhǔn)差以?xún)?nèi)的數(shù)據(jù)都可以判定為異常值喊巍。
另一個(gè)是利用箱形圖來(lái)檢測(cè)。分別計(jì)算Q1百分位數(shù)箍鼓,Q3百分位數(shù)玄糟,求得四分位間距IQR,計(jì)算上限和下限。
上限:Q1-1.5*IQR
下限:Q3+1.5*IQR
在這個(gè)范圍內(nèi)的數(shù)據(jù)為正常袄秩,超出這個(gè)范圍的數(shù)據(jù)可視為異常值。