今天做數(shù)據(jù)異常值剔除的時候發(fā)現(xiàn)用老師講的3σ判定方法(切比雪夫經(jīng)驗(yàn)法則)識別的異常值和箱線圖不一致剃氧,并且當(dāng)Z-score數(shù)值限定為3時踢故,其結(jié)果數(shù)量遠(yuǎn)遠(yuǎn)小于箱線圖凸舵,才發(fā)現(xiàn)對于不同的數(shù)據(jù)需要使用合適的異常值識別方法廓潜。
- 下面主要將兩種方法的stata實(shí)現(xiàn)方法
1. Z-score和3σ判定方法
egen meanArea=mean(area) //計算樣本均值
egen stdArea=sd(area) //計算樣本標(biāo)準(zhǔn)差
ge z=(area-meanArea)/stdArea //計算z統(tǒng)計量
ge outlier=.
replace outlier=1 if z>3 | z<-3
drop if outlier==1
- 注意:3σ原則要求數(shù)據(jù)(近似)服從正態(tài)分布
2. 箱線圖
- 繪制箱線圖查看是否有outlier
graph box area //繪制單變量箱線圖
graph hbox area, over(citycode) //繪制分組箱線圖阱佛,citycode為分組變量
- 剔除異常值
egen p25=pctile(area),p(25) by(citycode)
egen p75=pctile(area),p(75) by(citycode)
gen IQR=p75-p25
gen low=p25-1.5*IQR
gen up=p75+1.5*IQR
ge outlier=.
replace outlier=1 if area>up | area<low
drop if outlier==1
- 當(dāng)一組數(shù)據(jù)的異常值按“箱線圖”方法剔除后台丛,再次繪制box graph時仍然出現(xiàn)outlier是正乘=桑現(xiàn)象。一般來說不需要進(jìn)行多次剔除直至無outlier挽霉,一次即可防嗡!
- 轉(zhuǎn)載請和作者聯(lián)系