《Discovering Statistics Using R》筆記6-箱形圖和離群值

新冠肺炎疫情期間本職工作比較忙。河胎。馏锡。好久沒更新簡書了OTL

筆記說明

讀《Discovering Statistics Using R》第四章 Exploring data with graphs中的4.7節(jié)箱形圖 以及5.8.1節(jié) 處理離群值 做的筆記示括。主要是介紹箱形圖和離群值览效。之前本系列筆記跳過了第四章的內(nèi)容,因為對于用R作圖我打算另開文集來寫的逛漫。特意又跳回4.7節(jié)是因為按照之前筆記順序該做如何處理離群值的內(nèi)容了黑低。

示例數(shù)據(jù)

一個生物學家懷疑音樂節(jié)會對人的健康產(chǎn)生影響,他找了810個音樂會觀眾,收集了音樂節(jié)三天他們的衛(wèi)生情況克握,衛(wèi)生情況得分0-4.我們使用該數(shù)據(jù)的未去除極端值的版本DownloadFestival.dat

# 數(shù)據(jù)導入
library(rio)
dlf <- import("data/DownloadFestiva.dat")
head(dlf)
##   ticknumb gender day1 day2 day3
## 1     2111   Male 2.64 1.35 1.61
## 2     2229 Female 0.97 1.41 0.29
## 3     2338   Male 0.84   NA   NA
## 4     2384 Female 3.03   NA   NA
## 5     2401 Female 0.88 0.08   NA
## 6     2405   Male 0.85   NA   NA

箱形圖

箱形圖是展示連續(xù)性變量情況很好的方法蕾管。
箱體的中間表示中位數(shù)
箱體的兩端表示為下四分位數(shù)(Q1)和上四分位數(shù)(Q3)
箱體兩端向外分出兩條“觸須”,觸須長度不超過1.5倍的四分位間距(interquartile range IQR=Q3-Q1)

接下來我們使用箱形圖來分性別(gender)展示示例數(shù)據(jù)中第一天衛(wèi)生評分的情況(day1):

library(ggplot2)
festivalBoxplot <- ggplot(dlf, aes(gender, day1)) +
    geom_boxplot() + labs(x = "Gender", y = "Hygiene (Day 1 of Festival)")

在生成的箱形圖中我們可以看到女性組里有一個明顯的離群值(outlier)菩暗。

離群值

離群值(outlier)也叫異常值掰曾,簡單來說就是與其他數(shù)據(jù)點明顯不同的測量值。在箱形圖中:
大于上四分位數(shù)+1.5倍四分位間距的值或者小于下四分位數(shù)-1.5倍四分位間距的值被定義為離群值停团。
大于上四分位數(shù)+3倍四分位間距的值或者小于下四分位數(shù)-3倍四分位間距的值被定義為極端離群值(extreme outliers)旷坦。
離群值對一些統(tǒng)計量影響很大(比如均值),因此有時需要留意客蹋。

我們對原始數(shù)據(jù)按照day1變量降序排列后可以找到那個離群值:

library(dplyr)
dlf <- dlf %>% arrange(desc(day1))
head(dlf)
##   ticknumb gender  day1 day2 day3
## 1     4158 Female 20.02 2.44   NA
## 2     4016 Female  3.69   NA   NA
## 3     3374   Male  3.58 3.35   NA
## 4     4264   Male  3.44   NA   NA
## 5     3371 Female  3.41   NA   NA
## 6     3338 Female  3.38   NA   NA

離群值的處理

發(fā)現(xiàn)離群值后有幾種常用方法可以減少離群值對分析的影響塞蹭。在應(yīng)用這些方法前需要先檢查一下離群值是否是數(shù)據(jù)錯誤錄入造成孽江。如果數(shù)據(jù)錄入無誤讶坯,主要有三種處理方法:

  • 剔除離群值
    當有理由認為該樣本不屬于目標總體時可以采用這種方式。
  • 數(shù)據(jù)轉(zhuǎn)換
  • 更改測量值
    常見的具體更改方法:
    (1)用次高或次低的測量值替代
    (2)用Z分數(shù)反推出替代值岗屏。
    Z值大于3.29也是判定離群值的一種方法辆琅。據(jù)此可以反推Z值為3.29時對應(yīng)測量值應(yīng)該是多少:X=(Z×s)+\overline{X},用該值代替離群值
    (3)均值加或減2倍標準差,

用if_else()或ifelse()進行數(shù)據(jù)修改

有理由認為這個20.02的離群值應(yīng)該是2.02由于錯誤錄入造成的这刷。這時應(yīng)該去找原始數(shù)據(jù)進行核實婉烟。假設(shè)我們經(jīng)核實確實應(yīng)該是2.02,現(xiàn)在把它改正暇屋。
這里我使用dplyr包的if_else()進行數(shù)據(jù)修改似袁,其用法和R自帶的ifelse()基本一致:if_else(condition, true, false, missing = NULL),當condition的判斷為TRUE時返回true參數(shù)的值,當condition的判斷為FALSE時返回false參數(shù)的值咐刨。

dlf$day1 <- if_else(dlf$day1 == 20.02, 2.02, dlf$day1)
head(dlf)
##   ticknumb gender  day1 day2 day3
## 1     4158 Female  2.02 2.44   NA
## 2     4016 Female  3.69   NA   NA
## 3     3374   Male  3.58 3.35   NA
## 4     4264   Male  3.44   NA   NA
## 5     3371 Female  3.41   NA   NA
## 6     3338 Female  3.38   NA   NA

修改后再做一次箱形圖:



從箱形圖中我們可以看出數(shù)據(jù)分布的范圍昙衅、中位數(shù)水平、中間50%的數(shù)據(jù)分布的范圍(箱體)定鸟、最高25%的數(shù)據(jù)分布范圍和最低25%的數(shù)據(jù)分布范圍而涉。通過箱形圖還可以看出數(shù)據(jù)分布是否對稱:如果上下觸須長度相近則數(shù)據(jù)分布大致對稱。另外联予,觸須以外的點展示了離群值的情況啼县。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市沸久,隨后出現(xiàn)的幾起案子季眷,更是在濱河造成了極大的恐慌,老刑警劉巖卷胯,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件子刮,死亡現(xiàn)場離奇詭異,居然都是意外死亡诵竭,警方通過查閱死者的電腦和手機话告,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門兼搏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人沙郭,你說我怎么就攤上這事佛呻。” “怎么了病线?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵吓著,是天一觀的道長。 經(jīng)常有香客問我送挑,道長绑莺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任惕耕,我火速辦了婚禮纺裁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘司澎。我一直安慰自己欺缘,他們只是感情好,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布挤安。 她就那樣靜靜地躺著谚殊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蛤铜。 梳的紋絲不亂的頭發(fā)上嫩絮,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機與錄音围肥,去河邊找鬼剿干。 笑死,一個胖子當著我的面吹牛虐先,可吹牛的內(nèi)容都是我干的怨愤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蛹批,長吁一口氣:“原來是場噩夢啊……” “哼撰洗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起腐芍,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤差导,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后猪勇,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體设褐,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了助析。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片犀被。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖外冀,靈堂內(nèi)的尸體忽然破棺而出寡键,到底是詐尸還是另有隱情,我是刑警寧澤雪隧,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布西轩,位于F島的核電站,受9級特大地震影響脑沿,放射性物質(zhì)發(fā)生泄漏藕畔。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一庄拇、第九天 我趴在偏房一處隱蔽的房頂上張望注服。 院中可真熱鬧,春花似錦丛忆、人聲如沸祠汇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至诗力,卻和暖如春凰浮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背苇本。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工袜茧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瓣窄。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓笛厦,卻偏偏與公主長得像,于是被迫代替她去往敵國和親俺夕。 傳聞我的和親對象是個殘疾皇子裳凸,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355