R語言機(jī)器學(xué)習(xí)與臨床預(yù)測模型44--數(shù)據(jù)缺失值處理

本內(nèi)容為【科研私家菜】R語言機(jī)器學(xué)習(xí)與臨床預(yù)測模型系列課程

你想要的R語言學(xué)習(xí)資料都在這里，快來收藏關(guān)注【科研私家菜】

01 預(yù)測模型中的缺失值

預(yù)測模型構(gòu)建的數(shù)據(jù)處理過程中氮趋，往往會存在缺失值，對于缺失值的處理蒜田，目前各大統(tǒng)計(jì)書提出的方法有剔除，用均數(shù)填補(bǔ)选泻，用眾數(shù)填補(bǔ)冲粤，采用其他自變量進(jìn)行回歸，推算缺失值進(jìn)行填補(bǔ)等页眯。

1.1 特定值替換缺失值

FillNA <- function(x){
 x[is.na(x )]<- 0;
 x
}

1.2 使用均值梯捕，眾數(shù)，中位數(shù)進(jìn)行填補(bǔ)

library(data.table)
library(dplyr)
library(tidyverse)

#data.table
setDT(data)
data[,names(data):=lapply(.SD,function(x){x[is.na(x)] <- getmode(x)
x})]

#dplyr
data %>% 
  mutate_all(function(x){x[is.na(x)] <- getmode(x)
  x})
dplyr_if_else   <- function(x) { mutate_all(x, ~if_else(is.na(.), 0, .)) }
#tidyverse
df %>% 
  select(Pclass, Sex, SibSp, Embarked) %>%
  map_dfc(~ replace_na(.x, rstatix::get_mode(.x)[1]))

02 數(shù)據(jù)缺失值處理

缺失值處理一般包括三步：

識別缺失數(shù)據(jù)窝撵；
檢查導(dǎo)致數(shù)據(jù)缺失的原因傀顾；
刪除包含缺失值的實(shí)例或用合理的數(shù)值代替（插補(bǔ)）缺失值。

2.1 判斷缺失值

is.na()碌奉、is.nan()和is.infinite()可分別用來識別缺失值短曾、不可能值和無窮值
na表示缺失值
nan表示NOT A NUMBER
infinite表示+-Inf

>x <- NA
> is.na(x)
[1] TRUE
> is.nan(x)
[1] FALSE
> is.infinite(x)
 [1] FALSE

# 函數(shù)complete.cases()可用來識別矩陣或數(shù)據(jù)框中沒有缺失值的行
#加載數(shù)據(jù)集
>data(sleep,package = "VIM")
#沒有缺失值的行
>sleep[complete.cases(sleep),]
#列出有一個(gè)或多個(gè)缺失值的行
>sleep[!complete.cases(sleep),]

2.2 缺失數(shù)據(jù)可視化

#自己生成圖形
>library("VIM")
>aggr(sleep,prop = FALSE,numbers = TRUE)
# matrixplot()函數(shù)可生成展示每個(gè)實(shí)例數(shù)據(jù)的圖形
#自己生成圖形
marginplot(sleep[c("Gest","Dream")],phc=c(20),col=c("darkgray","red","blue"))

2.3 缺失數(shù)據(jù)刪除

complete.cases()可以用來存儲沒有缺失值的數(shù)據(jù)框或者矩陣形式的實(shí)例（行）：

#可以把mydata替換成sleep,延續(xù)上面的代碼
>newdata <- mydata[complete.cases(mydata),]
#可以把mydata替換成sleep,延續(xù)上面的代碼
>newdata <- na.omit(mydata)

處理含缺失值的數(shù)據(jù)集時(shí)，成對刪除常作為行刪除的備選方法使用赐劣。對于成對刪除嫉拐，觀測只是當(dāng)它含缺失數(shù)據(jù)的變量涉及某個(gè)特定分析時(shí)才會被刪除：

>cor(sleep,use = "pairwise.complete.obs")

2.4 缺失值補(bǔ)全

mice()首先從一個(gè)包含缺失數(shù)據(jù)的數(shù)據(jù)框開始，然后返回一個(gè)包含多個(gè)（默認(rèn)為5個(gè)）完整數(shù)據(jù)集的對象魁兼。

每個(gè)完整數(shù)據(jù)集都是通過對原始數(shù)據(jù)框中的缺失數(shù)據(jù)進(jìn)行插補(bǔ)而生成的婉徘。

由于插補(bǔ)有隨機(jī)的成分，因此每個(gè)完整數(shù)據(jù)集都略有不同。

然后盖呼，with()函數(shù)可依次對每個(gè)完整數(shù)據(jù)集應(yīng)用統(tǒng)計(jì)模型（如線性模型或廣義線性模型）儒鹿，最后，pool()函數(shù)將這些單獨(dú)的分析結(jié)果整合為一組結(jié)果几晤。

最終模型的標(biāo)準(zhǔn)誤和p值都將準(zhǔn)確地反映出由于缺失值和多重插補(bǔ)而產(chǎn)生的不確定性约炎。

>library(mice)
>data("sleep",package = "VIM")
>imp <- mice(sleep,seed = 1234)
#imp <- mice(sleep)
>fit <- with(imp,lm(Dream~Span+Gest))
fit
>pooled <- pool(fit)
>summary(pooled)
imp
>dataset2 <- complete(imp,action = 2)
>cor(sleep,use = "pairwise.complete.obs")

test <-read.csv("test.csv",header=TRUE,sep=",",na.strings = "")

03. na.fail和na.omit

1、na.fail（<向量a>）: 如果向量a內(nèi)包括至少1個(gè)NA蟹瘾，則返回錯(cuò)誤章钾；如果不包括任何NA，則返回原有向量a
2热芹、na.omit（<向量a>）: 返回刪除NA后的向量a
3、attr（ na.omit（<向量a>） ,”na.action”）: 返回向量a中元素為NA的下標(biāo)
4惨撇、is.na：判斷向量內(nèi)的元素是否為NA

函數(shù)na.fail和 na.omit 不僅可以應(yīng)用于向量伊脓，也可以應(yīng)用于矩陣和數(shù)據(jù)框。

data<-c(1,2,NA,2,4,2,10,NA,9)
data.na.omit<-na.omit(data)
data.na.omit
    [1]  1  2  2  4  2  10  9
    attr(,"na.action")
    [1] 3 8
    attr(,"class")
    [1] "omit"
attr(data.na.omit,"na.action")
    [1] 3 8
    attr(,"class")
    [1] "omit"
a<-c(1,2,3,NA,NA,2,NA,5)
a[!is.na(a)]
    [1] 1 2 3 2 5

data <- read.table(text="
a b c d e f
NA 1 1 1 1 1
1 NA 1 1 1 1
1 1 NA 1 1 1
1 1 1 NA 1 1
1 1 1 1 NA 1
1 1 1 1 1 NA",header=T)
na.omit(data)
data
>[1] a b c d e f
<0 行> (或0-長度的row.names)

> a <- 2:12
> b <- seq(2,23,2)
> c <- c(1:11)^3
> d <- c(5:8, 30:36)
 
> df <- data.frame(a,b,c,d)
> df$a[df$a==8] <- NA 
> df$b[df$b==8] <- NA 
> df$c[df$c==8] <- NA 
> df$d[df$d==8] <- NA 
> df$d[df$d==32] <- NA
 
 
> df
    a  b    c  d
1   2  2    1  5
2   3  4   NA  6
3   4  6   27  7
4   5 NA   64 NA
5   6 10  125 30
6   7 12  216 31
7  NA 14  343 NA
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 只根據(jù)第四列魁衙，也就是d 的 NA报腔，移除相應(yīng)的行
> bad.d <- is.na(df$d)
> bad.d
 [1] FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE
> df[!bad.d,]
    a  b    c  d
1   2  2    1  5
2   3  4   NA  6
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 根據(jù)第二列和第三列的NA 移除相應(yīng)的行
> df[complete.cases(df[,2:3]),]
    a  b    c  d
1   2  2    1  5
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
7  NA 14  343 NA
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 根據(jù)第二列和 第四列的NA，移除相應(yīng)的行
> df[complete.cases(df[,c(2,4)]),]
    a  b    c  d
1   2  2    1  5
2   3  4   NA  6
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 根據(jù)所有列的NA剖淀，移除相應(yīng)的行
> df[complete.cases(df),]
    a  b    c  d
1   2  2    1  5
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
> 
// 這個(gè)效果跟上面的df[complete.cases(df),] 相同
> na.omit(df)
    a  b    c  d
1   2  2    1  5
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 計(jì)算某一列的平均值纯蛾， 移除NA值
> mean(df$d, na.rm=TRUE)

04 均值替換、回歸插補(bǔ)及多重插補(bǔ)進(jìn)行插補(bǔ)

# 設(shè)置工作空間
# 把“數(shù)據(jù)及程序”文件夾拷貝到F盤下纵隔，再用setwd設(shè)置工作空間
setwd("E:\\R_workspace\\R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)\\chp4")
# 讀取銷售數(shù)據(jù)文件翻诉，提取標(biāo)題行
inputfile <- read.csv('./data/catering_sale.csv', header = TRUE) 
View(inputfile)
# 變換變量名
inputfile <- data.frame(sales = inputfile$'銷量', date = inputfile$'日期')
View(inputfile)
# 數(shù)據(jù)截取
inputfile <- inputfile[5:16, ]
View(inputfile)
# 缺失數(shù)據(jù)的識別
is.na(inputfile) # 判斷是否存在缺失
n <- sum(is.na(inputfile)) # 輸出缺失值個(gè)數(shù)
n
# 異常值識別
par(mfrow = c(1, 2)) # 將繪圖窗口劃為1行兩列，同時(shí)顯示兩圖
dotchart(inputfile$sales) # 繪制單變量散點(diǎn)圖
boxplot(inputfile$sales, horizontal = TRUE) # 繪制水平箱形圖
# 異常數(shù)據(jù)處理
inputfile$sales[5] = NA # 將異常值處理成缺失值
fix(inputfile) # 表格形式呈現(xiàn)數(shù)據(jù)
# 缺失值的處理
inputfile$date <- as.numeric(inputfile$date) # 將日期轉(zhuǎn)換成數(shù)值型變量
sub <- which(is.na(inputfile$sales)) # 識別缺失值所在行數(shù)
sub
# 將數(shù)據(jù)集分成完整數(shù)據(jù)和缺失數(shù)據(jù)兩部分
inputfile1 <- inputfile[-sub, ] 
inputfile2 <- inputfile[sub, ]
# 行刪除法處理缺失捌刮，結(jié)果轉(zhuǎn)存
result1 <- inputfile1
View(result1)
# 均值替換法處理缺失碰煌，結(jié)果轉(zhuǎn)存
avg_sales <- mean(inputfile1$sales) # 求變量未缺失部分的均值
avg_sales
# 用均值替換缺失
inputfile2$sales <- rep(avg_sales,n) 
# 并入完成插補(bǔ)的數(shù)據(jù)
result2 <- rbind(inputfile1, inputfile2) 
View(result2)
# 回歸插補(bǔ)法處理缺失，結(jié)果轉(zhuǎn)存
# 回歸模型擬合
# 注意：因變量~自變量
model <- lm(sales ~ date, data = inputfile1) 
# 模型預(yù)測
inputfile2$sales <- predict(model, inputfile2) 
result3 <- rbind(inputfile1, inputfile2)
# 多重插補(bǔ)法處理缺失绅作，結(jié)果轉(zhuǎn)存
library(lattice) # 調(diào)入函數(shù)包
library(MASS)
library(nnet)
library(mice) # 前三個(gè)包是mice的基礎(chǔ)
# 4重插補(bǔ)芦圾，即生成4個(gè)無缺失數(shù)據(jù)集
imp <- mice(inputfile, m = 4) 
# 選擇插補(bǔ)模型
# inputfile為原始數(shù)據(jù)，有缺失
fit <- with(imp,lm(sales ~ date, data = inputfile)) 
# m重復(fù)完整數(shù)據(jù)分析結(jié)果池
pooled <- pool(fit)
summary(pooled)
result4 <- complete(imp, action = 3) # 選擇第三個(gè)插補(bǔ)數(shù)據(jù)集作為結(jié)果

#install.packages(‘VIM')
library(VIM)
aggr(airquality)
#平均值填補(bǔ)
airquality$ Ozone[is.na(airquality$Ozone)] <- mean(airquality $ Ozone,na.rm=T)
#中位數(shù)填補(bǔ)
airquality$ Solar.R[is.na(airquality$ Solar.R)] <- median(airquality$ Solar.R,na.rm = T)
#計(jì)算缺失值個(gè)數(shù)俄认，等于0 則不存在缺失值
sum(is.na(airquality))
#相鄰均值填補(bǔ)
airquality <- read.csv(data.csv) #重新讀入數(shù)據(jù)
for (i in 1:length(airquality$ Ozone)) {
airquality$ Ozone[i] <- ifelse(is.na(airquality$ Ozone[i]),
mean(c(airquality$ Ozone[i-1],airquality$ Ozone[i+1]),na.rm=T),
airquality$ Ozone[i])
}

#（1）K-近鄰算法填補(bǔ)
# 基本思想：對于需要填補(bǔ)的觀測值个少，先利用歐氏距離找到其鄰近的K個(gè)觀測，再將這K個(gè)鄰近的值進(jìn)行加權(quán)平均進(jìn)行填補(bǔ)眯杏。
# 原始數(shù)據(jù)中存在多個(gè)缺失值夜焦，可以利用DMwR包中的knnImputation()函數(shù)進(jìn)行填補(bǔ)

dat1 <- knnImputation(airquality[,c(1:4)],meth = 'weighAvg',scale = T)

# 提取原始數(shù)據(jù)中的前4列進(jìn)行填補(bǔ)，meth = "weighAvg" 指使用加權(quán)平均的方法進(jìn)行填補(bǔ)役拴，scale = T指在選取鄰近值時(shí)糊探，先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。

aggr(dat1) #查看缺失值分布
#（2）隨機(jī)森林填補(bǔ)缺失值

#隨機(jī)森林填補(bǔ)，隨機(jī)森林是機(jī)器學(xué)習(xí)中一種常見的方法科平，以決策樹為基分類的器的集成學(xué)習(xí)模型褥紫。

# missForest包中missForest()函數(shù)可實(shí)現(xiàn)隨機(jī)森林填補(bǔ)，ntree代表模型中的樹的棵數(shù)瞪慧，一般情況下髓考，對于高維數(shù)據(jù)可選擇較小的值（如100），以達(dá)到快速插補(bǔ)的效果弃酌；對于大數(shù)據(jù)集進(jìn)行填補(bǔ)時(shí)氨菇，可能耗時(shí)比較多。

library(missForest)
dat2 <- missForest(airquality,ntree = 100)

# dat2中包含填補(bǔ)好的數(shù)據(jù)妓湘，可利用dat2$ximp查看填補(bǔ)后的值查蓉，

head(dat2$ximp)
aggr(dat2$ximp)
# 同時(shí)，OOBerror表示袋外填補(bǔ)缺失的誤差估計(jì)榜贴。

dat2$OOBerror
# 多重插補(bǔ)法
# 多重插補(bǔ)法是在一個(gè)缺失的數(shù)據(jù)集中生成一個(gè)完整的數(shù)據(jù)集豌研，并利用蒙特卡洛的方法進(jìn)行填補(bǔ)的一種重復(fù)模擬的方法。

# 包mice中的mice()函數(shù)可實(shí)現(xiàn)對缺失數(shù)據(jù)的多重插補(bǔ)唬党，原數(shù)據(jù)集中Ozone和Solar.R變量存在缺失,采用'rf'法插補(bǔ)鹃共。
dat3 <- mice(airquality,m=5,method = 'rf')
# 其中，m為生成完整數(shù)據(jù)集的個(gè)數(shù)驶拱，默認(rèn)為5. method為插補(bǔ)參數(shù)的方法霜浴，'norm.predict'、'pmm'蓝纲、'rf'阴孟、'norm'依次為回歸預(yù)測法、平均值插補(bǔ)法税迷、隨機(jī)森林法和高斯線性回歸法温眉。
summary(dat3)
# 通過以下代碼可查看填補(bǔ)的值
dat3$imp$Solar.R
# 最后選擇某一列（如1,2,3）填充到缺失數(shù)據(jù)集中即可形成完整的數(shù)據(jù)集.

關(guān)注R小鹽，關(guān)注科研私家菜(VX_GZH: SciPrivate)翁狐，有問題請聯(lián)系R小鹽类溢。讓我們一起來學(xué)習(xí) R語言機(jī)器學(xué)習(xí)與臨床預(yù)測模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市露懒，隨后出現(xiàn)的幾起案子闯冷，更是在濱河造成了極大的恐慌，老刑警劉巖懈词，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蛇耀，死亡現(xiàn)場離奇詭異，居然都是意外死亡坎弯，警方通過查閱死者的電腦和手機(jī)纺涤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門译暂，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人撩炊，你說我怎么就攤上這事外永。” “怎么了拧咳？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵伯顶，是天一觀的道長。經(jīng)常有香客問我骆膝，道長祭衩，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任阅签，我火速辦了婚禮掐暮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘政钟。我一直安慰自己劫乱，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布锥涕。她就那樣靜靜地躺著，像睡著了一般狭吼。火紅的嫁衣襯著肌膚如雪层坠。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天刁笙，我揣著相機(jī)與錄音破花，去河邊找鬼。笑死疲吸，一個(gè)胖子當(dāng)著我的面吹牛座每，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播摘悴，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼峭梳，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了蹂喻？” 一聲冷哼從身側(cè)響起葱椭，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎口四，沒想到半個(gè)月后孵运，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡蔓彩，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年治笨，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了驳概。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,795評論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡旷赖，死狀恐怖顺又，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情杠愧，我是刑警寧澤待榔，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站流济，受9級特大地震影響锐锣，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绳瘟，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一雕憔、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧糖声，春花似錦斤彼、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案琉苇，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至悦施，卻和暖如春并扇，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背抡诞。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工穷蛹，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人昼汗。一個(gè)月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓肴熏，卻偏偏與公主長得像，于是被迫代替她去往敵國和親顷窒。傳聞我的和親對象是個(gè)殘疾皇子蛙吏，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評論 2贊 354