數(shù)據(jù)缺失值處理 -- R

轉(zhuǎn)載https://blog.csdn.net/yyykkklll123/article/details/83867076


步驟:

1.識(shí)別缺失值

2.分析缺失的原因

3.查看缺失值情況

4.處理缺失值

識(shí)別

判斷缺失值:is.na()

識(shí)別矩陣或數(shù)據(jù)框中的完整觀測(cè):complete.cases()

any(is.na(data)):檢查是否存在缺失值

head(is.na(data $ col1),5):查看數(shù)據(jù)data中col1列前5個(gè)數(shù)據(jù)的缺失情況

sum(is.na(data $ col1)):計(jì)算col1列中的缺失值個(gè)數(shù)

sum(!is.na(data $ col1)):計(jì)算col1列中的非缺失值個(gè)數(shù)

mean(!complete.cases(data)):計(jì)算data中完整行的百分比

newdata=data[complete.cases(data),]:從data中提取出完整觀測(cè)

deldata=data[!complete.cases(data),]:從data中提取出非完整觀測(cè)

分析缺失的原因

MCAR:完全隨機(jī)缺失螟炫,即某變量缺失值與它所在變量其他觀測(cè)值無關(guān),與其他變量也無關(guān)。

MAR:隨機(jī)缺失砚殿,即某變量出現(xiàn)缺失與其他變量相關(guān)弧岳,與自身未觀測(cè)值不相關(guān)(大多數(shù)情況下處理的都是這種數(shù)據(jù))

MANR:非隨機(jī)缺失,即變量出現(xiàn)缺失與其觀測(cè)值有關(guān),需要用專門的方法重新收集數(shù)據(jù)堂鲤。

查看缺失值情況

1.列表顯示:

加載mice包(實(shí)現(xiàn)處理丟失數(shù)據(jù)方法的包)

md.pattern()函數(shù):md.pattern(x, plot = TRUE)

生成一個(gè)顯示缺失值模式(0,1)的表格咙咽,0表示列中有缺失值老玛,1表示沒有

2.圖形顯示:

加載VIM包(可視化缺失值、插補(bǔ)值)

aggr()函數(shù):繪制變量缺失值個(gè)數(shù)

aggr(x, delimiter = NULL, plot = TRUE, …)

處理缺失值

刪除法

1.行刪除(個(gè)案刪除)

適用:缺失數(shù)據(jù)較少,且分散

缺點(diǎn):造成數(shù)據(jù)浪費(fèi)逻炊,估計(jì)參數(shù)可能會(huì)有偏

data[complete.cases(data),]

2.成對(duì)刪除

優(yōu)點(diǎn):用到了 所以可獲取的信息互亮,在MCAR時(shí)可,參數(shù)估計(jì)無偏

缺點(diǎn):相關(guān)系數(shù)矩陣可能不正定余素,難以選擇用哪個(gè)樣本量計(jì)算標(biāo)準(zhǔn)誤豹休,用平均的可能造成低估

apply(data,2,mean,na.rm=T)

cor(data,use=‘pair’)

插補(bǔ)

1.用代表中心趨勢(shì)的值插補(bǔ)缺失

選擇中位數(shù)、平均數(shù)桨吊、眾數(shù)中哪一個(gè)由分布決定

近似正態(tài)分布:均值插補(bǔ)

偏態(tài)分布:中位數(shù)插補(bǔ)

例:使用內(nèi)置數(shù)據(jù)集實(shí)現(xiàn)均值插補(bǔ)

2.回歸插補(bǔ)

方法:對(duì)缺失變量和已觀測(cè)變量建立回歸方程威根,用缺失變量的預(yù)測(cè)值對(duì)缺失值進(jìn)行插補(bǔ)

例:

3.隨機(jī)回歸插補(bǔ)

在回歸預(yù)測(cè)值上增加隨機(jī)因素

(這種方法生成的插補(bǔ)值可能有負(fù)數(shù),這是由于加入隨機(jī)因素引起的)

4.多重插補(bǔ)

基于重復(fù)模擬插補(bǔ)缺失值

5.K臨近法

根據(jù)樣本觀測(cè)值之間的相關(guān)性视乐,利用歐氏距離尋找與缺失觀測(cè)最相似的k個(gè)樣本中的觀測(cè)洛搀,填補(bǔ)缺失值

DMwR包中knnInputation函數(shù)可以實(shí)現(xiàn)這種方法

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市佑淀,隨后出現(xiàn)的幾起案子留美,更是在濱河造成了極大的恐慌,老刑警劉巖伸刃,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谎砾,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡捧颅,警方通過查閱死者的電腦和手機(jī)景图,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碉哑,“玉大人挚币,你說我怎么就攤上這事】鄣洌” “怎么了妆毕?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)激捏。 經(jīng)常有香客問我设塔,道長(zhǎng),這世上最難降的妖魔是什么远舅? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任闰蛔,我火速辦了婚禮,結(jié)果婚禮上图柏,老公的妹妹穿的比我還像新娘序六。我一直安慰自己,他們只是感情好蚤吹,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布例诀。 她就那樣靜靜地躺著随抠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪繁涂。 梳的紋絲不亂的頭發(fā)上拱她,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音扔罪,去河邊找鬼秉沼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛矿酵,可吹牛的內(nèi)容都是我干的唬复。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼全肮,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼敞咧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起辜腺,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤休建,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后哪自,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體丰包,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年壤巷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞧毙。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡胧华,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出宙彪,到底是詐尸還是另有隱情矩动,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布释漆,位于F島的核電站悲没,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏男图。R本人自食惡果不足惜示姿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望逊笆。 院中可真熱鬧栈戳,春花似錦、人聲如沸难裆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至褂痰,卻和暖如春亩进,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背缩歪。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工归薛, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人驶冒。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓苟翻,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親骗污。 傳聞我的和親對(duì)象是個(gè)殘疾皇子崇猫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345