缺失值的識別與處理

缺失值(missing data)是指單元格中應有而未能記錄的數(shù)據(jù)划址。

分為完全隨機缺失(missing completely at random)畸裳、隨機缺失(missing at random)和非隨機缺失(missing at non-random)空执。 ? ? P601 《醫(yī)學統(tǒng)計學》第四版

當缺失現(xiàn)象隨機發(fā)生只嚣,與其他變量或自身取值無關的時候叹侄,這類缺失為完全隨機缺失;當缺失現(xiàn)象隨機發(fā)生扒秸,但與其他無缺失變量的取值相關且與自身取值無關的時候播演,此類為隨機缺失;當缺失現(xiàn)象的發(fā)生與自身取值和其他變量的取值相關的時候伴奥,為非隨機缺失写烤。

P601 《醫(yī)學統(tǒng)計學》第四版

隨機缺失,例如老年人骨質(zhì)疏松的研究渔伯,會因為年紀大了不便行動,而造成缺失肄程;非隨機缺失锣吼,如對收入的研究,收入越高蓝厌,越不愿意填寫收入玄叠。


缺失值的處理

1.刪除缺失值存在的個體或變量


2.估計缺失值


3.建立啞變量


4.需要注意的問題

①首先考慮缺失值的類型,是否為隨機缺失拓提。若為大樣本隨機缺失读恃,推薦使用期望最大法,結合多重填補法更佳代态。

②若在分析中對缺失值進行了估計寺惫,建議分別用缺失值代替后的數(shù)據(jù)集與刪除缺失值后僅完整數(shù)據(jù)組成的數(shù)據(jù)集進行重復分析。尤其當樣本量較小蹦疑,數(shù)據(jù)缺失比例較大西雀,或數(shù)據(jù)缺失類型為非隨機缺失時,這個步驟尤其重要歉摧。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末艇肴,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子叁温,更是在濱河造成了極大的恐慌再悼,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,348評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膝但,死亡現(xiàn)場離奇詭異冲九,居然都是意外死亡,警方通過查閱死者的電腦和手機跟束,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評論 2 385
  • 文/潘曉璐 我一進店門娘侍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咖刃,“玉大人,你說我怎么就攤上這事憾筏『垦睿” “怎么了?”我有些...
    開封第一講書人閱讀 156,936評論 0 347
  • 文/不壞的土叔 我叫張陵氧腰,是天一觀的道長枫浙。 經(jīng)常有香客問我,道長古拴,這世上最難降的妖魔是什么箩帚? 我笑而不...
    開封第一講書人閱讀 56,427評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮黄痪,結果婚禮上紧帕,老公的妹妹穿的比我還像新娘。我一直安慰自己桅打,他們只是感情好是嗜,可當我...
    茶點故事閱讀 65,467評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著挺尾,像睡著了一般鹅搪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上遭铺,一...
    開封第一講書人閱讀 49,785評論 1 290
  • 那天丽柿,我揣著相機與錄音,去河邊找鬼魂挂。 笑死甫题,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的涂召。 我是一名探鬼主播幔睬,決...
    沈念sama閱讀 38,931評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼芹扭!你這毒婦竟也來了麻顶?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,696評論 0 266
  • 序言:老撾萬榮一對情侶失蹤舱卡,失蹤者是張志新(化名)和其女友劉穎辅肾,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體轮锥,經(jīng)...
    沈念sama閱讀 44,141評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡矫钓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,483評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片新娜。...
    茶點故事閱讀 38,625評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡赵辕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出概龄,到底是詐尸還是另有隱情还惠,我是刑警寧澤,帶...
    沈念sama閱讀 34,291評論 4 329
  • 正文 年R本政府宣布私杜,位于F島的核電站蚕键,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏衰粹。R本人自食惡果不足惜锣光,卻給世界環(huán)境...
    茶點故事閱讀 39,892評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望铝耻。 院中可真熱鬧誊爹,春花似錦、人聲如沸瓢捉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泊柬。三九已至椎镣,卻和暖如春诈火,著一層夾襖步出監(jiān)牢的瞬間兽赁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工冷守, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刀崖,地道東北人。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓拍摇,卻偏偏與公主長得像亮钦,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子充活,可洞房花燭夜當晚...
    茶點故事閱讀 43,492評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 缺失值簡介 造成數(shù)據(jù)缺失的原因 有些信息暫時無法獲取蜂莉。例如小越現(xiàn)在在看哪個小姐姐 有些信息是被遺漏的』炻眩可能是因為輸...
    1想得美閱讀 18,415評論 1 12
  • 現(xiàn)實世界中的數(shù)據(jù)異常雜亂映穗,屬性值缺失的情況經(jīng)常發(fā)生甚至是不可避免的。造成數(shù)據(jù)缺失的原因是多方面的幕随,數(shù)據(jù)值缺失是處理...
    董梓茗閱讀 2,656評論 0 0
  • 接著上一篇:《機器學習實戰(zhàn)-數(shù)據(jù)探索》介紹蚁滋,機器學習更多內(nèi)容可以關注github項目:machine learni...
    jacksu在簡書閱讀 8,875評論 6 16
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器辕录,智...
    卡卡羅2017閱讀 134,629評論 18 139
  • 機器學習是做NLP和計算機視覺這類應用算法的基礎睦霎,雖然現(xiàn)在深度學習模型大行其道,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡閱讀 20,488評論 4 65