關(guān)于缺失值的二三事

現(xiàn)實世界中的數(shù)據(jù)異常雜亂,屬性值缺失的情況經(jīng)常發(fā)生甚至是不可避免的字柠。造成數(shù)據(jù)缺失的原因是多方面的孽鸡,數(shù)據(jù)值缺失是處理數(shù)據(jù)過程中經(jīng)常會遇到的問題之一。缺失值比例很小時盈魁,可直接對缺失記錄進(jìn)行舍棄或手工處理翔怎,然而,在大多數(shù)實際情況下,缺失值的比重往往很大赤套,手工處理就顯得非常低效飘痛,舍棄也會造成大量信息丟失,使不完全觀測數(shù)據(jù)與完全觀測數(shù)據(jù)間產(chǎn)生系統(tǒng)差異容握,對分析結(jié)論的準(zhǔn)確性影響較大宣脉。

缺失數(shù)據(jù)原因

1.信息暫時無法獲取

2.信息是被遺漏的

3.某個或某些屬性是不可用的

4.某些信息(被認(rèn)為)是不重要的

5.獲取這些信息的代價太大

6.系統(tǒng)實時性能要求較高,即要求得到這些信息前迅速做出判斷或決策

缺失的類型

在對缺失數(shù)據(jù)進(jìn)行處理前剔氏,了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的塑猖。數(shù)據(jù)集中不含缺失值的變量稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量谈跛。從缺失的分布來看缺失可以分為完全隨機(jī)缺失羊苟,隨機(jī)缺失和完全非隨機(jī)缺失。

完全隨機(jī)缺失(missing completely at random,MCAR):所缺失的數(shù)據(jù)發(fā)生的概率既與已觀察到的數(shù)據(jù)無關(guān),也與未觀察到的數(shù)據(jù)無關(guān)感憾。

隨機(jī)缺失(missing at random,MAR):假設(shè)缺失數(shù)據(jù)發(fā)生的概率與所觀察到的變量是有關(guān)的,而與未觀察到的數(shù)據(jù)的特征是無關(guān)的

MCAR與MAR均被稱為是可忽略的缺失形式蜡励。

非隨機(jī)缺失(missing not at random,MNAR):不可忽略的缺失(non–ignorable missing ,NIM),如果不完全變量中數(shù)據(jù)的缺失既依賴于完全變量(觀察到的數(shù)據(jù))又依賴于不完全變量本身,這種缺失即為不可忽略的缺失阻桅。

對于隨機(jī)缺失和非隨機(jī)缺失,刪除記錄是不合適的,隨機(jī)缺失可以通過已知變量對缺失值進(jìn)行估計凉倚;而非隨機(jī)缺失還沒有很好的解決辦法。

缺失值處理方法的分析與比較

處理不完整數(shù)據(jù)集的方法主要有以下:刪除存在缺失值的記錄鳍刷、可能值插補(bǔ)缺失值占遥、保留缺失數(shù)據(jù)不予處理俯抖、特殊值填充(如“unknown填充”输瓜,不推薦)。

關(guān)于可能值插補(bǔ)缺失值

單一插補(bǔ):

是以估算為基礎(chǔ)的方法芬萍,是在缺失數(shù)據(jù)被替代后尤揣,對新合成的數(shù)據(jù)進(jìn)行相應(yīng)的統(tǒng)計分析。

1柬祠、均值插補(bǔ):

a.缺失值是數(shù)值型的:平均值來填充該缺失的變量值

b.缺失值是非數(shù)值型的北戏,眾數(shù)來補(bǔ)齊該缺失的變量值。

均值替換法也是一種簡便漫蛔、快速的缺失數(shù)據(jù)處理方法嗜愈。使用均值替換法插補(bǔ)缺失數(shù)據(jù),對該變量的均值估計不會產(chǎn)生影響莽龟。但這種方法是建立在完全隨機(jī)缺失(MCAR)的假設(shè)之上蠕嫁,且會造成變量的方差和標(biāo)準(zhǔn)差變小。

2毯盈、熱卡填充法:

a.在數(shù)據(jù)庫中找到一個與最之相似的對象剃毒,然后用這個相似對象的值來進(jìn)行填充。

b.不同的問題可能會選用不同的標(biāo)準(zhǔn)來對相似進(jìn)行判定。

c.變量Y與變量X相似赘阀,把所有個案按Y的取值大小進(jìn)行排序益缠。那么變量X的缺失值就可以用排在缺失值前的那個個案的數(shù)據(jù)來代替。

與均值替換法相比基公,利用熱卡填充法插補(bǔ)數(shù)據(jù)后幅慌,其變量的標(biāo)準(zhǔn)差與插補(bǔ)前比較接近。但在回歸方程中酌媒,使用熱卡填充法容易使得回歸方程的誤差增大欠痴,參數(shù)估計變得不穩(wěn)定,且這種方法使用不便秒咨,較耗時喇辽。

3、回歸插補(bǔ):

a.回歸插補(bǔ)首先要選擇若干個預(yù)測缺失值的自變量雨席,然后建立回歸方程估計缺失值菩咨,即用缺失數(shù)據(jù)的條件期望值對缺失值進(jìn)行替換。

該方法亦有諸多問題:

一陡厘、容易忽視隨機(jī)誤差抽米,低估標(biāo)準(zhǔn)差和其他未知性質(zhì)的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴(yán)重糙置。

二云茸、研究者必須假設(shè)存在缺失值所在的變量與其他變量存在線性關(guān)系,很多時候這種關(guān)系是不存在的谤饭。

4标捺、隨機(jī)回歸插補(bǔ):

a.在回歸插補(bǔ)值的基礎(chǔ)上再加上殘差項。

b.殘差項的分布可以包括正態(tài)分布揉抵,也可以是其他的非正態(tài)分布亡容。

單一插補(bǔ)的缺點:無論采用何種方法,都存在扭曲樣本分布的問題(如均值插補(bǔ)會降低變量之間的相關(guān)關(guān)系冤今,回歸插補(bǔ)會人為地加大變量之間的相關(guān)關(guān)系)闺兢,盡管由于隨機(jī)回歸插補(bǔ)引入隨機(jī)誤差項,能夠緩解這一問題戏罢,但是隨機(jī)誤差項的確定是比較困難的屋谭。

多重插補(bǔ):

多重插補(bǔ)建立在貝葉斯理論基礎(chǔ)之上,基于EM算法(最大期望算法)來實現(xiàn)對缺失數(shù)據(jù)的處理龟糕。

a.為每個空值產(chǎn)生一套可能的插補(bǔ)值桐磁,這些值反映了無響應(yīng)模型的不確定性;每個值都可以被用來插補(bǔ)數(shù)據(jù)集中的缺失值翩蘸,產(chǎn)生若干個完整數(shù)據(jù)集合所意。

b.每個插補(bǔ)數(shù)據(jù)集合都用針對完整數(shù)據(jù)集的統(tǒng)計方法進(jìn)行統(tǒng)計分析。

c.對來自各個插補(bǔ)數(shù)據(jù)集的結(jié)果,根據(jù)評分函數(shù)進(jìn)行選擇扶踊,產(chǎn)生最終的插補(bǔ)值泄鹏。

多重插補(bǔ)的優(yōu)點:

1、多重插補(bǔ)過程產(chǎn)生多個中間插補(bǔ)值秧耗,可以利用插補(bǔ)值之間的變異反映無回答的不確定性备籽,包括無回答原因已知情況下抽樣的變異性和無回答原因不確定造成的變異性。

2分井、多重插補(bǔ)通過模擬缺失數(shù)據(jù)的分布车猬,較好地保持變量之間的關(guān)系。

3尺锚、多值插補(bǔ)能給出衡量估計結(jié)果不確定性的大量信息珠闰,單一插補(bǔ)給出的估計結(jié)果則較為簡單。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瘫辩,一起剝皮案震驚了整個濱河市伏嗜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伐厌,老刑警劉巖承绸,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異挣轨,居然都是意外死亡军熏,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進(jìn)店門卷扮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來荡澎,“玉大人,你說我怎么就攤上這事画饥∠挝停” “怎么了浊猾?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵抖甘,是天一觀的道長。 經(jīng)常有香客問我葫慎,道長衔彻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任偷办,我火速辦了婚禮艰额,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘椒涯。我一直安慰自己柄沮,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著祖搓,像睡著了一般狱意。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上拯欧,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天详囤,我揣著相機(jī)與錄音,去河邊找鬼镐作。 笑死藏姐,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的该贾。 我是一名探鬼主播羔杨,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼杨蛋!你這毒婦竟也來了问畅?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤六荒,失蹤者是張志新(化名)和其女友劉穎护姆,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體掏击,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡卵皂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了砚亭。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灯变。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖捅膘,靈堂內(nèi)的尸體忽然破棺而出添祸,到底是詐尸還是另有隱情,我是刑警寧澤寻仗,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布刃泌,位于F島的核電站,受9級特大地震影響署尤,放射性物質(zhì)發(fā)生泄漏耙替。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一曹体、第九天 我趴在偏房一處隱蔽的房頂上張望俗扇。 院中可真熱鬧,春花似錦箕别、人聲如沸铜幽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽除抛。三九已至爹凹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間镶殷,已是汗流浹背禾酱。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留绘趋,地道東北人颤陶。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像陷遮,于是被迫代替她去往敵國和親滓走。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 缺失值簡介 造成數(shù)據(jù)缺失的原因 有些信息暫時無法獲取帽馋。例如小越現(xiàn)在在看哪個小姐姐 有些信息是被遺漏的搅方。可能是因為輸...
    1想得美閱讀 18,415評論 1 12
  • {因為文章好绽族,所以轉(zhuǎn)載R涛小!}R語言缺失值處理 2016-08-23 05:17砍柴問樵夫 數(shù)據(jù)缺失有多種原因吧慢,而大...
    夢醒啟程閱讀 19,491評論 2 11
  • 想寫這個系列很久了涛漂,最近剛好項目結(jié)束了閑下來有點時間,于是決定把之前學(xué)過的東西做個總結(jié)检诗。之前看過一些機(jī)器學(xué)習(xí)方面的...
    huihui7987閱讀 1,149評論 0 0
  • 接著上一篇:《機(jī)器學(xué)習(xí)實戰(zhàn)-數(shù)據(jù)探索》介紹匈仗,機(jī)器學(xué)習(xí)更多內(nèi)容可以關(guān)注github項目:machine learni...
    jacksu在簡書閱讀 8,875評論 6 16
  • 幾天前看了書而已悠轩,作者把一切感覺都用看得見摸得著的東西解釋出來,讓人腦子里立馬有畫面感攻泼。在說大道理的時候火架,總是隨...
    人間顏色如塵土閱讀 575評論 1 3