現(xiàn)實世界中的數(shù)據(jù)異常雜亂,屬性值缺失的情況經(jīng)常發(fā)生甚至是不可避免的字柠。造成數(shù)據(jù)缺失的原因是多方面的孽鸡,數(shù)據(jù)值缺失是處理數(shù)據(jù)過程中經(jīng)常會遇到的問題之一。缺失值比例很小時盈魁,可直接對缺失記錄進(jìn)行舍棄或手工處理翔怎,然而,在大多數(shù)實際情況下,缺失值的比重往往很大赤套,手工處理就顯得非常低效飘痛,舍棄也會造成大量信息丟失,使不完全觀測數(shù)據(jù)與完全觀測數(shù)據(jù)間產(chǎn)生系統(tǒng)差異容握,對分析結(jié)論的準(zhǔn)確性影響較大宣脉。
缺失數(shù)據(jù)原因
1.信息暫時無法獲取
2.信息是被遺漏的
3.某個或某些屬性是不可用的
4.某些信息(被認(rèn)為)是不重要的
5.獲取這些信息的代價太大
6.系統(tǒng)實時性能要求較高,即要求得到這些信息前迅速做出判斷或決策
缺失的類型
在對缺失數(shù)據(jù)進(jìn)行處理前剔氏,了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的塑猖。數(shù)據(jù)集中不含缺失值的變量稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量谈跛。從缺失的分布來看缺失可以分為完全隨機(jī)缺失羊苟,隨機(jī)缺失和完全非隨機(jī)缺失。
完全隨機(jī)缺失(missing completely at random,MCAR):所缺失的數(shù)據(jù)發(fā)生的概率既與已觀察到的數(shù)據(jù)無關(guān),也與未觀察到的數(shù)據(jù)無關(guān)感憾。
隨機(jī)缺失(missing at random,MAR):假設(shè)缺失數(shù)據(jù)發(fā)生的概率與所觀察到的變量是有關(guān)的,而與未觀察到的數(shù)據(jù)的特征是無關(guān)的
MCAR與MAR均被稱為是可忽略的缺失形式蜡励。
非隨機(jī)缺失(missing not at random,MNAR):不可忽略的缺失(non–ignorable missing ,NIM),如果不完全變量中數(shù)據(jù)的缺失既依賴于完全變量(觀察到的數(shù)據(jù))又依賴于不完全變量本身,這種缺失即為不可忽略的缺失阻桅。
對于隨機(jī)缺失和非隨機(jī)缺失,刪除記錄是不合適的,隨機(jī)缺失可以通過已知變量對缺失值進(jìn)行估計凉倚;而非隨機(jī)缺失還沒有很好的解決辦法。
缺失值處理方法的分析與比較
處理不完整數(shù)據(jù)集的方法主要有以下:刪除存在缺失值的記錄鳍刷、可能值插補(bǔ)缺失值占遥、保留缺失數(shù)據(jù)不予處理俯抖、特殊值填充(如“unknown填充”输瓜,不推薦)。
關(guān)于可能值插補(bǔ)缺失值
單一插補(bǔ):
是以估算為基礎(chǔ)的方法芬萍,是在缺失數(shù)據(jù)被替代后尤揣,對新合成的數(shù)據(jù)進(jìn)行相應(yīng)的統(tǒng)計分析。
1柬祠、均值插補(bǔ):
a.缺失值是數(shù)值型的:平均值來填充該缺失的變量值
b.缺失值是非數(shù)值型的北戏,眾數(shù)來補(bǔ)齊該缺失的變量值。
均值替換法也是一種簡便漫蛔、快速的缺失數(shù)據(jù)處理方法嗜愈。使用均值替換法插補(bǔ)缺失數(shù)據(jù),對該變量的均值估計不會產(chǎn)生影響莽龟。但這種方法是建立在完全隨機(jī)缺失(MCAR)的假設(shè)之上蠕嫁,且會造成變量的方差和標(biāo)準(zhǔn)差變小。
2毯盈、熱卡填充法:
a.在數(shù)據(jù)庫中找到一個與最之相似的對象剃毒,然后用這個相似對象的值來進(jìn)行填充。
b.不同的問題可能會選用不同的標(biāo)準(zhǔn)來對相似進(jìn)行判定。
c.變量Y與變量X相似赘阀,把所有個案按Y的取值大小進(jìn)行排序益缠。那么變量X的缺失值就可以用排在缺失值前的那個個案的數(shù)據(jù)來代替。
與均值替換法相比基公,利用熱卡填充法插補(bǔ)數(shù)據(jù)后幅慌,其變量的標(biāo)準(zhǔn)差與插補(bǔ)前比較接近。但在回歸方程中酌媒,使用熱卡填充法容易使得回歸方程的誤差增大欠痴,參數(shù)估計變得不穩(wěn)定,且這種方法使用不便秒咨,較耗時喇辽。
3、回歸插補(bǔ):
a.回歸插補(bǔ)首先要選擇若干個預(yù)測缺失值的自變量雨席,然后建立回歸方程估計缺失值菩咨,即用缺失數(shù)據(jù)的條件期望值對缺失值進(jìn)行替換。
該方法亦有諸多問題:
一陡厘、容易忽視隨機(jī)誤差抽米,低估標(biāo)準(zhǔn)差和其他未知性質(zhì)的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴(yán)重糙置。
二云茸、研究者必須假設(shè)存在缺失值所在的變量與其他變量存在線性關(guān)系,很多時候這種關(guān)系是不存在的谤饭。
4标捺、隨機(jī)回歸插補(bǔ):
a.在回歸插補(bǔ)值的基礎(chǔ)上再加上殘差項。
b.殘差項的分布可以包括正態(tài)分布揉抵,也可以是其他的非正態(tài)分布亡容。
單一插補(bǔ)的缺點:無論采用何種方法,都存在扭曲樣本分布的問題(如均值插補(bǔ)會降低變量之間的相關(guān)關(guān)系冤今,回歸插補(bǔ)會人為地加大變量之間的相關(guān)關(guān)系)闺兢,盡管由于隨機(jī)回歸插補(bǔ)引入隨機(jī)誤差項,能夠緩解這一問題戏罢,但是隨機(jī)誤差項的確定是比較困難的屋谭。
多重插補(bǔ):
多重插補(bǔ)建立在貝葉斯理論基礎(chǔ)之上,基于EM算法(最大期望算法)來實現(xiàn)對缺失數(shù)據(jù)的處理龟糕。
a.為每個空值產(chǎn)生一套可能的插補(bǔ)值桐磁,這些值反映了無響應(yīng)模型的不確定性;每個值都可以被用來插補(bǔ)數(shù)據(jù)集中的缺失值翩蘸,產(chǎn)生若干個完整數(shù)據(jù)集合所意。
b.每個插補(bǔ)數(shù)據(jù)集合都用針對完整數(shù)據(jù)集的統(tǒng)計方法進(jìn)行統(tǒng)計分析。
c.對來自各個插補(bǔ)數(shù)據(jù)集的結(jié)果,根據(jù)評分函數(shù)進(jìn)行選擇扶踊,產(chǎn)生最終的插補(bǔ)值泄鹏。
多重插補(bǔ)的優(yōu)點:
1、多重插補(bǔ)過程產(chǎn)生多個中間插補(bǔ)值秧耗,可以利用插補(bǔ)值之間的變異反映無回答的不確定性备籽,包括無回答原因已知情況下抽樣的變異性和無回答原因不確定造成的變異性。
2分井、多重插補(bǔ)通過模擬缺失數(shù)據(jù)的分布车猬,較好地保持變量之間的關(guān)系。
3尺锚、多值插補(bǔ)能給出衡量估計結(jié)果不確定性的大量信息珠闰,單一插補(bǔ)給出的估計結(jié)果則較為簡單。