企業(yè)在做主數(shù)據(jù)或者依據(jù)數(shù)據(jù)創(chuàng)新前,都要先對(duì)數(shù)據(jù)質(zhì)量進(jìn)行診斷與治理嘶居,其中數(shù)據(jù)不完整性就是常見(jiàn)的一個(gè)問(wèn)題罪帖。在做數(shù)據(jù)剖析診斷后,缺失的數(shù)據(jù)如何補(bǔ)呢邮屁?
通常數(shù)據(jù)缺失值處理主要分成三個(gè)大類1.刪除整袁;2.補(bǔ)齊;3.忽略佑吝。
1.刪除含有缺失值的記錄
理論上講坐昙,主要有簡(jiǎn)單刪除法和權(quán)重法。簡(jiǎn)單刪除法是對(duì)缺失值進(jìn)行處理的最原始方法芋忿。它將存在缺失值的記錄刪除炸客,比如dataframe可以使用dropna方法來(lái)實(shí)現(xiàn)刪除缺失值。
2.插補(bǔ)缺失值?
它的思想來(lái)源是以最可能的值來(lái)插補(bǔ)缺失值比全部刪除不完全樣本所產(chǎn)生的信息丟失要少戈钢。在數(shù)據(jù)挖掘中痹仙,面對(duì)的通常是大型的數(shù)據(jù)庫(kù),它的屬性有幾十個(gè)甚至幾百個(gè)殉了,因?yàn)橐粋€(gè)屬性值的缺失而放棄大量的其他屬性值开仰,這種刪除是對(duì)信息的極大浪費(fèi),所以產(chǎn)生了以可能值對(duì)缺失值進(jìn)行插補(bǔ)的思想與方法。常用的有如下幾種方法众弓。
(1)均值插補(bǔ)恩溅。數(shù)據(jù)的屬性定性數(shù)據(jù)和定量數(shù)據(jù)。如果缺失值是定量的谓娃,就以該字段存在值的平均值來(lái)插補(bǔ)缺失的值脚乡;如果缺失值是定性的,就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理傻粘,用該屬性的眾數(shù)(即出現(xiàn)頻率最高的值)來(lái)補(bǔ)齊缺失的值每窖。
(2)利用同類均值插補(bǔ)。它用層次聚類模型預(yù)測(cè)缺失變量的類型弦悉,再以該類型的均值插補(bǔ)窒典。假設(shè)X=(X1,X2…Xp)為信息完全的變量,Y為存在缺失值的變量稽莉,那么首先對(duì)X或其子集行聚類瀑志,然后按缺失個(gè)案所屬類來(lái)插補(bǔ)不同類的均值。如果在以后統(tǒng)計(jì)分析中還需以引入的解釋變量和Y做分析污秆,那么這種插補(bǔ)方法將在模型中引入自相關(guān)劈猪,給分析造成障礙。
(3)極大似然估計(jì)(Max Likelihood ,ML)良拼。在缺失類型為隨機(jī)缺失的條件下战得,假設(shè)模型對(duì)于完整的樣本是正確的,那么通過(guò)觀測(cè)數(shù)據(jù)的邊際分布可以對(duì)未知參數(shù)進(jìn)行極大似然估計(jì)(Little and Rubin)庸推。這種方法也被稱為忽略缺失值的極大似然估計(jì)常侦,對(duì)于極大似然的參數(shù)估計(jì)實(shí)際中常采用的計(jì)算方法是期望值最大化(Expectation Maximization,EM)贬媒。使用前提:大樣本聋亡,并且有效樣本的數(shù)量足夠以保證ML估計(jì)值是漸近無(wú)偏的并服從正態(tài)分布。但是這種方法可能會(huì)陷入局部極值际乘,收斂速度也不是很快坡倔,并且計(jì)算很復(fù)雜。
3.不做處理
補(bǔ)齊處理只是將未知值補(bǔ)以我們的主觀估計(jì)值脖含,不一定完全符合客觀事實(shí)罪塔,在對(duì)不完備信息進(jìn)行補(bǔ)齊處理的同時(shí),我們或多或少地改變了原始的信息系統(tǒng)器赞。而且垢袱,對(duì)空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果港柜。因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息系統(tǒng)進(jìn)行處理夏醉。
華矩?cái)?shù)據(jù)診所爽锥,可幫助客戶對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化的診斷、剖析畔柔、修正氯夷。