數(shù)據(jù)缺失如何補(bǔ)亭病?

企業(yè)在做主數(shù)據(jù)或者依據(jù)數(shù)據(jù)創(chuàng)新前,都要先對(duì)數(shù)據(jù)質(zhì)量進(jìn)行診斷與治理嘶居,其中數(shù)據(jù)不完整性就是常見(jiàn)的一個(gè)問(wèn)題罪帖。在做數(shù)據(jù)剖析診斷后,缺失的數(shù)據(jù)如何補(bǔ)呢邮屁?

通常數(shù)據(jù)缺失值處理主要分成三個(gè)大類1.刪除整袁;2.補(bǔ)齊;3.忽略佑吝。

1.刪除含有缺失值的記錄

理論上講坐昙,主要有簡(jiǎn)單刪除法和權(quán)重法。簡(jiǎn)單刪除法是對(duì)缺失值進(jìn)行處理的最原始方法芋忿。它將存在缺失值的記錄刪除炸客,比如dataframe可以使用dropna方法來(lái)實(shí)現(xiàn)刪除缺失值。

2.插補(bǔ)缺失值?

它的思想來(lái)源是以最可能的值來(lái)插補(bǔ)缺失值比全部刪除不完全樣本所產(chǎn)生的信息丟失要少戈钢。在數(shù)據(jù)挖掘中痹仙,面對(duì)的通常是大型的數(shù)據(jù)庫(kù),它的屬性有幾十個(gè)甚至幾百個(gè)殉了,因?yàn)橐粋€(gè)屬性值的缺失而放棄大量的其他屬性值开仰,這種刪除是對(duì)信息的極大浪費(fèi),所以產(chǎn)生了以可能值對(duì)缺失值進(jìn)行插補(bǔ)的思想與方法。常用的有如下幾種方法众弓。

(1)均值插補(bǔ)恩溅。數(shù)據(jù)的屬性定性數(shù)據(jù)和定量數(shù)據(jù)。如果缺失值是定量的谓娃,就以該字段存在值的平均值來(lái)插補(bǔ)缺失的值脚乡;如果缺失值是定性的,就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理傻粘,用該屬性的眾數(shù)(即出現(xiàn)頻率最高的值)來(lái)補(bǔ)齊缺失的值每窖。

(2)利用同類均值插補(bǔ)。它用層次聚類模型預(yù)測(cè)缺失變量的類型弦悉,再以該類型的均值插補(bǔ)窒典。假設(shè)X=(X1,X2…Xp)為信息完全的變量,Y為存在缺失值的變量稽莉,那么首先對(duì)X或其子集行聚類瀑志,然后按缺失個(gè)案所屬類來(lái)插補(bǔ)不同類的均值。如果在以后統(tǒng)計(jì)分析中還需以引入的解釋變量和Y做分析污秆,那么這種插補(bǔ)方法將在模型中引入自相關(guān)劈猪,給分析造成障礙。

(3)極大似然估計(jì)(Max Likelihood ,ML)良拼。在缺失類型為隨機(jī)缺失的條件下战得,假設(shè)模型對(duì)于完整的樣本是正確的,那么通過(guò)觀測(cè)數(shù)據(jù)的邊際分布可以對(duì)未知參數(shù)進(jìn)行極大似然估計(jì)(Little and Rubin)庸推。這種方法也被稱為忽略缺失值的極大似然估計(jì)常侦,對(duì)于極大似然的參數(shù)估計(jì)實(shí)際中常采用的計(jì)算方法是期望值最大化(Expectation Maximization,EM)贬媒。使用前提:大樣本聋亡,并且有效樣本的數(shù)量足夠以保證ML估計(jì)值是漸近無(wú)偏的并服從正態(tài)分布。但是這種方法可能會(huì)陷入局部極值际乘,收斂速度也不是很快坡倔,并且計(jì)算很復(fù)雜。

3.不做處理

補(bǔ)齊處理只是將未知值補(bǔ)以我們的主觀估計(jì)值脖含,不一定完全符合客觀事實(shí)罪塔,在對(duì)不完備信息進(jìn)行補(bǔ)齊處理的同時(shí),我們或多或少地改變了原始的信息系統(tǒng)器赞。而且垢袱,對(duì)空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果港柜。因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息系統(tǒng)進(jìn)行處理夏醉。

華矩?cái)?shù)據(jù)診所爽锥,可幫助客戶對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化的診斷、剖析畔柔、修正氯夷。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市靶擦,隨后出現(xiàn)的幾起案子腮考,更是在濱河造成了極大的恐慌,老刑警劉巖玄捕,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件踩蔚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡枚粘,警方通過(guò)查閱死者的電腦和手機(jī)馅闽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)馍迄,“玉大人福也,你說(shuō)我怎么就攤上這事∨嗜Γ” “怎么了暴凑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)赘来。 經(jīng)常有香客問(wèn)我现喳,道長(zhǎng),這世上最難降的妖魔是什么撕捍? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任拿穴,我火速辦了婚禮,結(jié)果婚禮上忧风,老公的妹妹穿的比我還像新娘默色。我一直安慰自己,他們只是感情好狮腿,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布腿宰。 她就那樣靜靜地躺著,像睡著了一般缘厢。 火紅的嫁衣襯著肌膚如雪吃度。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天贴硫,我揣著相機(jī)與錄音椿每,去河邊找鬼伊者。 笑死,一個(gè)胖子當(dāng)著我的面吹牛间护,可吹牛的內(nèi)容都是我干的亦渗。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼汁尺,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼法精!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起痴突,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤搂蜓,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后辽装,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體帮碰,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年如迟,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了收毫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡殷勘,死狀恐怖此再,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情玲销,我是刑警寧澤输拇,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站贤斜,受9級(jí)特大地震影響策吠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瘩绒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一猴抹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧锁荔,春花似錦蟀给、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至恬总,卻和暖如春前普,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背壹堰。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工拭卿, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留骡湖,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓记劈,卻偏偏與公主長(zhǎng)得像勺鸦,于是被迫代替她去往敵國(guó)和親并巍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子目木,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 缺失值簡(jiǎn)介 造成數(shù)據(jù)缺失的原因 有些信息暫時(shí)無(wú)法獲取。例如小越現(xiàn)在在看哪個(gè)小姐姐 有些信息是被遺漏的懊渡」羯洌可能是因?yàn)檩?..
    1想得美閱讀 18,442評(píng)論 1 12
  • 一、缺失值產(chǎn)生的原因 缺失值的產(chǎn)生的原因多種多樣剃执,主要分為機(jī)械原因和人為原因誓禁。機(jī)械原因是由于機(jī)械原因?qū)е碌臄?shù)據(jù)收集...
    hello風(fēng)一樣的男子閱讀 1,368評(píng)論 0 1
  • 1. 刪除 主要有簡(jiǎn)單刪除法和權(quán)重法。簡(jiǎn)單刪除法是對(duì)缺失值進(jìn)行處理的最原始方法肾档。 (1) 簡(jiǎn)單刪除法 此方法將存在...
    ZhangShiWen閱讀 1,630評(píng)論 0 2
  • 一摹恰、認(rèn)識(shí)缺失值 在我們的數(shù)據(jù)分析過(guò)程中,經(jīng)常會(huì)碰到缺失值的情況怒见。缺失值產(chǎn)生的原因很多俗慈,比如人工輸入失誤,系統(tǒng)出錯(cuò)遣耍,...
    鳴人吃土豆閱讀 6,083評(píng)論 0 11
  • 久違的晴天闺阱,家長(zhǎng)會(huì)。 家長(zhǎng)大會(huì)開(kāi)好到教室時(shí)舵变,離放學(xué)已經(jīng)沒(méi)多少時(shí)間了酣溃。班主任說(shuō)已經(jīng)安排了三個(gè)家長(zhǎng)分享經(jīng)驗(yàn)。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,523評(píng)論 16 22