缺而不失——pandas中常見缺失值處理方法

缺失值的處理是一件藝術(shù)活,最高的境界應(yīng)該是缺而不失籽懦。pandas中提供了非常豐富的工具來對缺失值進(jìn)行處理霜定。這里主要是對常用方法的簡要介紹。

注:不同地區(qū)和軟件對缺失值的表示方法不同戏自,在用pandas讀取文件時(shí)可指定缺失值的形式給參數(shù)na_values,如:

  missing_values = ['n/a', 'na', '--'] 
  df = pd.read_csv('文件名‘, na_values = missing_values)

缺失值處理常用策略:

  1. 對有缺失值的行和列簡單的刪除伤锚;
  2. 對缺失值進(jìn)行計(jì)算擅笔,如用變量的平均值或眾數(shù)進(jìn)行填充;
  3. 在缺失值周圍建立模型屯援,然后用模型提供的值進(jìn)行填充猛们。

一、缺失值的刪除

1.數(shù)據(jù)集中缺失值的統(tǒng)計(jì)

2.檢查某列是否有缺失值

3.刪除某列中有缺失值的行

4.刪除有缺失值的行


如果需要某行全部是缺失值才刪除時(shí)狞洋,可以添加參數(shù)how = 'all', axis = 0

二弯淘、缺失值的計(jì)算

通常比較常用的填充缺失值的方法有計(jì)算變量的平均值、中位數(shù)和眾數(shù)吉懊,更高級(jí)一點(diǎn)的是用K-NN和bayesian統(tǒng)計(jì)等算法來計(jì)算(R中比較出名的計(jì)算缺失值的包Amelia就是用bootstrap+EM算法求解)庐橙。不管哪種方法都應(yīng)注意計(jì)算帶來的bias。


中位數(shù)填充將mean()換成median()借嗽,眾數(shù)將其換成mode()[0]态鳖, 如果是多列的話,可以用lambda函數(shù)恶导,

fill_na = lambda col:col.fillna(col.mode()[0])
df.apply(fill_na, axis = 0)

三浆竭、 分類變量的熱編碼

對于分類變量的處理主要是采用熱編碼的方式,在其中可以指定缺失值是否去除


保留分類變量中的缺失值惨寿,將其單獨(dú)作為一列邦泄, 加dummy_na = True


對數(shù)據(jù)集中每一個(gè)分類變量進(jìn)行熱編碼,然后去除原來的變量:

def create_dummy_df(df, cols, dummy_na):
    for col in cols:
      df = pd.concat([df.drop(col, axis = 1), pd.get_dummies(df[col], dummy_na = dummy_na, axis = 1)
    return df
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末缤沦,一起剝皮案震驚了整個(gè)濱河市虎韵,隨后出現(xiàn)的幾起案子易稠,更是在濱河造成了極大的恐慌缸废,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件驶社,死亡現(xiàn)場離奇詭異企量,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)亡电,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進(jìn)店門届巩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人份乒,你說我怎么就攤上這事恕汇⊥筮螅” “怎么了?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵瘾英,是天一觀的道長枣接。 經(jīng)常有香客問我,道長缺谴,這世上最難降的妖魔是什么但惶? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮湿蛔,結(jié)果婚禮上膀曾,老公的妹妹穿的比我還像新娘。我一直安慰自己阳啥,他們只是感情好添谊,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著察迟,像睡著了一般碉钠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上卷拘,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天喊废,我揣著相機(jī)與錄音,去河邊找鬼栗弟。 笑死污筷,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的乍赫。 我是一名探鬼主播瓣蛀,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼雷厂!你這毒婦竟也來了惋增?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤改鲫,失蹤者是張志新(化名)和其女友劉穎诈皿,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體像棘,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡稽亏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缕题。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片截歉。...
    茶點(diǎn)故事閱讀 40,872評論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖烟零,靈堂內(nèi)的尸體忽然破棺而出瘪松,到底是詐尸還是另有隱情咸作,我是刑警寧澤,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布宵睦,位于F島的核電站性宏,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏状飞。R本人自食惡果不足惜毫胜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望诬辈。 院中可真熱鬧酵使,春花似錦、人聲如沸焙糟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽穿撮。三九已至缺脉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間悦穿,已是汗流浹背攻礼。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留栗柒,地道東北人礁扮。 一個(gè)月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像瞬沦,于是被迫代替她去往敵國和親太伊。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容