這一張學習的是缺失值的統(tǒng)計刪除與填充掺涛。是咱們進行數(shù)據(jù)清洗必須要掌握的知識。
1. 缺失信息的統(tǒng)計
缺失數(shù)據(jù)可以使用 isna 或 isnull (兩個函數(shù)沒有區(qū)別)來查看每個單元格是否缺失岖是,結(jié)合 mean 可以計算出每列缺失值的比例。
如果想要查看某一列缺失或者非缺失的行畔咧,可以利用 Series 上的 isna 或者 notna 進行布爾索引某抓。例如,查看身高缺失的行:
2.缺失信息的刪除
數(shù)據(jù)處理中經(jīng)常需要根據(jù)缺失值的大小疮蹦、比例或其他特征來進行行樣本或列特征的刪除诸迟, pandas 中提供了 dropna 函數(shù)來進行操作。
3. 缺失值的填充
在 fillna 中有三個參數(shù)是常用的: value, method, limit 愕乎。其中阵苇, value 為填充值,可以是標量感论,也可以是索引到元素的字典映射绅项; method 為填充方法,有用前面的元素填充 ffill 和用后面的元素填充 bfill 兩種類型比肄, limit 參數(shù)表示連續(xù)缺失值的最大填充次數(shù)快耿。
練習
第一題不是太會
第二題:
2.1
2.2
這一小題也不是太會,照著答案敲了一遍芳绩。