數(shù)據(jù)清洗的步驟和方法

數(shù)據(jù)清洗主要是把有用的數(shù)據(jù)留下挖藏,無用的數(shù)據(jù)刪掉议惰。

1.去除重復的數(shù)據(jù)

Pandas庫:duplicated():找到重復數(shù)據(jù)揽咕,重復的數(shù)據(jù)方法返回false意狠。

? ? ? ? ? ? ? ? drop_duplicates(): 找到重復數(shù)據(jù)粟关,刪除掉重復數(shù)據(jù)。

舉例說明:df.duplicated(“name”); 找到name行中的重復數(shù)據(jù)环戈,并且標記為false闷板。

? ? ? ? ? ? df.drop_duplicates(‘age’);結果處理為 刪除掉age列中的重復數(shù)據(jù)。

2.對于缺少數(shù)據(jù)的處理

1)先要找到缺少的數(shù)據(jù)

from pandas import DataFrame

df.isnull(): 判斷數(shù)據(jù)是否為空值院塞。

df.notnull(): 判斷數(shù)據(jù)是否不為空值遮晚。

2)找到缺失值后要如何處理

你可以選擇刪除:df.dropna()

? ? ? ? ? ? ? ? ? ? ? ? 標記當行里數(shù)據(jù)全部為空時,才選擇刪除:df.dropna(how=‘all’)

? ? ? ? ? ? ? ? ? ? ? ? 當以列為單位刪除時: df.dropna(how=‘all’,axis=1)

你可以選擇用其他數(shù)值進行填補:

? ? ? ? ? ? ? ? ? ? ? ? 用問號填補空白數(shù)據(jù):df.fillna(‘?’)?

? ? ? ? ? ? ? ? ? ? ? ? 用同一列上的前一個數(shù)據(jù)來填補:df.fillna(method = 'pad')

? ? ? ? ? ? ? ? ? ? ? ? 用同一列上的后一個數(shù)據(jù)來填補:df.fillna(method = 'bfill')

? ? ? ? ? ? ? ? ? ? ? ? 問題:如何用limit限制每列可以替代NAN的數(shù)目。

你可以選擇用統(tǒng)計性數(shù)值的數(shù)據(jù)來替代:

? ? ? ? ? ? ? ? ? ? ? ? 用列上除控制之外的平均數(shù)來替代:df.fillna(df.mean()) (個數(shù)不包括空值)

? ? ? ? ? ? ? ? ? ? ? ? 用其他的列的統(tǒng)計數(shù)據(jù)來替代:df.fillna(df.mean()['高代':'解幾'])(用解幾列的平均值來替代高代列上的空值)

你可以選擇指定數(shù)據(jù)來填補:

? ? ? ? ? ? ? ? ? ? ? ? df.fillna({‘數(shù)分':100,'高代':0}) (意思是:數(shù)分列上的空值填補為100,高代列上填補的空值為0)

你需要清除字符型數(shù)據(jù)左右首尾的字符rstrip():

????????????????????????df['name'].str.rstrip('n') ? //刪除最右邊的字符窍霞。如果是n,則刪除n;否則葡秒,就刪除最右邊字符就OK。

????????????????????????

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末来候,一起剝皮案震驚了整個濱河市控淡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌忌警,老刑警劉巖搁拙,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異法绵,居然都是意外死亡箕速,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門朋譬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盐茎,“玉大人,你說我怎么就攤上這事徙赢∽帜” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵狡赐,是天一觀的道長窑业。 經常有香客問我,道長枕屉,這世上最難降的妖魔是什么常柄? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上西潘,老公的妹妹穿的比我還像新娘卷玉。我一直安慰自己,他們只是感情好秸架,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布揍庄。 她就那樣靜靜地躺著,像睡著了一般东抹。 火紅的嫁衣襯著肌膚如雪蚂子。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天缭黔,我揣著相機與錄音食茎,去河邊找鬼。 笑死馏谨,一個胖子當著我的面吹牛别渔,可吹牛的內容都是我干的。 我是一名探鬼主播惧互,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼哎媚,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了喊儡?” 一聲冷哼從身側響起拨与,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎艾猜,沒想到半個月后买喧,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡匆赃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年淤毛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片算柳。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡低淡,死狀恐怖,靈堂內的尸體忽然破棺而出埠居,到底是詐尸還是另有隱情查牌,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布滥壕,位于F島的核電站纸颜,受9級特大地震影響,放射性物質發(fā)生泄漏绎橘。R本人自食惡果不足惜胁孙,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一唠倦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧涮较,春花似錦稠鼻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至闺属,卻和暖如春慌盯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背掂器。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工亚皂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人国瓮。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓灭必,卻偏偏與公主長得像,于是被迫代替她去往敵國和親乃摹。 傳聞我的和親對象是個殘疾皇子禁漓,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內容