《利用Python進(jìn)行數(shù)據(jù)分析》-數(shù)據(jù)清洗工作

數(shù)據(jù)處理之前需要對數(shù)據(jù)進(jìn)行清理工作,包含:

  • 缺失值的去除drop
  • 缺失值的填充fillna
  • 刪除重復(fù)數(shù)據(jù)duplicated()drop_duplicates()
  • 數(shù)據(jù)轉(zhuǎn)換
  • 索引重命名
  • 數(shù)據(jù)離散化或面元化

缺失值的去除

pandas處理缺失值

  • pandas默認(rèn)的處理對象不包括缺失值
  • NaN表示缺失數(shù)據(jù);None值也可以作為NA
  • isnull()函數(shù)查看哪些數(shù)據(jù)是缺失值
  • dropna更實(shí)用,返回的是一個(gè)僅非空數(shù)據(jù)和索引值的S
image.png

string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

# 結(jié)果
0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

string_data[0] = None
string_data.isnull()

# 結(jié)果
0     True
1    False
2     True
3    False
dtype: bool

drop的使用

  • 對于S:返回的是非空數(shù)據(jù)個(gè)索引值的Series

  • 對于DF:默認(rèn)丟棄含有任何缺失值的行和列

    image.png

  • 處理Series

# 處理S
from numpy import nan as NA
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

# 上面等價(jià)于:本質(zhì)上是將notnull函數(shù)的布爾值結(jié)果作為索引
# 布爾索引
data[data.notnull()]
image.png
  • 處理DataFrame數(shù)據(jù)
# 處理DF數(shù)據(jù)
# 只要有缺失值,刪除整個(gè)行數(shù)據(jù)
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                     [NA, NA, NA], [NA, 6.5, 3.]])
cleaned_data = data.dropna()
cleaned_data
image.png

注意:原數(shù)據(jù)data不變

# 參數(shù)how="all":丟棄全部為NA的行
data.dropna(how="all")
image.png
image.png
image.png
# thresh=n:表示保留至少有n個(gè)不是NaN數(shù)據(jù)的行
df.dropna(thresh=3)
image.png

填充缺失值數(shù)據(jù)

  • 不想濾除空值放闺,想填充空值
  • fillna(n)函數(shù):表示將缺失值替換為n
  • fillna默認(rèn)返回新的對象,也可以原地修改,通過inplace=True
image.png

image.png
# 通過字典調(diào)用fillna壕探,實(shí)現(xiàn)對不同的列填充不同的數(shù)據(jù)
# key表示列屬性,value表示填充的數(shù)據(jù)
df.fillna({1: 0.5, 2: 0.25})
image.png
# 將原來的數(shù)據(jù)進(jìn)行修改
_ = df.fillna(0, inplace=True)
df
image.png
# fillna中傳入的參數(shù)是多樣的郊丛,reindexing中的方法也適用
df = pd.DataFrame(np.random.randn(6,3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df

# ffill填充的是上一個(gè)位置的元素
# 產(chǎn)生新的對象
df.fillna(method="ffill")
image.png
# limit表示最多填充的個(gè)數(shù)
df.fillna(method='ffill', limit=3)

# 填充數(shù)據(jù)的中位數(shù)或者說平均值
data = pd.Series([1., NA, 3.5, NA, 7])
data.fillna(data.mean())
image.png

刪除重復(fù)數(shù)據(jù)

  • duplicated():檢查是否有重復(fù)行(前面的行)李请,返回布爾型S數(shù)據(jù)
  • drop_duplicates():返回的是DF,重復(fù)的數(shù)據(jù)標(biāo)為False
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4],
                     'k3': [1, 5, 2, 6, 2, 5, 1]})
data
image.png
image.png
image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末厉熟,一起剝皮案震驚了整個(gè)濱河市导盅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌揍瑟,老刑警劉巖白翻,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異绢片,居然都是意外死亡滤馍,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門底循,熙熙樓的掌柜王于貴愁眉苦臉地迎上來巢株,“玉大人,你說我怎么就攤上這事熙涤「蟀” “怎么了?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵祠挫,是天一觀的道長猬错。 經(jīng)常有香客問我,道長茸歧,這世上最難降的妖魔是什么倦炒? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮软瞎,結(jié)果婚禮上逢唤,老公的妹妹穿的比我還像新娘拉讯。我一直安慰自己,他們只是感情好鳖藕,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布魔慷。 她就那樣靜靜地躺著,像睡著了一般著恩。 火紅的嫁衣襯著肌膚如雪院尔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天喉誊,我揣著相機(jī)與錄音邀摆,去河邊找鬼。 笑死伍茄,一個(gè)胖子當(dāng)著我的面吹牛栋盹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播敷矫,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼例获,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了曹仗?” 一聲冷哼從身側(cè)響起榨汤,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎怎茫,沒想到半個(gè)月后件余,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡遭居,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了旬渠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片俱萍。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖告丢,靈堂內(nèi)的尸體忽然破棺而出枪蘑,到底是詐尸還是另有隱情,我是刑警寧澤岖免,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布岳颇,位于F島的核電站,受9級特大地震影響颅湘,放射性物質(zhì)發(fā)生泄漏话侧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一闯参、第九天 我趴在偏房一處隱蔽的房頂上張望瞻鹏。 院中可真熱鬧悲立,春花似錦、人聲如沸新博。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赫悄。三九已至原献,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間埂淮,已是汗流浹背姑隅。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留同诫,地道東北人粤策。 一個(gè)月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像误窖,于是被迫代替她去往敵國和親叮盘。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容