利用pandas.DataFrame.replace優(yōu)雅的進(jìn)行ETL特殊值替換

做數(shù)據(jù)處理工作時(shí)讶隐,免不了對(duì)數(shù)據(jù)中的 特殊值 進(jìn)行替換。

傳統(tǒng)方式替換:

  • 循環(huán)行久又、列巫延、目標(biāo)值

  • 斷是否滿足條件

  • 滿足條件進(jìn)行替換,否則繼續(xù)

雖然思路清晰籽孙,實(shí)現(xiàn)起來(lái)也沒(méi)有難點(diǎn)烈评,但實(shí)際工作中往往是列不同、目標(biāo)值不同犯建,替換值也不同讲冠,需要很多的循環(huán)、判斷嵌套适瓦,很容易犯編程中的 循環(huán)判斷嵌套太深竿开、硬編碼問(wèn)題。

這種情況下玻熙,就可以借助強(qiáng)大的 pandas.DataFrame.replace 來(lái)實(shí)現(xiàn)優(yōu)雅處理否彩。

這里我選擇的是 dict-like (字典模式)來(lái)演示,原因如下:

  • 場(chǎng)景全嗦随,解決循環(huán)判斷嵌套太深問(wèn)題(后面介紹常見(jiàn)場(chǎng)景)

  • 調(diào)用方式相對(duì)統(tǒng)一列荔,簡(jiǎn)單敬尺、優(yōu)雅

  • 可以抽象為配置,解決硬編碼問(wèn)題(存儲(chǔ)在配置文件或配置庫(kù)中)

全局替換

  • 目標(biāo)值相同贴浙,替換值相同

MAPPING = {
    'old_val': 'new_val'
}
df = df.replace(MAPPING)
  • 目標(biāo)值不同砂吞,替換值相同

MAPPING = {
    'old_val_1': 'new_val',
    'old_val_2': 'new_val'
}
df = df.replace(MAPPING)
  • 目標(biāo)值不同,替換值不同

MAPPING = {
    'old_val_1': 'new_val_1',
    'old_val_2': 'new_val_2'
}
df = df.replace(MAPPING)

部分列替換

  • column代表列名崎溃,其它同上

MAPPING = {
    'columnA': {
        'old_val_1': 'new_val _1'
    },
    'columnB': {
        'old_val_2': 'new_val _2'
    }
}
df = df.replace(MAPPING)

正則表達(dá)式

MAPPING 中的 target 改為 正則表達(dá)式字符串compiled pattern 蜻直,再將 MAPPING 傳給 選填參數(shù)regex 即可。

MAPPING = {
    'match_old_val_regex': 'new_val'
}
df = df.replace(regex=MAPPING)

參考:

pandas.DataFrame.replace官方文檔

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末袁串,一起剝皮案震驚了整個(gè)濱河市概而,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌囱修,老刑警劉巖赎瑰,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異蔚袍,居然都是意外死亡乡范,警方通過(guò)查閱死者的電腦和手機(jī)配名,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)啤咽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人渠脉,你說(shuō)我怎么就攤上這事宇整。” “怎么了芋膘?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵鳞青,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我为朋,道長(zhǎng)臂拓,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任习寸,我火速辦了婚禮胶惰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘霞溪。我一直安慰自己孵滞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布鸯匹。 她就那樣靜靜地躺著坊饶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪殴蓬。 梳的紋絲不亂的頭發(fā)上匿级,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼痘绎。 笑死脓杉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的简逮。 我是一名探鬼主播球散,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼散庶!你這毒婦竟也來(lái)了蕉堰?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤悲龟,失蹤者是張志新(化名)和其女友劉穎屋讶,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體须教,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡皿渗,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了轻腺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乐疆。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖贬养,靈堂內(nèi)的尸體忽然破棺而出挤土,到底是詐尸還是另有隱情,我是刑警寧澤误算,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布仰美,位于F島的核電站,受9級(jí)特大地震影響儿礼,放射性物質(zhì)發(fā)生泄漏咖杂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一蚊夫、第九天 我趴在偏房一處隱蔽的房頂上張望诉字。 院中可真熱鬧,春花似錦这橙、人聲如沸奏窑。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)埃唯。三九已至,卻和暖如春鹰晨,著一層夾襖步出監(jiān)牢的瞬間墨叛,已是汗流浹背止毕。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留漠趁,地道東北人扁凛。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像闯传,于是被迫代替她去往敵國(guó)和親谨朝。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354