數(shù)據(jù)預(yù)處理方法大全+實(shí)戰(zhàn)代碼(四)

前言

繼續(xù)詳細(xì)介紹缺失值處理羹饰、異常值檢測、數(shù)據(jù)一致性處理碳却。這是數(shù)據(jù)清洗的第一步队秩，關(guān)鍵步驟。
上一篇因?yàn)槠脑蛑缙郑唤榻B了異常值檢測馍资，本文介紹數(shù)據(jù)一致性處理。

1关噪、重復(fù)值檢測與去重

使用df.duplicated()和df.drop_duplicates() 方法如果對應(yīng)的數(shù)據(jù)是重復(fù)的鸟蟹，duplicated()會返回 True，否則返回 False使兔。

# 檢測重復(fù)行
df.duplicated()

# 檢測特定列的重復(fù)值
df.duplicated(subset=['列名'])

# 刪除完全重復(fù)的行
df.drop_duplicates()

# 基于特定列刪除重復(fù)項(xiàng)建钥，保留第一次出現(xiàn)的
df.drop_duplicates(subset=['name'], keep='first')

# 標(biāo)記重復(fù)項(xiàng)
df.duplicated(subset=['name'], keep=False)

2、類型轉(zhuǎn)換與數(shù)據(jù)格式統(tǒng)一

# 查看數(shù)據(jù)基本信息
df.dtypes
df.dtypes.unique()
df.unique()
df.dtypes.value_counts()
df.info()

# 轉(zhuǎn)換整數(shù)類型
 pd.to_numeric(df['列名'])

# 轉(zhuǎn)換 age 為整數(shù)類型虐沥，處理未知值
pd.to_numeric(df['age'], errors='coerce')

# 轉(zhuǎn)換 salary 為浮點(diǎn)數(shù)類型熊经，移除逗號
df['salary'].str.replace(',', '').astype(float)

# 轉(zhuǎn)換 join_date 為日期類型
pd.to_datetime(df['join_date'])

# 處理缺失值
df['age'].fillna(df['age'].mean(), inplace=True)

# 格式統(tǒng)一：將所有字符串轉(zhuǎn)為小寫
df['name'].str.lower()

3、不一致記錄的標(biāo)注與修正

標(biāo)準(zhǔn)化編碼：統(tǒng)一使用相同的編碼方式（如UTF-8）欲险。
規(guī)范化值：例如镐依，將"Street"、"St."天试、"St"統(tǒng)一為一種表示槐壳。
單位轉(zhuǎn)換：確保所有數(shù)值使用相同的單位。
拼寫檢查：修正拼寫錯誤

# 經(jīng)常用到的函數(shù)
df.apply() #可以對每行喜每、每列务唐、每個值應(yīng)用函數(shù)
df.replace() # 對數(shù)據(jù)進(jìn)行替換

# 標(biāo)準(zhǔn)化城市名稱--示例
city_mapping = {
    'New York City': 'New York',
    'Chcago': 'Chicago',
    'San Fransisco': 'San Francisco'
}
df['city'] = df['city'].replace(city_mapping)

總結(jié)

筆者寫了三篇文章介紹缺失值處理數(shù)據(jù)預(yù)處理方法大全+實(shí)戰(zhàn)代碼(一)(二)、異常值檢測數(shù)據(jù)預(yù)處理方法大全+實(shí)戰(zhàn)代碼(三)灼卢、數(shù)據(jù)一致性處理绍哎。這是數(shù)據(jù)清洗的第一步，關(guān)鍵步驟鞋真〕缪撸可以顯著提高數(shù)據(jù)質(zhì)量，為后續(xù)的分析和建模工作奠定堅(jiān)實(shí)的基礎(chǔ)。在實(shí)際應(yīng)用中海诲，需要根據(jù)具體的數(shù)據(jù)特點(diǎn)和業(yè)務(wù)需求繁莹，選擇合適的方法進(jìn)行數(shù)據(jù)清洗树绩。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末届谈，一起剝皮案震驚了整個濱河市氯葬，隨后出現(xiàn)的幾起案子商佑，更是在濱河造成了極大的恐慌，老刑警劉巖箫攀，帶你破解...
沈念sama閱讀 221,198評論 6贊 514
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件昔搂，死亡現(xiàn)場離奇詭異竹观，居然都是意外死亡拍嵌，警方通過查閱死者的電腦和手機(jī)遭赂，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,334評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來横辆，“玉大人撇他，你說我怎么就攤上這事”吩椋” “怎么了困肩？”我有些...
開封第一講書人閱讀 167,643評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長脆侮。經(jīng)常有香客問我锌畸，道長，這世上最難降的妖魔是什么靖避？我笑而不...
開封第一講書人閱讀 59,495評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任蹋绽，我火速辦了婚禮，結(jié)果婚禮上筋蓖，老公的妹妹穿的比我還像新娘。我一直安慰自己退敦，他們只是感情好粘咖，可當(dāng)我...
茶點(diǎn)故事閱讀 68,502評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著侈百，像睡著了一般瓮下。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上钝域，一...
開封第一講書人閱讀 52,156評論 1贊 308
城市分裂傳說
那天讽坏，我揣著相機(jī)與錄音，去河邊找鬼例证。笑死路呜，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播胀葱，決...
沈念sama閱讀 40,743評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼漠秋，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了抵屿？” 一聲冷哼從身側(cè)響起庆锦，我...
開封第一講書人閱讀 39,659評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎轧葛，沒想到半個月后搂抒，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,200評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡尿扯，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,282評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年求晶，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姜胖。...
茶點(diǎn)故事閱讀 40,424評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡誉帅，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出右莱，到底是詐尸還是另有隱情蚜锨，我是刑警寧澤，帶...
沈念sama閱讀 36,107評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布慢蜓，位于F島的核電站亚再，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏晨抡。R本人自食惡果不足惜氛悬，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,789評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望耘柱。院中可真熱鬧如捅，春花似錦、人聲如沸调煎。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,264評論 0贊 23
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽士袄。三九已至悲关，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間娄柳，已是汗流浹背寓辱。一陣腳步聲響...
開封第一講書人閱讀 33,390評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赤拒，地道東北人秫筏。一個月前我還...
沈念sama閱讀 48,798評論 3贊 376
代替公主和親
正文我出身青樓诱鞠，卻偏偏與公主長得像，于是被迫代替她去往敵國和親跳昼。傳聞我的和親對象是個殘疾皇子般甲，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,435評論 2贊 359

數(shù)據(jù)預(yù)處理方法大全+實(shí)戰(zhàn)代碼(四)

前言

1关噪、重復(fù)值檢測與去重

2、類型轉(zhuǎn)換與數(shù)據(jù)格式統(tǒng)一

3、不一致記錄的標(biāo)注與修正

總結(jié)

推薦閱讀更多精彩內(nèi)容