數(shù)據(jù)清洗之字符編碼問題

Kaggle: Data Cleaning Challenge: Character Encodings

在使用Python 3中時,我們會遇到兩種主要的文本數(shù)據(jù)類型。一個是字符串基茵,默認(rèn)是必逆。另一個類型是字節(jié)侍咱,可以把一個字符串轉(zhuǎn)換成指定的字節(jié)編碼。

str.encode("utf-8", errors="replace")
str.decode("utf-8")

讀取文件內(nèi)容時的解碼問題

有時在使用read_csv方法時澜公,會出現(xiàn)如下的報(bào)錯,說明無法使用utf-8解碼

使用chardet模塊

對于未知編碼的bytes喇肋,要把它轉(zhuǎn)換成str坟乾,需要先“猜測”編碼。猜測的方式是先收集各種編碼的特征字符蝶防,根據(jù)特征字符判斷甚侣,就能有很大概率“猜對”。

記得先導(dǎo)入chardet模塊

import chardet

檢測出的編碼是Windows-1252间学,注意到還有個confidence字段殷费,表示檢測的概率是0.73(即73%)。

PS

也會出現(xiàn)檢測匹配概率為100%低葫,卻依然無法解碼的情況

使用ascii解碼后出現(xiàn)報(bào)錯

說明樣本數(shù)量還不夠详羡,不足以代表整體的編碼特征。我直接加到了十萬嘿悬,檢測文件的前十萬個字節(jié)

樣本數(shù)量增大后实柠,編碼類型為windows-1252
解碼成功

說句題外話,在《赤裸裸的統(tǒng)計(jì)學(xué)》一書中提到了樣本容量的重要性善涨,容量越大越好窒盐。從上面這個問題中足以見得。


from: 赤裸裸的統(tǒng)計(jì)學(xué)

保存utf-8編碼文件

在Python中钢拧,utf-8是標(biāo)準(zhǔn)編碼方式蟹漓,因此默認(rèn)保存utf-8編碼文件

data.to_csv("xxxx.csv")
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市源内,隨后出現(xiàn)的幾起案子牧牢,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件塔鳍,死亡現(xiàn)場離奇詭異伯铣,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)轮纫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進(jìn)店門腔寡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人掌唾,你說我怎么就攤上這事放前。” “怎么了糯彬?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵凭语,是天一觀的道長。 經(jīng)常有香客問我撩扒,道長似扔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任搓谆,我火速辦了婚禮炒辉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘泉手。我一直安慰自己黔寇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布斩萌。 她就那樣靜靜地躺著缝裤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪颊郎。 梳的紋絲不亂的頭發(fā)上倘是,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天,我揣著相機(jī)與錄音袭艺,去河邊找鬼搀崭。 笑死,一個胖子當(dāng)著我的面吹牛猾编,可吹牛的內(nèi)容都是我干的瘤睹。 我是一名探鬼主播,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼答倡,長吁一口氣:“原來是場噩夢啊……” “哼轰传!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瘪撇,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤获茬,失蹤者是張志新(化名)和其女友劉穎港庄,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體恕曲,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鹏氧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了佩谣。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片把还。...
    茶點(diǎn)故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖茸俭,靈堂內(nèi)的尸體忽然破棺而出吊履,到底是詐尸還是另有隱情,我是刑警寧澤调鬓,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布艇炎,位于F島的核電站,受9級特大地震影響腾窝,放射性物質(zhì)發(fā)生泄漏缀踪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一燕锥、第九天 我趴在偏房一處隱蔽的房頂上張望辜贵。 院中可真熱鬧悯蝉,春花似錦归形、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蕉世,卻和暖如春蔼紧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背狠轻。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工奸例, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人向楼。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓查吊,卻偏偏與公主長得像,于是被迫代替她去往敵國和親湖蜕。 傳聞我的和親對象是個殘疾皇子逻卖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評論 2 354