Kaggle Data Challenge 第五天

Kaggle_logo.png

Abstract:18年復(fù)活節(jié)前的五天,kaggle舉辦了數(shù)據(jù)預(yù)處理的五個(gè)挑戰(zhàn)似舵。這里做每天學(xué)習(xí)到的技術(shù)要點(diǎn)的回顧笋婿。這篇是最后一天的內(nèi)容吏够,主要是有關(guān)替換文本信息中同一信息但是格式不統(tǒng)一的冗余數(shù)據(jù)疯暑。


有些文本數(shù)據(jù)里面會(huì)有拼寫錯(cuò)誤训柴,多余的空格等情況,如果直接給這些原本有相同意義的數(shù)據(jù)分類缰儿,會(huì)讓機(jī)器學(xué)習(xí)算法覺得他們是不同的數(shù)據(jù)畦粮,可能會(huì)阻礙正確的信息分類。

當(dāng)然可以手動(dòng)修改乖阵,但是隨著數(shù)據(jù)量的越來越大,自動(dòng)修改才是王道预麸。

環(huán)境設(shè)置

需要用到的特殊的包是fuzzywuzzy瞪浸。chardet在上一片第四天的文章中已經(jīng)著重介紹過。

# modules we'll use
import pandas as pd
import numpy as np

# helpful modules
import fuzzywuzzy
from fuzzywuzzy import process
import chardet

查看重復(fù)項(xiàng)的成因

導(dǎo)入數(shù)據(jù)后吏祸,找出“City”這一列对蒲,看看有多少例情況:

cities = suicide_attacks['City'].unique()

# sort them alphabetically and then take a closer look
cities.sort()
cities

結(jié)果會(huì)得到一個(gè)全是城市名字的列表:
array(['ATTOCK', 'Attock ', 'Bajaur Agency', 'Bannu', 'Bhakkar ', 'Buner', 'Chakwal ', 'Chaman', 'Charsadda', 'Charsadda ', 'D. I Khan', 'D.G Khan', 'D.G Khan ', 'D.I Khan', 'D.I Khan ', 'Dara Adam Khel', 'Dara Adam khel', 'Fateh Jang', 'Ghallanai, Mohmand Agency ', 'Gujrat', 'Hangu', 'Haripur', 'Hayatabad', 'Islamabad', 'Islamabad ', 'Jacobabad', 'KURRAM AGENCY', 'Karachi', 'Karachi ', 'Karak', 'Khanewal', 'Khuzdar', 'Khyber Agency', 'Khyber Agency ', 'Kohat', 'Kohat ', 'Kuram Agency ', 'Lahore', 'Lahore ', 'Lakki Marwat', 'Lakki marwat', 'Lasbela', 'Lower Dir', 'MULTAN', 'Malakand ', 'Mansehra', 'Mardan', 'Mohmand Agency', 'Mohmand Agency ', 'Mohmand agency', 'Mosal Kor, Mohmand Agency', 'Multan', 'Muzaffarabad', 'North Waziristan', 'North waziristan', 'Nowshehra', 'Orakzai Agency', 'Peshawar', 'Peshawar ', 'Pishin', 'Poonch', 'Quetta', 'Quetta ', 'Rawalpindi', 'Sargodha', 'Sehwan town', 'Shabqadar-Charsadda', 'Shangla ', 'Shikarpur', 'Sialkot', 'South Waziristan', 'South waziristan', 'Sudhanoti', 'Sukkur', 'Swabi ', 'Swat', 'Swat ', 'Taftan', 'Tangi, Charsadda District', 'Tank', 'Tank ', 'Taunsa', 'Tirah Valley', 'Totalai', 'Upper Dir', 'Wagah', 'Zhob', 'bannu', 'karachi', 'karachi ', 'lakki marwat', 'peshawar', 'swat'], dtype=object)

可以觀察到的是,其中有不少重復(fù)的地名贡翘,只是因?yàn)楹竺胬锩娑嘁粋€(gè)空格或者大小寫不一樣被認(rèn)為是不同的地方蹈矮。

首先先去除大小寫的困擾并刪除字串首尾的多余空白。這兩個(gè)簡(jiǎn)單操作可以去除英語(yǔ)字符里一大部分的不一致現(xiàn)象鸣驱。

# convert to lower case
suicide_attacks['City'] = suicide_attacks['City'].str.lower()
# remove trailing white spaces
suicide_attacks['City'] = suicide_attacks['City'].str.strip()

用fuzzywuzzy替換相似項(xiàng)

這時(shí)的城市清單是這樣:
array(['attock', 'bajaur agency', 'bannu', 'bhakkar', 'buner', 'chakwal', 'chaman', 'charsadda', 'd. i khan', 'd.g khan', 'd.i khan', 'dara adam khel', 'fateh jang', 'ghallanai, mohmand agency', 'gujrat', 'hangu', 'haripur', 'hayatabad', 'islamabad', 'jacobabad', 'karachi', 'karak', 'khanewal', 'khuzdar', 'khyber agency', 'kohat', 'kuram agency', 'kurram agency', 'lahore', 'lakki marwat', 'lasbela', 'lower dir', 'malakand', 'mansehra', 'mardan', 'mohmand agency', 'mosal kor, mohmand agency', 'multan', 'muzaffarabad', 'north waziristan', 'nowshehra', 'orakzai agency', 'peshawar', 'pishin', 'poonch', 'quetta', 'rawalpindi', 'sargodha', 'sehwan town', 'shabqadar-charsadda', 'shangla', 'shikarpur', 'sialkot', 'south waziristan', 'sudhanoti', 'sukkur', 'swabi', 'swat', 'taftan', 'tangi, charsadda district', 'tank', 'taunsa', 'tirah valley', 'totalai', 'upper dir', 'wagah', 'zhob'], dtype=object)
可以看到'd. i khan' 和 'd.i khan' 因?yàn)橹虚g一個(gè)字符(空格)的區(qū)別被分成兩類泛鸟。于是需要用模糊匹配來找到相近的文本并把它替換掉。

模糊匹配的原理是:當(dāng)你給出一個(gè)字符串踊东,電腦會(huì)把它和數(shù)據(jù)中的字符比較并打分北滥。比較相似度越高的項(xiàng)分?jǐn)?shù)越高,最高100%闸翅。相似度越高再芋,就意味著把其中一項(xiàng)改成另外一項(xiàng)需要變動(dòng)的字符越少。比如“apple“和”snapple“相差兩次變動(dòng)坚冀,而”in“和”on“相差一次變動(dòng)济赎。語(yǔ)句如下:

# get the top 10 closest matches to "d.i khan"
matches = fuzzywuzzy.process.extract("d.i khan", cities, limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

# take a look at them
matches

這個(gè)cell得到的是城市清單里和“d.i.khan"相似度最高的10項(xiàng)以及起相似度分?jǐn)?shù),由高到低排。
[('d. i khan', 100), ('d.i khan', 100), ('d.g khan', 88), ('khanewal', 50), ('sudhanoti', 47), ('hangu', 46), ('kohat', 46), ('dara adam khel', 45), ('chaman', 43), ('mardan', 43)]
下面就要編程替換相似度高于90的項(xiàng)(88的那貨是另外一個(gè)城市司训,不是格式錯(cuò)誤)构捡。

當(dāng)你需要重復(fù)實(shí)現(xiàn)一個(gè)通用功能的時(shí)候,編寫一個(gè)funtion豁遭,以后可以直接調(diào)用叭喜,省事,也省的出錯(cuò)

# function to replace rows in the provided column of the provided dataframe
# that match the provided string above the provided ratio with the provided string
def replace_matches_in_column(df, column, string_to_match, min_ratio = 90):
    # get a list of unique strings
    strings = df[column].unique()
    
    # get the top 10 closest matches to our input string
    matches = fuzzywuzzy.process.extract(string_to_match, strings, 
                                         limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

    # only get matches with a ratio > 90
    close_matches = [matches[0] for matches in matches if matches[1] >= min_ratio]

    # get the rows of all the close matches in our dataframe
    rows_with_matches = df[column].isin(close_matches)

    # replace all rows with close matches with the input matches 
    df.loc[rows_with_matches, column] = string_to_match
    
    # let us know the function's done
    print("All done!")

這里要說明的是:

  1. close_matches = [matches[0] for matches in matches if matches[1] >= min_ratio] 是List Comprehension蓖谢,其效果等同于:
    close_matches = []
    for matches in matches:
    if matches[1] >= min_ratio:
    close_matches.append(matches[0])
  2. pandas.DataFrame.isin(Value)會(huì)返回一個(gè)真值表捂蕴,數(shù)據(jù)在value里的位置為1。

調(diào)用函數(shù)就可以完成所有和d.i khan相似的替換:

# use the function we just wrote to replace close matches to "d.i khan" with "d.i khan"
replace_matches_in_column(df=suicide_attacks, column='City', string_to_match="d.i khan")

如果這篇文章對(duì)你有所幫助闪幽,還請(qǐng)幫忙點(diǎn)贊打賞評(píng)論分享~謝謝??


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末啥辨,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子盯腌,更是在濱河造成了極大的恐慌溉知,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,248評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腕够,死亡現(xiàn)場(chǎng)離奇詭異级乍,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)帚湘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門玫荣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人大诸,你說我怎么就攤上這事捅厂。” “怎么了资柔?”我有些...
    開封第一講書人閱讀 153,443評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵焙贷,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我贿堰,道長(zhǎng)辙芍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,475評(píng)論 1 279
  • 正文 為了忘掉前任官边,我火速辦了婚禮沸手,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘注簿。我一直安慰自己契吉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評(píng)論 5 374
  • 文/花漫 我一把揭開白布诡渴。 她就那樣靜靜地躺著捐晶,像睡著了一般菲语。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上惑灵,一...
    開封第一講書人閱讀 49,185評(píng)論 1 284
  • 那天山上,我揣著相機(jī)與錄音,去河邊找鬼英支。 笑死佩憾,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的干花。 我是一名探鬼主播妄帘,決...
    沈念sama閱讀 38,451評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼池凄!你這毒婦竟也來了抡驼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,112評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤肿仑,失蹤者是張志新(化名)和其女友劉穎致盟,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體尤慰,經(jīng)...
    沈念sama閱讀 43,609評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡馏锡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了伟端。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片眷篇。...
    茶點(diǎn)故事閱讀 38,163評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖荔泳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情虐杯,我是刑警寧澤玛歌,帶...
    沈念sama閱讀 33,803評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站擎椰,受9級(jí)特大地震影響支子,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜达舒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評(píng)論 3 307
  • 文/蒙蒙 一值朋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧巩搏,春花似錦昨登、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春笙什,著一層夾襖步出監(jiān)牢的瞬間飘哨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工琐凭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留芽隆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,636評(píng)論 2 355
  • 正文 我出身青樓统屈,卻偏偏與公主長(zhǎng)得像胚吁,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鸿吆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容