手頭現(xiàn)在有一份福布斯2016年全球上市企業(yè)2000強(qiáng)排行榜的數(shù)據(jù),但原始數(shù)據(jù)并不規(guī)范焰檩,需要處理后才能進(jìn)一步使用。
本文通過(guò)實(shí)例操作來(lái)介紹用pandas進(jìn)行數(shù)據(jù)整理。
照例先說(shuō)下我的運(yùn)行環(huán)境堰燎,如下:
- windows 7, 64位
- python 3.5
- pandas 0.19.2版本
在拿到原始數(shù)據(jù)后笋轨,我們先來(lái)看看數(shù)據(jù)的情況秆剪,并思考下我們需要什么樣的數(shù)據(jù)結(jié)果。
下面是原始數(shù)據(jù):
在本文中爵政,我們需要以下的初步結(jié)果仅讽,以供以后繼續(xù)使用。
可以看到钾挟,原始數(shù)據(jù)中洁灵,跟企業(yè)相關(guān)的數(shù)據(jù)中(“Sales”,“Profits”掺出,“Assets”徽千,“Market_value”)苫费,目前都是不是可以用來(lái)計(jì)算的數(shù)字類型。
原始內(nèi)容中包含貨幣符號(hào)”$“双抽,“-”百框,純字母組成的字符串以及其他一些我們認(rèn)為異常的信息。更重要的是牍汹,這些數(shù)據(jù)的單位并不一致铐维。分別有以“B”(Billion,十億)和“M”(Million柑贞,百萬(wàn))表示的方椎。在后續(xù)計(jì)算之前需要進(jìn)行單位統(tǒng)一。
1 處理方法 Method-1
首先想到的處理思路就是將數(shù)據(jù)信息分別按十億('B')和百萬(wàn)('M')進(jìn)行拆分钧嘶,分別進(jìn)行處理棠众,最后在合并到一起。過(guò)程如下所示有决。
- 加載數(shù)據(jù)闸拿,并添加列的名稱
import pandas as pd
df_2016 = pd.read_csv('data_2016.csv', encoding='gbk',header=None)
# 更新列名
df_2016.columns = ['Year', 'Rank', 'Company_cn','Company_en',
'Country_en', 'Sales', 'Profits', 'Assets', 'Market_value']
print('the shape of DataFrame: ', df_2016.shape)
print(df_2016.dtypes)
df_2016.head(3)
- 獲取單位為十億('B')的數(shù)據(jù)
# 數(shù)據(jù)單位為 B的數(shù)據(jù)(Billion,十億)
df_2016_b = df_2016[df_2016['Sales'].str.endswith('B')]
print(df_2016_b.shape)
df_2016_b
- 獲取單位為百萬(wàn)('M')的數(shù)據(jù)
# 數(shù)據(jù)單位為 M的數(shù)據(jù)(Million书幕,百萬(wàn))
df_2016_m = df_2016[df_2016['Sales'].str.endswith('M')]
print(df_2016_m.shape)
df_2016_m
這種方法理解起來(lái)比較簡(jiǎn)單新荤,但操作起來(lái)會(huì)比較繁瑣,尤其是如果有很多列數(shù)據(jù)需要處理的話台汇,會(huì)花費(fèi)很多時(shí)間苛骨。
進(jìn)一步的處理,我這里就不描述了苟呐。當(dāng)然痒芝,各位可以試試這個(gè)方法。
下面介紹稍微簡(jiǎn)單一點(diǎn)的方法牵素。
2 處理方法 Method-2
2.1 加載數(shù)據(jù)
第一步還是加載數(shù)據(jù)严衬,跟Method-1是一樣的。
下面來(lái)處理'Sales'列
2.2 替換相關(guān)的異常字符
首先是替換相關(guān)的異常字符笆呆,包括美元的貨幣符號(hào)'$'请琳,純字母的字符串'undefined',以及'B'赠幕。 這里俄精,我們想統(tǒng)一把數(shù)據(jù)的單位整理成十億,所以'B'可以直接進(jìn)行替換榕堰。而'M'需要更多的處理步驟嘀倒。
2.3 處理'M'相關(guān)的數(shù)據(jù)
處理含有百萬(wàn)“M”為單位的數(shù)據(jù),即以“M”結(jié)尾的數(shù)據(jù),思路如下:
(1)設(shè)定查找條件mask测蘑;
(2)替換字符串“M”為空值
(3)用pd.to_numeric()轉(zhuǎn)換為數(shù)字
(4)除以1000,轉(zhuǎn)換為十億美元康二,與其他行的數(shù)據(jù)一致
上面兩個(gè)步驟相關(guān)的代碼如下:
# 替換美元符號(hào)
df_2016['Sales'] = df_2016['Sales'].str.replace('$','')
# # 查看異常值碳胳,均為字母(“undefined”)
# df_2016[df_2016['Sales'].str.isalpha()]
# 替換異常值“undefined”為空白
# df_2016['Sales'] = df_2016['Sales'].str.replace('undefined','')
df_2016['Sales'] = df_2016['Sales'].str.replace('^[A-Za-z]+$','')
# 替換符號(hào)十億美元“B”為空白,數(shù)字本身代表的就是十億美元為單位
df_2016['Sales'] = df_2016['Sales'].str.replace('B','')
# 處理含有百萬(wàn)“M”為單位的數(shù)據(jù)沫勿,即以“M”結(jié)尾的數(shù)據(jù)
# 思路:
# (1)設(shè)定查找條件mask挨约;
# (2)替換字符串“M”為空值
# (3)用pd.to_numeric()轉(zhuǎn)換為數(shù)字
# (4)除以1000,轉(zhuǎn)換為十億美元产雹,與其他行的數(shù)據(jù)一致
mask = df_2016['Sales'].str.endswith('M')
df_2016.loc[mask, 'Sales'] = pd.to_numeric(df_2016.loc[mask, 'Sales'].str.replace('M', ''))/1000
df_2016['Sales'] = pd.to_numeric(df_2016['Sales'])
print('the shape of DataFrame: ', df_2016.shape)
print(df_2016.dtypes)
df_2016.head(3)
用同樣類似的方法處理其他列
可以看到诫惭,這個(gè)方法比第一種方法還是要方便很多。當(dāng)然蔓挖,這個(gè)方法針對(duì)DataFrame的每列數(shù)據(jù)都要進(jìn)行相關(guān)的操作夕土,如果列數(shù)多了,也還是比較繁瑣的瘟判。
有沒(méi)有更方便一點(diǎn)的方法呢怨绣。 答案是有的。
3 處理方法 Method-3
在Method-2的基礎(chǔ)上拷获,將處理方法寫(xiě)成更通用的數(shù)據(jù)處理函數(shù)篮撑,根據(jù)數(shù)據(jù)的結(jié)構(gòu),拓展更多的適用性匆瓜,則可以比較方便的處理相關(guān)數(shù)據(jù)赢笨。
3.1 加載數(shù)據(jù)
第一步還是加載數(shù)據(jù),跟Method-1是一樣的驮吱。
3.2 編寫(xiě)數(shù)據(jù)處理的自定義函數(shù)
參考Method-2的處理過(guò)程茧妒,編寫(xiě)數(shù)據(jù)處理的自定義函數(shù)'pro_col',并在Method-2的基礎(chǔ)上拓展其他替換功能糠馆,使之適用于這四列數(shù)據(jù)(“Sales”嘶伟,“Profits”,“Assets”又碌,“Market_value”)九昧。
函數(shù)編寫(xiě)的代碼如下:
def pro_col(df, col):
# 替換相關(guān)字符串,如有更多的替換情形毕匀,可以自行添加
df[col] = df[col].str.replace('$','')
df[col] = df[col].str.replace('^[A-Za-z]+$','')
df[col] = df[col].str.replace('B','')
# 注意這里是'-$'铸鹰,即以'-'結(jié)尾,而不是'-'皂岔,因?yàn)橛胸?fù)數(shù)
df[col] = df[col].str.replace('-$','')
df[col] = df[col].str.replace(',','')
# 處理含有百萬(wàn)“M”為單位的數(shù)據(jù)蹋笼,即以“M”結(jié)尾的數(shù)據(jù)
# 思路:
# (1)設(shè)定查找條件mask;
# (2)替換字符串“M”為空值
# (3)用pd.to_numeric()轉(zhuǎn)換為數(shù)字
# (4)除以1000,轉(zhuǎn)換為十億美元剖毯,與其他行的數(shù)據(jù)一致
mask = df[col].str.endswith('M')
df.loc[mask, col] = pd.to_numeric(df.loc[mask, col].str.replace('M',''))/1000
# 將字符型的數(shù)字轉(zhuǎn)換為數(shù)字類型
df[col] = pd.to_numeric(df[col])
return df
3.3 將自定義函數(shù)進(jìn)行應(yīng)用
針對(duì)DataFrame的每列圾笨,應(yīng)用該自定義函數(shù),進(jìn)行數(shù)據(jù)處理逊谋,得到需要的結(jié)果擂达。
pro_col(df_2016, 'Sales')
pro_col(df_2016, 'Profits')
pro_col(df_2016, 'Assets')
pro_col(df_2016, 'Market_value')
print('the shape of DataFrame: ', df_2016.shape)
print(df_2016.dtypes)
df_2016.head()
當(dāng)然,如果DataFrame的列數(shù)特別多胶滋,可以用for循環(huán)板鬓,這樣代碼更簡(jiǎn)潔。代碼如下:
cols = ['Sales', 'Profits', 'Assets', 'Market_value']
for col in cols:
pro_col(df_2016, col)
print('the shape of DataFrame: ', df_2016.shape)
print(df_2016.dtypes)
df_2016.head()
最終處理后究恤,獲得的數(shù)據(jù)結(jié)果如下: