轉(zhuǎn)自 Pandas與數(shù)據(jù)整理
在 Tidy Data 論文中羔飞,Wickham 博士 提出了這樣一種“整潔”的數(shù)據(jù)結(jié)構(gòu):每個變量是一列,每次觀測結(jié)果是一行,不同的觀測類型存放在單獨的表中。他認(rèn)為這樣的數(shù)據(jù)結(jié)構(gòu)可以幫助分析師更簡單高效地進(jìn)行處理溉躲、建模、和可視化益兄。他在論文中列舉了 五種 不符合整潔數(shù)據(jù)的情況锻梳,并演示了如何通過 R 語言 對它們進(jìn)行整理。本文中净捅,我們將使用 Python 和 Pandas 來達(dá)到同樣的目的疑枯。
文中的源代碼和演示數(shù)據(jù)可以在 GitHub(鏈接)上找到。讀者應(yīng)該已經(jīng)安裝好 Python 開發(fā)環(huán)境蛔六,推薦各位使用 Anaconda 和 Spyder IDE荆永。
列名稱是數(shù)據(jù)值,而非變量名
import pandas as pd
df = pd.read_csv('data/pew.csv')
df.head(10)
表中的列“<10-20k”其實是“收入”變量的具體值具钥。變量 是指某一特性的觀測值,如身高捉腥、體重氓拼,本例中則是收入、宗教信仰抵碟。表中的數(shù)值數(shù)據(jù)構(gòu)成了另一個變量——人數(shù)。要做到 每個變量是一列 坏匪,我們需要進(jìn)行以下變換:
df = df.set_index('religion')
df = df.stack()
df.index = df.index.rename('income', level=1)
df.name = 'frequency'
df = df.reset_index()
df.head(10)
這里我們使用了 Pandas 多級索引的 stack / unstack 特性拟逮。stack() 會將列名轉(zhuǎn)置為新一級的索引,并將數(shù)據(jù)框(DataFrame)轉(zhuǎn)換成序列(Series)适滓。轉(zhuǎn)置后敦迄,我們對行和列的名稱做一些調(diào)整,再用 reset_index() 將數(shù)據(jù)框還原成普通的二維表凭迹。
除了使用多級索引罚屋,Pandas 還提供了另一種更為便捷的方法——melt()。該方法接收以下參數(shù):
- frame: 需要處理的數(shù)據(jù)框嗅绸;
- id_vars: 保持原樣的數(shù)據(jù)列脾猛;
- value_vars: 需要被轉(zhuǎn)換成變量值的數(shù)據(jù)列;
- var_name: 轉(zhuǎn)換后變量的列名鱼鸠;
- value_name: 數(shù)值變量的列名猛拴。
df = pd.read_csv('data/pew.csv')
df = pd.melt(df, id_vars=['religion'], value_vars=list(df.columns)[1:],
var_name='income', value_name='frequency')
df = df.sort_values(by='religion')
df.to_csv('data/pew-tidy.csv', index=False)
df.head(10)
這段代碼會輸出相同的結(jié)果羹铅,下面的示例中我們都將使用 melt() 方法。我們再來看另外一個案例:
在這個數(shù)據(jù)集中愉昆,每周的排名都被記錄到了不同的數(shù)據(jù)列中职员。如果我們想要回答“Dancing Queen 這首歌在 2000年7月15日 的排名如何”,就需要結(jié)合 date.entered 字段做一些運算才行跛溉。下面我們來對這份數(shù)據(jù)進(jìn)行整理:
df = pd.read_csv('data/billboard.csv')
df = pd.melt(df, id_vars=list(df.columns)[:5], value_vars=list(df.columns)[5:],
var_name='week', value_name='rank')
df['week'] = df['week'].str[2:].astype(int)
df['date.entered'] = pd.to_datetime(df['date.entered']) + pd.to_timedelta((df['week'] - 1) * 7, 'd')
df = df.rename(columns={'date.entered': 'date'})
df = df.sort_values(by=['track', 'date'])
df.to_csv('data/billboard-intermediate.csv', index=False)
df.head(10)
上述代碼中焊切,我們還將 date.entered 轉(zhuǎn)換成了每一周的具體日期,week 字段也作為單獨的數(shù)據(jù)列進(jìn)行存儲芳室。但是专肪,我們會在表中看到很多重復(fù)的信息,如歌手渤愁、曲名等牵祟,我們將在第四節(jié)解決這個問題。
一列包含多個變量
人們之所以會將變量值作為列名抖格,一方面是這樣的表示方法更為緊湊诺苹、可以在一頁中顯示更多信息,還有一點是這種格式便于做交叉驗證等數(shù)據(jù)分析工作雹拄。下面的數(shù)據(jù)集更是將性別和年齡這兩個變量都放入了列名中:
m 表示男性(Male)收奔,f 表示女性(Female)怒详,0-14续挟、15-24 則表示年齡段。進(jìn)行數(shù)據(jù)整理時挠轴,我們先用 Pandas 的字符串處理功能截取 sex 字段势篡,再對剩余表示年齡段的子串做映射處理翩肌。
df = pd.read_csv('data/tb.csv')
df = pd.melt(df, id_vars=['country', 'year'], value_vars=list(df.columns)[2:],
var_name='column', value_name='cases')
df = df[df['cases'] != '---']
df['cases'] = df['cases'].astype(int)
df['sex'] = df['column'].str[0]
df['age'] = df['column'].str[1:].map({
'014': '0-14',
'1524': '15-24',
'2534': '25-34',
'3544': '35-44',
'4554': '45-54',
'5564': '55-64',
'65': '65+'
})
df = df[['country', 'year', 'sex', 'age', 'cases']]
df.to_csv('data/tb-tidy.csv', index=False)
df.head(10)
變量存儲在行和列中
下表是一個名為 MX17004 的氣象站收集的溫度數(shù)據(jù)〗疲可以看到念祭,日期被放置在列名中,我們可以用 melt 進(jìn)行處理碍侦;tmax 和 tmin 則表示最高溫度和最低溫度粱坤,他們很顯然是兩個不同的變量,用來衡量單個觀測對象的屬性的瓷产,本例中的觀測對象是“天”站玄。因此,我們需要使用 unstack 將其拆分成兩列濒旦。
df = pd.read_csv('data/weather.csv')
df = pd.melt(df, id_vars=['id', 'year', 'month', 'element'],
value_vars=list(df.columns)[4:],
var_name='date', value_name='value')
df['date'] = df['date'].str[1:].astype('int')
df['date'] = df[['year', 'month', 'date']].apply(
lambda row: '{:4d}-{:02d}-{:02d}'.format(*row),
axis=1)
df = df.loc[df['value'] != '---', ['id', 'date', 'element', 'value']]
df = df.set_index(['id', 'date', 'element'])
df = df.unstack()
df.columns = list(df.columns.get_level_values('element'))
df = df.reset_index()
df.to_csv('data/weather-tidy.csv', index=False)
df
同一表中包含多種觀測類型
在處理 Billboard 數(shù)據(jù)集時株旷,我們會看到冗余的曲目信息,這是因為該表實際記錄的是兩種不同的觀測類型——歌曲曲目和周排名疤估。整理時灾常,我們需要先為每首歌曲生成一個唯一標(biāo)識霎冯,即 id,然后拆分到單獨的表中钞瀑。
df = pd.read_csv('data/billboard-intermediate.csv')
df_track = df[['artist', 'track', 'time']].drop_duplicates()
df_track.insert(0, 'id', range(1, len(df_track) + 1))
df = pd.merge(df, df_track, on=['artist', 'track', 'time'])
df = df[['id', 'date', 'rank']]
df_track.to_csv('data/billboard-track.csv', index=False)
df.to_csv('data/billboard-rank.csv', index=False)
print(df_track, '\n\n', df)
同一觀測類型分布在不同表中
原始的數(shù)據(jù)集可能會以兩種方式進(jìn)行了拆分沈撞,一種是按照某個變量拆分,如按年拆分為2000年雕什、2001年缠俺,按地理位置拆分為中國、英國贷岸;另一種是按不同的屬性拆分壹士,如一份數(shù)據(jù)是收集溫度的傳感器記錄的,另一份是濕度傳感器偿警,他們記錄的都是每一天的觀測值躏救。對于第一種情況,我們可以編寫一個讀取數(shù)據(jù)的函數(shù)螟蒸,遍歷目錄中的文件盒使,并將文件名作為單獨的列加入數(shù)據(jù)框,最后使用 pd.concat 進(jìn)行合并七嫌;第二種情況則要求數(shù)據(jù)集中的記錄有一個唯一標(biāo)識少办,如日期、身份證號诵原,并通過 pd.merge 將各個數(shù)據(jù)集聯(lián)系起來英妓。