Excel 是數(shù)據(jù)處理最常用的工具,pandas 是數(shù)據(jù)分析的利器纵潦。那么徐鹤,Excel 一些常見(jiàn)的操作, pandas 如何實(shí)現(xiàn)呢酪穿?網(wǎng)上有兩篇挺有意思的文章凳干,對(duì)此做了詳細(xì)介紹。我結(jié)合自己在學(xué)習(xí)博文過(guò)程中的理解被济,總結(jié)成文救赐。
本篇介紹 pandas 的 DataFrame
對(duì)列 (Column) 的處理方法。示例數(shù)據(jù)請(qǐng)從這里下載只磷。
增加計(jì)算列
pandas 的 DataFrame
经磅,每一行或每一列都是一個(gè)序列 (Series
)。比如:
import pandas as pd
df1 = pd.read_excel('http://pbpython.com/extras/excel-comp-data.xlsx');
此時(shí)钮追,用 type(df1['city']
预厌,顯示該數(shù)據(jù)列(column)的類型是 pandas.core.series.Series
。理解每一列都是 Series
非常重要元媚,因?yàn)?pandas 基于 numpy轧叽,對(duì)數(shù)據(jù)的計(jì)算都是整體計(jì)算。深刻理解這個(gè)刊棕,才能理解后面要說(shuō)的諸如 apply()
函數(shù)等炭晒。
如果列名 (column name)沒(méi)有空格,則列有兩種方式表達(dá):
df1['city']
df1.city
如果列名有空格甥角,或者創(chuàng)建新列(即該列不存在网严,需要?jiǎng)?chuàng)建,第一次使用的變量)嗤无,則只能用第一種表達(dá)式震束。
假設(shè)我們要對(duì)三個(gè)月的數(shù)據(jù)進(jìn)行匯總,可以使用下面的方法当犯。實(shí)際上就是創(chuàng)建一個(gè)新的數(shù)據(jù)列:
# 由于是創(chuàng)建垢村,不能使用 df.Total
df1['Total'] = df1['Jan'] + df1['Feb'] + df1['Mar']
df1['Jan']
到 df1['Mar']
都是 Series
,所以使用 +
號(hào)嚎卫,可以得到三個(gè) Series
對(duì)應(yīng)位置的數(shù)據(jù)合計(jì)肝断。
當(dāng)然,也可以用下面的方式:
df1['total'] = df1.Jan + df1.Feb + df1.Mar
增加條件計(jì)算列
假設(shè)現(xiàn)在要根據(jù)合計(jì)數(shù) (Total 列),當(dāng) Total 大于 200,000 胸懈,類別為 A担扑,否則為 B。在 Excel 中實(shí)現(xiàn)用的是 IF
函數(shù)趣钱,但在 pandas 中需要用到 numpy 的 where
函數(shù):
df1['category'] = np.where(df1['total'] > 200000, 'A', 'B')
在指定位置插入列
上面方法增加的列涌献,位置都是放在最后。如果想要在指定位置插入列首有,要用 dataframe.insert()
方法燕垃。假設(shè)我們要在 state
列后面插入一列蚯涮,這一列是 state
的簡(jiǎn)稱 (abbreviation)去枷。在 Excel 中年鸳,根據(jù) state 來(lái)找到 state 的簡(jiǎn)稱 湘纵,一般用 VLOOKUP
函數(shù)。我們用兩種方法來(lái)實(shí)現(xiàn)僻造,第一種方法废亭,簡(jiǎn)稱來(lái)自 Python 的 dict百炬。
數(shù)據(jù)來(lái)源:
state_to_code = {"VERMONT": "VT", "GEORGIA": "GA", "IOWA": "IA", "Armed Forces Pacific": "AP", "GUAM": "GU",
"KANSAS": "KS", "FLORIDA": "FL", "AMERICAN SAMOA": "AS", "NORTH CAROLINA": "NC", "HAWAII": "HI",
"NEW YORK": "NY", "CALIFORNIA": "CA", "ALABAMA": "AL", "IDAHO": "ID", "FEDERATED STATES OF MICRONESIA": "FM",
"Armed Forces Americas": "AA", "DELAWARE": "DE", "ALASKA": "AK", "ILLINOIS": "IL",
"Armed Forces Africa": "AE", "SOUTH DAKOTA": "SD", "CONNECTICUT": "CT", "MONTANA": "MT", "MASSACHUSETTS": "MA",
"PUERTO RICO": "PR", "Armed Forces Canada": "AE", "NEW HAMPSHIRE": "NH", "MARYLAND": "MD", "NEW MEXICO": "NM",
"MISSISSIPPI": "MS", "TENNESSEE": "TN", "PALAU": "PW", "COLORADO": "CO", "Armed Forces Middle East": "AE",
"NEW JERSEY": "NJ", "UTAH": "UT", "MICHIGAN": "MI", "WEST VIRGINIA": "WV", "WASHINGTON": "WA",
"MINNESOTA": "MN", "OREGON": "OR", "VIRGINIA": "VA", "VIRGIN ISLANDS": "VI", "MARSHALL ISLANDS": "MH",
"WYOMING": "WY", "OHIO": "OH", "SOUTH CAROLINA": "SC", "INDIANA": "IN", "NEVADA": "NV", "LOUISIANA": "LA",
"NORTHERN MARIANA ISLANDS": "MP", "NEBRASKA": "NE", "ARIZONA": "AZ", "WISCONSIN": "WI", "NORTH DAKOTA": "ND",
"Armed Forces Europe": "AE", "PENNSYLVANIA": "PA", "OKLAHOMA": "OK", "KENTUCKY": "KY", "RHODE ISLAND": "RI",
"DISTRICT OF COLUMBIA": "DC", "ARKANSAS": "AR", "MISSOURI": "MO", "TEXAS": "TX", "MAINE": "ME"}
如果我們想根據(jù) dict 的 key
找到對(duì)應(yīng)的值蚕脏,可以使用 dict.get()
方法侦副,這個(gè)方法在找不到 key 的時(shí)候,不會(huì)拋出異常驼鞭,只是返回 None秦驯。比如
state_to_code.get('TEXAS') # 返回 TX
state_to_code.get('TEXASS') # 返回 None
dict.get()
方法參數(shù)為 key,是一個(gè)標(biāo)量值挣棕。我們并不能像下面這樣把整列都傳給這個(gè)方法译隘,比如下面這樣:
df1['abbrev'] = state_to_code.get(df1['state'])
所以我們需要先構(gòu)造一個(gè) Series (abbrev)
,然后把 abbrev
賦值給 df1['abbrev']
:
abbrev = df1['state'].apply(lambda x: state_to_code.get(x.upper()))
df1['abbrev'] = abbrev # 在后面插入列
df1.insert(6, 'abbr', abbrev) # 在指定位置插入列
apply()
函數(shù)值得專門寫(xiě)一篇洛心,暫且不細(xì)說(shuō)固耘。
Vlookup 函數(shù)功能實(shí)現(xiàn)
實(shí)現(xiàn)類似 Excel 的 VLookup
功能,可以用 dataframe.merge()
方法皂甘。為此,需要將 state_to_code
這個(gè) dict
的數(shù)據(jù)加載到 DataFrame
中悼凑。這里提供兩種方法偿枕。
方法1: 把數(shù)據(jù)放在 excel 工作表中,然后讀取 Excel 文件加載户辫。數(shù)據(jù)如下:
excel_file = pd.ExcelFile('excel-comp-data.xlsx')
df_abbrev = pd.read_excel(excel_file, sheetname = 'abbrev')
df2 = df1.merge(df_abbrev, on='state') # 類似數(shù)據(jù)庫(kù)的 inner join渐夸,不匹配數(shù)據(jù)不會(huì)顯示
VLookup
函數(shù)根據(jù)位置來(lái)匹配,merge()
方法根據(jù)列名來(lái)匹配渔欢。因?yàn)樯厦嬲Z(yǔ)句中沒(méi)有指定連接類型墓塌,不匹配的記錄不會(huì)顯示。如果需要將 df1
的數(shù)據(jù)全部顯示出來(lái),需要指定 merge()
方法的 how
參數(shù):
df3 = df1.merge(df_abbrev, on='state', how='left') # 類似數(shù)據(jù)庫(kù)的 left join
方法2:直接將 state_to_code
加載到 DataFrame
苫幢。但因?yàn)? state_to_code
全部是標(biāo)量值 (scalar values)访诱,方法有一點(diǎn)不同,如下:
# 將 state_to_code 直接加載到 DataFrame
abbr2 = pd.DataFrame(list(state_to_code.items()), columns=['state', 'abbr'])
參考
Common Excel Tasks Demonstrated in Pandas
Common Excel Tasks Demonstrated in Pandas - Part 2