pandas 實(shí)現(xiàn) Excel 常見(jiàn)操作 (1)

Excel 是數(shù)據(jù)處理最常用的工具，pandas 是數(shù)據(jù)分析的利器纵潦。那么徐鹤，Excel 一些常見(jiàn)的操作， pandas 如何實(shí)現(xiàn)呢酪穿？網(wǎng)上有兩篇挺有意思的文章凳干，對(duì)此做了詳細(xì)介紹。我結(jié)合自己在學(xué)習(xí)博文過(guò)程中的理解被济，總結(jié)成文救赐。

本篇介紹 pandas 的 DataFrame 對(duì)列 (Column) 的處理方法。示例數(shù)據(jù)請(qǐng)從這里下載只磷。

增加計(jì)算列

pandas 的 DataFrame经磅，每一行或每一列都是一個(gè)序列 (Series)。比如：

import pandas as pd
df1 = pd.read_excel('http://pbpython.com/extras/excel-comp-data.xlsx');

此時(shí)钮追，用 type(df1['city']预厌，顯示該數(shù)據(jù)列（column）的類型是 pandas.core.series.Series。理解每一列都是 Series 非常重要元媚，因?yàn)?pandas 基于 numpy轧叽，對(duì)數(shù)據(jù)的計(jì)算都是整體計(jì)算。深刻理解這個(gè)刊棕，才能理解后面要說(shuō)的諸如 apply() 函數(shù)等炭晒。

如果列名（column name）沒(méi)有空格，則列有兩種方式表達(dá)：

df1['city'] 
df1.city

如果列名有空格甥角，或者創(chuàng)建新列（即該列不存在网严，需要?jiǎng)?chuàng)建，第一次使用的變量）嗤无，則只能用第一種表達(dá)式震束。

假設(shè)我們要對(duì)三個(gè)月的數(shù)據(jù)進(jìn)行匯總，可以使用下面的方法当犯。實(shí)際上就是創(chuàng)建一個(gè)新的數(shù)據(jù)列：

# 由于是創(chuàng)建垢村，不能使用 df.Total
df1['Total'] = df1['Jan'] + df1['Feb'] + df1['Mar']

df1['Jan'] 到 df1['Mar'] 都是 Series，所以使用 + 號(hào)嚎卫，可以得到三個(gè) Series 對(duì)應(yīng)位置的數(shù)據(jù)合計(jì)肝断。

當(dāng)然，也可以用下面的方式：

df1['total'] = df1.Jan + df1.Feb + df1.Mar

增加條件計(jì)算列

假設(shè)現(xiàn)在要根據(jù)合計(jì)數(shù) (Total 列)，當(dāng) Total 大于 200,000 胸懈，類別為 A担扑，否則為 B。在 Excel 中實(shí)現(xiàn)用的是 IF 函數(shù)趣钱，但在 pandas 中需要用到 numpy 的 where 函數(shù)：

df1['category'] = np.where(df1['total'] > 200000, 'A', 'B')

在指定位置插入列

上面方法增加的列涌献，位置都是放在最后。如果想要在指定位置插入列首有，要用 dataframe.insert() 方法燕垃。假設(shè)我們要在 state 列后面插入一列蚯涮，這一列是 state 的簡(jiǎn)稱 (abbreviation)去枷。在 Excel 中年鸳，根據(jù) state 來(lái)找到 state 的簡(jiǎn)稱湘纵，一般用 VLOOKUP 函數(shù)。我們用兩種方法來(lái)實(shí)現(xiàn)僻造，第一種方法废亭，簡(jiǎn)稱來(lái)自 Python 的 dict百炬。

數(shù)據(jù)來(lái)源：

state_to_code = {"VERMONT": "VT", "GEORGIA": "GA", "IOWA": "IA", "Armed Forces Pacific": "AP", "GUAM": "GU",
                 "KANSAS": "KS", "FLORIDA": "FL", "AMERICAN SAMOA": "AS", "NORTH CAROLINA": "NC", "HAWAII": "HI",
                 "NEW YORK": "NY", "CALIFORNIA": "CA", "ALABAMA": "AL", "IDAHO": "ID", "FEDERATED STATES OF MICRONESIA": "FM",
                 "Armed Forces Americas": "AA", "DELAWARE": "DE", "ALASKA": "AK", "ILLINOIS": "IL",
                 "Armed Forces Africa": "AE", "SOUTH DAKOTA": "SD", "CONNECTICUT": "CT", "MONTANA": "MT", "MASSACHUSETTS": "MA",
                 "PUERTO RICO": "PR", "Armed Forces Canada": "AE", "NEW HAMPSHIRE": "NH", "MARYLAND": "MD", "NEW MEXICO": "NM",
                 "MISSISSIPPI": "MS", "TENNESSEE": "TN", "PALAU": "PW", "COLORADO": "CO", "Armed Forces Middle East": "AE",
                 "NEW JERSEY": "NJ", "UTAH": "UT", "MICHIGAN": "MI", "WEST VIRGINIA": "WV", "WASHINGTON": "WA",
                 "MINNESOTA": "MN", "OREGON": "OR", "VIRGINIA": "VA", "VIRGIN ISLANDS": "VI", "MARSHALL ISLANDS": "MH",
                 "WYOMING": "WY", "OHIO": "OH", "SOUTH CAROLINA": "SC", "INDIANA": "IN", "NEVADA": "NV", "LOUISIANA": "LA",
                 "NORTHERN MARIANA ISLANDS": "MP", "NEBRASKA": "NE", "ARIZONA": "AZ", "WISCONSIN": "WI", "NORTH DAKOTA": "ND",
                 "Armed Forces Europe": "AE", "PENNSYLVANIA": "PA", "OKLAHOMA": "OK", "KENTUCKY": "KY", "RHODE ISLAND": "RI",
                 "DISTRICT OF COLUMBIA": "DC", "ARKANSAS": "AR", "MISSOURI": "MO", "TEXAS": "TX", "MAINE": "ME"}

如果我們想根據(jù) dict 的 key 找到對(duì)應(yīng)的值蚕脏，可以使用 dict.get() 方法侦副，這個(gè)方法在找不到 key 的時(shí)候，不會(huì)拋出異常驼鞭，只是返回 None秦驯。比如

state_to_code.get('TEXAS')  # 返回 TX
state_to_code.get('TEXASS')  # 返回 None

dict.get() 方法參數(shù)為 key，是一個(gè)標(biāo)量值挣棕。我們并不能像下面這樣把整列都傳給這個(gè)方法译隘，比如下面這樣：

df1['abbrev'] = state_to_code.get(df1['state'])

所以我們需要先構(gòu)造一個(gè) Series (abbrev)，然后把 abbrev 賦值給 df1['abbrev']：

abbrev = df1['state'].apply(lambda x: state_to_code.get(x.upper()))
df1['abbrev'] = abbrev        # 在后面插入列
df1.insert(6, 'abbr', abbrev) # 在指定位置插入列

apply() 函數(shù)值得專門寫(xiě)一篇洛心，暫且不細(xì)說(shuō)固耘。

Vlookup 函數(shù)功能實(shí)現(xiàn)

實(shí)現(xiàn)類似 Excel 的 VLookup 功能，可以用 dataframe.merge() 方法皂甘。為此，需要將 state_to_code 這個(gè) dict 的數(shù)據(jù)加載到 DataFrame 中悼凑。這里提供兩種方法偿枕。

方法1：把數(shù)據(jù)放在 excel 工作表中，然后讀取 Excel 文件加載户辫。數(shù)據(jù)如下：

excel_file = pd.ExcelFile('excel-comp-data.xlsx')
df_abbrev = pd.read_excel(excel_file, sheetname = 'abbrev')
df2 = df1.merge(df_abbrev, on='state')  # 類似數(shù)據(jù)庫(kù)的 inner join渐夸，不匹配數(shù)據(jù)不會(huì)顯示

VLookup 函數(shù)根據(jù)位置來(lái)匹配，merge() 方法根據(jù)列名來(lái)匹配渔欢。因?yàn)樯厦嬲Z(yǔ)句中沒(méi)有指定連接類型墓塌，不匹配的記錄不會(huì)顯示。如果需要將 df1 的數(shù)據(jù)全部顯示出來(lái)，需要指定 merge() 方法的 how 參數(shù)：

df3 = df1.merge(df_abbrev, on='state', how='left') # 類似數(shù)據(jù)庫(kù)的 left join

方法2：直接將 state_to_code 加載到 DataFrame苫幢。但因?yàn)? state_to_code 全部是標(biāo)量值 (scalar values)访诱，方法有一點(diǎn)不同，如下：

# 將 state_to_code 直接加載到 DataFrame
abbr2 = pd.DataFrame(list(state_to_code.items()), columns=['state', 'abbr'])

參考

Common Excel Tasks Demonstrated in Pandas
Common Excel Tasks Demonstrated in Pandas - Part 2

最后編輯于：2018.07.21 14:23:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末韩肝，一起剝皮案震驚了整個(gè)濱河市触菜，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌哀峻，老刑警劉巖涡相，帶你破解...
沈念sama閱讀 217,734評(píng)論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異剩蟀，居然都是意外死亡催蝗，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門育特，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)丙号，“玉大人，你說(shuō)我怎么就攤上這事且预〔郯溃” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,133評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵锋谐，是天一觀的道長(zhǎng)遍尺。經(jīng)常有香客問(wèn)我，道長(zhǎng)涮拗，這世上最難降的妖魔是什么乾戏？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,532評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮三热，結(jié)果婚禮上鼓择，老公的妹妹穿的比我還像新娘。我一直安慰自己就漾，他們只是感情好呐能，可當(dāng)我...
茶點(diǎn)故事閱讀 67,585評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著抑堡，像睡著了一般摆出。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上首妖，一...
開(kāi)封第一講書(shū)人閱讀 51,462評(píng)論 1贊 302
城市分裂傳說(shuō)
那天偎漫，我揣著相機(jī)與錄音，去河邊找鬼有缆。笑死象踊，一個(gè)胖子當(dāng)著我的面吹牛温亲，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播杯矩，決...
沈念sama閱讀 40,262評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼栈虚，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了菊碟？” 一聲冷哼從身側(cè)響起节芥，我...
開(kāi)封第一講書(shū)人閱讀 39,153評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎逆害，沒(méi)想到半個(gè)月后头镊，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,587評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡魄幕，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,792評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年相艇，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片纯陨。...
茶點(diǎn)故事閱讀 39,919評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡坛芽，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出翼抠，到底是詐尸還是另有隱情咙轩，我是刑警寧澤，帶...
沈念sama閱讀 35,635評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布阴颖，位于F島的核電站活喊，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏量愧。R本人自食惡果不足惜钾菊，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,237評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望偎肃。院中可真熱鬧煞烫，春花似錦、人聲如沸累颂。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,855評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)紊馏。三九已至料饥，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間瘦棋，已是汗流浹背稀火。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,983評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工暖哨，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赌朋，地道東北人凰狞。一個(gè)月前我還...
沈念sama閱讀 48,048評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像沛慢，于是被迫代替她去往敵國(guó)和親赡若。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,864評(píng)論 2贊 354