pandas 實(shí)現(xiàn) Excel 常見(jiàn)操作 (1)

Excel 是數(shù)據(jù)處理最常用的工具,pandas 是數(shù)據(jù)分析的利器纵潦。那么徐鹤,Excel 一些常見(jiàn)的操作, pandas 如何實(shí)現(xiàn)呢酪穿?網(wǎng)上有兩篇挺有意思的文章凳干,對(duì)此做了詳細(xì)介紹。我結(jié)合自己在學(xué)習(xí)博文過(guò)程中的理解被济,總結(jié)成文救赐。

本篇介紹 pandas 的 DataFrame 對(duì)列 (Column) 的處理方法。示例數(shù)據(jù)請(qǐng)從這里下載只磷。

增加計(jì)算列

pandas 的 DataFrame经磅,每一行或每一列都是一個(gè)序列 (Series)。比如:

import pandas as pd
df1 = pd.read_excel('http://pbpython.com/extras/excel-comp-data.xlsx');

此時(shí)钮追,用 type(df1['city']预厌,顯示該數(shù)據(jù)列(column)的類型是 pandas.core.series.Series。理解每一列都是 Series 非常重要元媚,因?yàn)?pandas 基于 numpy轧叽,對(duì)數(shù)據(jù)的計(jì)算都是整體計(jì)算。深刻理解這個(gè)刊棕,才能理解后面要說(shuō)的諸如 apply() 函數(shù)等炭晒。

如果列名 (column name)沒(méi)有空格,則列有兩種方式表達(dá):

df1['city'] 
df1.city

如果列名有空格甥角,或者創(chuàng)建新列(即該列不存在网严,需要?jiǎng)?chuàng)建,第一次使用的變量)嗤无,則只能用第一種表達(dá)式震束。

假設(shè)我們要對(duì)三個(gè)月的數(shù)據(jù)進(jìn)行匯總,可以使用下面的方法当犯。實(shí)際上就是創(chuàng)建一個(gè)新的數(shù)據(jù)列:

# 由于是創(chuàng)建垢村,不能使用 df.Total
df1['Total'] = df1['Jan'] + df1['Feb'] + df1['Mar']

df1['Jan']df1['Mar'] 都是 Series,所以使用 + 號(hào)嚎卫,可以得到三個(gè) Series 對(duì)應(yīng)位置的數(shù)據(jù)合計(jì)肝断。

當(dāng)然,也可以用下面的方式:

df1['total'] = df1.Jan + df1.Feb + df1.Mar

增加條件計(jì)算列

假設(shè)現(xiàn)在要根據(jù)合計(jì)數(shù) (Total 列),當(dāng) Total 大于 200,000 胸懈,類別為 A担扑,否則為 B。在 Excel 中實(shí)現(xiàn)用的是 IF 函數(shù)趣钱,但在 pandas 中需要用到 numpy 的 where 函數(shù):

df1['category'] = np.where(df1['total'] > 200000, 'A', 'B')

在指定位置插入列

上面方法增加的列涌献,位置都是放在最后。如果想要在指定位置插入列首有,要用 dataframe.insert() 方法燕垃。假設(shè)我們要在 state 列后面插入一列蚯涮,這一列是 state 的簡(jiǎn)稱 (abbreviation)去枷。在 Excel 中年鸳,根據(jù) state 來(lái)找到 state 的簡(jiǎn)稱 湘纵,一般用 VLOOKUP 函數(shù)。我們用兩種方法來(lái)實(shí)現(xiàn)僻造,第一種方法废亭,簡(jiǎn)稱來(lái)自 Python 的 dict百炬。

數(shù)據(jù)來(lái)源:

state_to_code = {"VERMONT": "VT", "GEORGIA": "GA", "IOWA": "IA", "Armed Forces Pacific": "AP", "GUAM": "GU",
                 "KANSAS": "KS", "FLORIDA": "FL", "AMERICAN SAMOA": "AS", "NORTH CAROLINA": "NC", "HAWAII": "HI",
                 "NEW YORK": "NY", "CALIFORNIA": "CA", "ALABAMA": "AL", "IDAHO": "ID", "FEDERATED STATES OF MICRONESIA": "FM",
                 "Armed Forces Americas": "AA", "DELAWARE": "DE", "ALASKA": "AK", "ILLINOIS": "IL",
                 "Armed Forces Africa": "AE", "SOUTH DAKOTA": "SD", "CONNECTICUT": "CT", "MONTANA": "MT", "MASSACHUSETTS": "MA",
                 "PUERTO RICO": "PR", "Armed Forces Canada": "AE", "NEW HAMPSHIRE": "NH", "MARYLAND": "MD", "NEW MEXICO": "NM",
                 "MISSISSIPPI": "MS", "TENNESSEE": "TN", "PALAU": "PW", "COLORADO": "CO", "Armed Forces Middle East": "AE",
                 "NEW JERSEY": "NJ", "UTAH": "UT", "MICHIGAN": "MI", "WEST VIRGINIA": "WV", "WASHINGTON": "WA",
                 "MINNESOTA": "MN", "OREGON": "OR", "VIRGINIA": "VA", "VIRGIN ISLANDS": "VI", "MARSHALL ISLANDS": "MH",
                 "WYOMING": "WY", "OHIO": "OH", "SOUTH CAROLINA": "SC", "INDIANA": "IN", "NEVADA": "NV", "LOUISIANA": "LA",
                 "NORTHERN MARIANA ISLANDS": "MP", "NEBRASKA": "NE", "ARIZONA": "AZ", "WISCONSIN": "WI", "NORTH DAKOTA": "ND",
                 "Armed Forces Europe": "AE", "PENNSYLVANIA": "PA", "OKLAHOMA": "OK", "KENTUCKY": "KY", "RHODE ISLAND": "RI",
                 "DISTRICT OF COLUMBIA": "DC", "ARKANSAS": "AR", "MISSOURI": "MO", "TEXAS": "TX", "MAINE": "ME"}

如果我們想根據(jù) dict 的 key 找到對(duì)應(yīng)的值蚕脏,可以使用 dict.get() 方法侦副,這個(gè)方法在找不到 key 的時(shí)候,不會(huì)拋出異常驼鞭,只是返回 None秦驯。比如

state_to_code.get('TEXAS')  # 返回 TX
state_to_code.get('TEXASS')  # 返回 None

dict.get() 方法參數(shù)為 key,是一個(gè)標(biāo)量值挣棕。我們并不能像下面這樣把整列都傳給這個(gè)方法译隘,比如下面這樣:

df1['abbrev'] = state_to_code.get(df1['state'])

所以我們需要先構(gòu)造一個(gè) Series (abbrev),然后把 abbrev 賦值給 df1['abbrev']

abbrev = df1['state'].apply(lambda x: state_to_code.get(x.upper()))
df1['abbrev'] = abbrev        # 在后面插入列
df1.insert(6, 'abbr', abbrev) # 在指定位置插入列

apply() 函數(shù)值得專門寫(xiě)一篇洛心,暫且不細(xì)說(shuō)固耘。

Vlookup 函數(shù)功能實(shí)現(xiàn)

實(shí)現(xiàn)類似 Excel 的 VLookup 功能,可以用 dataframe.merge() 方法皂甘。為此,需要將 state_to_code 這個(gè) dict 的數(shù)據(jù)加載到 DataFrame 中悼凑。這里提供兩種方法偿枕。

方法1: 把數(shù)據(jù)放在 excel 工作表中,然后讀取 Excel 文件加載户辫。數(shù)據(jù)如下:

excel_file = pd.ExcelFile('excel-comp-data.xlsx')
df_abbrev = pd.read_excel(excel_file, sheetname = 'abbrev')
df2 = df1.merge(df_abbrev, on='state')  # 類似數(shù)據(jù)庫(kù)的 inner join渐夸,不匹配數(shù)據(jù)不會(huì)顯示

VLookup 函數(shù)根據(jù)位置來(lái)匹配,merge() 方法根據(jù)列名來(lái)匹配渔欢。因?yàn)樯厦嬲Z(yǔ)句中沒(méi)有指定連接類型墓塌,不匹配的記錄不會(huì)顯示。如果需要將 df1 的數(shù)據(jù)全部顯示出來(lái),需要指定 merge() 方法的 how 參數(shù):

df3 = df1.merge(df_abbrev, on='state', how='left') # 類似數(shù)據(jù)庫(kù)的 left join

方法2:直接將 state_to_code 加載到 DataFrame苫幢。但因?yàn)? state_to_code 全部是標(biāo)量值 (scalar values)访诱,方法有一點(diǎn)不同,如下:

# 將 state_to_code 直接加載到 DataFrame
abbr2 = pd.DataFrame(list(state_to_code.items()), columns=['state', 'abbr'])

參考

Common Excel Tasks Demonstrated in Pandas
Common Excel Tasks Demonstrated in Pandas - Part 2

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末韩肝,一起剝皮案震驚了整個(gè)濱河市触菜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌哀峻,老刑警劉巖涡相,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異剩蟀,居然都是意外死亡催蝗,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門育特,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)丙号,“玉大人,你說(shuō)我怎么就攤上這事且预〔郯溃” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵锋谐,是天一觀的道長(zhǎng)遍尺。 經(jīng)常有香客問(wèn)我,道長(zhǎng)涮拗,這世上最難降的妖魔是什么乾戏? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮三热,結(jié)果婚禮上鼓择,老公的妹妹穿的比我還像新娘。我一直安慰自己就漾,他們只是感情好呐能,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著抑堡,像睡著了一般摆出。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上首妖,一...
    開(kāi)封第一講書(shū)人閱讀 51,462評(píng)論 1 302
  • 那天偎漫,我揣著相機(jī)與錄音,去河邊找鬼有缆。 笑死象踊,一個(gè)胖子當(dāng)著我的面吹牛温亲,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播杯矩,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼栈虚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了菊碟?” 一聲冷哼從身側(cè)響起节芥,我...
    開(kāi)封第一講書(shū)人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎逆害,沒(méi)想到半個(gè)月后头镊,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡魄幕,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年相艇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片纯陨。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡坛芽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出翼抠,到底是詐尸還是另有隱情咙轩,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布阴颖,位于F島的核電站活喊,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏量愧。R本人自食惡果不足惜钾菊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望偎肃。 院中可真熱鬧煞烫,春花似錦、人聲如沸累颂。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)紊馏。三九已至料饥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瘦棋,已是汗流浹背稀火。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工暖哨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赌朋,地道東北人凰狞。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像沛慢,于是被迫代替她去往敵國(guó)和親赡若。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354