概述
在上一節(jié)娃惯,我們介紹了Python的numpy模塊,包括:多維數(shù)組肥败、數(shù)組索引石景、數(shù)組操作、數(shù)學(xué)函數(shù)拙吉、線性代數(shù)、隨機數(shù)生成等內(nèi)容揪荣。在這一節(jié)筷黔,我們將介紹Python的pandas模塊。pandas模塊是Python編程語言中用于數(shù)據(jù)處理和分析的強大模塊仗颈,它提供了許多用于數(shù)據(jù)操作和清洗的函數(shù)佛舱,使得數(shù)據(jù)處理和分析變得更為簡單和直觀。
在Python中使用pandas模塊挨决,需要先安裝pandas庫请祖。可以通過pip命令進行安裝:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas脖祈。安裝完成后肆捕,就可以在Python腳本中導(dǎo)入pandas模塊,并使用其函數(shù)和方法了盖高。
Series
Series是一個一維數(shù)組慎陵,它不僅包含數(shù)據(jù)眼虱,還包含索引。Series可以被看作是一個字典席纽,其中的索引是鍵捏悬,值是數(shù)據(jù)。每個索引只有一個對應(yīng)的值润梯,因此Series可以被看作是具有標簽化的數(shù)值數(shù)據(jù)过牙。
import pandas as pd
# 創(chuàng)建一個Series
s = pd.Series([1, 2, 3, 4, 5])
# 輸出:
# 0 1
# 1 2
# 2 3
# 3 4
# 4 5
# dtype: int64
print(s)
上面的示例代碼創(chuàng)建了一個包含五個整數(shù)的Series,默認情況下纺铭,它的索引是從0開始的整數(shù)寇钉。
當然,我們也可以提供一個列表作為Series的索引和值彤蔽。
import pandas as pd
# 創(chuàng)建一個帶有自定義索引和值的Series
index = ['C', 'S', 'D', 'N', 'P']
s = pd.Series([1, 2, 3, 4, 5], index = index)
# 輸出:
# C 1
# S 2
# D 3
# N 4
# P 5
# dtype: int64
print(s)
我們還可以直接使用字典創(chuàng)建帶有自定義數(shù)據(jù)標簽的數(shù)據(jù)摧莽,pandas會自動把字典的鍵作為數(shù)據(jù)標簽,字典的值作為相對應(yīng)的數(shù)據(jù)顿痪。
import pandas as pd
# 創(chuàng)建一個帶有自定義索引和值的Series
s = pd.Series({'C': 1, 'S': 2, 'D': 3, 'N': 4, 'P': 5})
# 輸出:
# C 1
# S 2
# D 3
# N 4
# P 5
# dtype: int64
print(s)
如果想訪問Series里的數(shù)據(jù)镊辕,也非常簡單,直接使用中括號加數(shù)據(jù)標簽的方式即可蚁袭。
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
# 訪問第二個元素征懈,輸出:3
print(s[2])
s = pd.Series({'C': 1, 'S': 2, 'D': 3, 'N': 4, 'P': 5})
# 訪問Key值為'D'的元素,輸出:3
print(s['D'])
使用Series揩悄,結(jié)合pandas強大的數(shù)據(jù)對齊功能卖哎,可以讓我們快速對數(shù)據(jù)進行分析和處理。
import pandas as pd
s1 = pd.Series({'Red': 1, 'Blue': 2, 'Green': 3})
s2 = pd.Series({'Red': 100, 'Blue': 200, 'Green': 300})
s = s1 + s2
# 將兩個Series進行相加删性,輸出:
# Red 101
# Blue 202
# Green 303
# dtype: int64
print(s)
s1 = pd.Series({'Red': 1, 'Blue': 2, 'Green': 3, 'White': 4})
s2 = pd.Series({'Red': 100, 'Blue': 200, 'Green': 300})
s = s1 + s2
# 數(shù)據(jù)標簽不相同的數(shù)據(jù)亏娜,運算后結(jié)果是NaN,輸出:
# Blue 202.0
# Green 303.0
# Red 101.0
# White NaN
# dtype: float64
print(s)
# 數(shù)據(jù)標簽不相同的數(shù)據(jù)蹬挺,調(diào)用add函數(shù)维贺,可以設(shè)置默認填充值,輸出:
# Blue 202.0
# Green 303.0
# Red 101.0
# White 4.0
# dtype: float64
s = s1.add(s2, fill_value = 0)
print(s)
DataFrame
DataFrame是一個二維的表格型數(shù)據(jù)結(jié)構(gòu)巴帮,類似于Excel或數(shù)據(jù)庫中的表溯泣。DataFrame中的數(shù)據(jù)可以是不同的數(shù)據(jù)類型,比如:整數(shù)榕茧、浮點數(shù)垃沦、字符串、布爾值等用押。
import pandas as pd
# 創(chuàng)建DataFrame
data = {'Name': ['Jack', 'Tank', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
# 輸出:
# Name Age
# 0 Jack 20
# 1 Tank 21
# 2 John 19
print(df)
使用DataFrame肢簿,我們可以很方便地對表中的行、列進行增刪改查等操作。使用df['column_name']可以查看指定列的數(shù)據(jù)译仗;使用df.iloc[row_number]可以查看指定行的數(shù)據(jù)抬虽;使用df.loc[row_label]可以基于標簽訪問指定行的數(shù)據(jù);使用df[condition]可以篩選出滿足條件的數(shù)據(jù):使用df['new_column'] = values可以添加一個新列纵菌;使用del df['column_name']可以刪除一列阐污。
import pandas as pd
# 創(chuàng)建DataFrame
data = {'Name': ['Jack', 'Tank', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
# 輸出:
# Name Age
# 0 Jack 20
# 1 Tank 21
# 2 John 19
print(df)
df = pd.DataFrame(data, index = ['First', 'Second', 'Third'])
# 指定自定義索引,輸出:
# Name Age
# First Jack 20
# Second Tank 21
# Third John 19
print(df)
# 訪問列數(shù)據(jù)咱圆,輸出:
# First Jack
# Second Tank
# Third John
# Name: Name, dtype: object
print(df['Name'])
# 根據(jù)行索引訪問行數(shù)據(jù)笛辟,輸出:
# Name John
# Age 19
# Name: Third, dtype: object
print(df.iloc[2])
# 根據(jù)行標簽訪問行數(shù)據(jù),輸出:
# Name John
# Age 19
# Name: Third, dtype: object
print(df.loc['Third'])
df['Age'] = [22, 18, 20]
# 修改列數(shù)據(jù)序苏,輸出:
# Name Age
# First Jack 22
# Second Tank 18
# Third John 20
print(df)
df['Gender'] = ['M', 'F', 'F']
# 新增列數(shù)據(jù)手幢,輸出:
# Name Age Gender
# First Jack 22 M
# Second Tank 18 F
# Third John 20 F
print(df)
del df['Gender']
# 刪除列數(shù)據(jù),輸出:
# Name Age
# First Jack 22
# Second Tank 18
# Third John 20
print(df)
# 篩選出年齡大于20的數(shù)據(jù)忱详,輸出:
# Name Age
# First Jack 22
print(df[df['Age'] > 20])
數(shù)據(jù)讀取和寫入
使用pandas围来,可以方便地讀取和寫入各種數(shù)據(jù)格式,比如:CSV匈睁、Excel监透、SQL數(shù)據(jù)庫等。我們以CSV文件的讀寫為例航唆,來理解CSV表格數(shù)據(jù)的讀取和寫入胀蛮。
import pandas as pd
# 創(chuàng)建DataFrame
data = {'Name': ['Jack', 'Tank', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
# 將DataFrame寫入CSV文件
df.to_csv('output.csv', index = False)
在上面的示例代碼中,我們首先創(chuàng)建了一個名為df的DataFrame糯钙,然后使用to_csv函數(shù)將其寫入一個名為output.csv的CSV文件中粪狼。我們將index參數(shù)設(shè)置為False,以避免將DataFrame的索引寫入CSV文件任岸。
to_csv函數(shù)還有其他一些可選參數(shù)再榄,包括:
sep:用于指定CSV文件中的分隔符,默認是逗號享潜。
header:用于指定是否將DataFrame的列名寫入CSV文件中不跟,默認為True。
encoding:用于指定文件的編碼格式米碰,默認為UTF-8。
compression:用于指定文件的壓縮格式购城,默認為None吕座。
在下面的示例代碼中,我們讀取了上面保存的名為output.csv的CSV文件瘪板,并將其轉(zhuǎn)化為一個pandas DataFrame吴趴。
import pandas as pd
# 從CSV文件讀取
df = pd.read_csv('output.csv')
# 輸出:
# Name Age
# 0 Jack 20
# 1 Tank 21
# 2 John 19
print(df)
read_csv函數(shù)還有其他一些可選參數(shù),包括:
sep:指定分隔符侮攀,默認為逗號锣枝。
header:指定行號作為列名厢拭,默認為0。
index_col:將一列或多列設(shè)為DataFrame的索引撇叁。
usecols:返回的列的子集供鸠,可以是一個列表或函數(shù)。
dtype:為每一列設(shè)置數(shù)據(jù)類型陨闹。
skiprows:跳過指定的行數(shù)或行號楞捂。
na_values:用于識別空值的字符串或字符串列表。
keep_default_na:是否保留默認的識別空值的字符串趋厉。