1、DataFrame的創(chuàng)建
DataFrame是一種表格型數(shù)據(jù)結(jié)構(gòu)诱贿,它含有一組有序的列娃肿,每列可以是不同的值。DataFrame既有行索引珠十,也有列索引料扰,它可以看作是由Series組成的字典,不過(guò)這些Series公用一個(gè)索引焙蹭。
DataFrame的創(chuàng)建有多種方式晒杈,不過(guò)最重要的還是根據(jù)dict進(jìn)行創(chuàng)建,以及讀取csv或者txt文件來(lái)創(chuàng)建孔厉。這里主要介紹這兩種方式拯钻。
根據(jù)字典創(chuàng)建
data = {
'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002],
'pop':[1.5,1.7,3.6,2.4,2.9]
}
frame = pd.DataFrame(data)
frame
#輸出
pop state year
0 1.5 Ohio 2000
1 1.7 Ohio 2001
2 3.6 Ohio 2002
3 2.4 Nevada 2001
4 2.9 Nevada 2002
DataFrame的行索引是index,列索引是columns撰豺,我們可以在創(chuàng)建DataFrame時(shí)指定索引的值:
frame2 = pd.DataFrame(data,index=['one','two','three','four','five'],columns=['year','state','pop','debt'])
frame2
#輸出
year state pop debt
one 2000 Ohio 1.5 NaN
two 2001 Ohio 1.7 NaN
three 2002 Ohio 3.6 NaN
four 2001 Nevada 2.4 NaN
five 2002 Nevada 2.9 NaN
使用嵌套字典也可以創(chuàng)建DataFrame粪般,此時(shí)外層字典的鍵作為列,內(nèi)層鍵則作為索引:
pop = {'Nevada':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3
#輸出
Nevada Ohio
2000 NaN 1.5
2001 2.4 1.7
2002 2.9 3.6
我們可以用index污桦,columns亩歹,values來(lái)訪問(wèn)DataFrame的行索引,列索引以及數(shù)據(jù)值凡橱,數(shù)據(jù)值返回的是一個(gè)二維的ndarray
frame2.values
#輸出
array([[2000, 'Ohio', 1.5, 0],
[2001, 'Ohio', 1.7, 1],
[2002, 'Ohio', 3.6, 2],
[2001, 'Nevada', 2.4, 3],
[2002, 'Nevada', 2.9, 4]], dtype=object)
讀取文件
讀取文件生成DataFrame最常用的是read_csv,read_table方法小作。該方法中幾個(gè)重要的參數(shù)如下所示:
參數(shù) | 描述 |
---|---|
header | 默認(rèn)第一行為columns,如果指定header=None稼钩,則表明沒(méi)有索引行顾稀,第一行就是數(shù)據(jù) |
index_col | 默認(rèn)作為索引的為第一列,可以設(shè)為index_col為-1变抽,表明沒(méi)有索引列 |
nrows | 表明讀取的行數(shù) |
sep或delimiter | 分隔符础拨,read_csv默認(rèn)是逗號(hào),而read_table默認(rèn)是制表符\t |
encoding | 編碼格式 |
其他創(chuàng)建DataFrame的方式有很多绍载,比如我們可以通過(guò)讀取mysql或者mongoDB來(lái)生成诡宗,也可以讀取json文件等等,這里就不再介紹击儡。
2塔沃、DataFrame軸的概念
在DataFrame的處理中經(jīng)常會(huì)遇到軸的概念欢摄,這里先給大家一個(gè)直觀的印象庸疾,我們所說(shuō)的axis=0即表示沿著每一列或行標(biāo)簽\索引值向下執(zhí)行方法,axis=1即表示沿著每一行或者列標(biāo)簽?zāi)O驁?zhí)行對(duì)應(yīng)的方法。
3拍鲤、DataFrame一些性質(zhì)
索引背稼、切片
我們可以根據(jù)列名來(lái)選取一列兼砖,返回一個(gè)Series:
frame2['year']
#輸出
one 2000
two 2001
three 2002
four 2001
five 2002
Name: year, dtype: int64
我們還可以選取多列或者多行:
data = pd.DataFrame(np.arange(16).reshape((4,4)),index = ['Ohio','Colorado','Utah','New York'],columns=['one','two','three','four'])
data[['two','three']]
#輸出
two three
Ohio 1 2
Colorado 5 6
Utah 9 10
New York 13 14
#取行
data[:2]
#輸出
one two three four
Ohio 0 1 2 3
Colorado 4 5 6 7
當(dāng)然测蘑,在選取數(shù)據(jù)的時(shí)候,我們還可以根據(jù)邏輯條件來(lái)選戎瓢埂:
data[data['three']>5]
#輸出
one two three four
Colorado 4 5 6 7
Utah 8 9 10 11
New York 12 13 14 15
pandas提供了專(zhuān)門(mén)的用于索引DataFrame的方法冒窍,即使用ix方法進(jìn)行索引,不過(guò)ix在最新的版本中已經(jīng)被廢棄了,如果要是用標(biāo)簽豺鼻,最好使用loc方法综液,如果使用下標(biāo),最好使用iloc方法:
#data.ix['Colorado',['two','three']]
data.loc['Colorado',['two','three']]
#輸出
two 5
three 6
Name: Colorado, dtype: int64
data.iloc[0:3,2]
#輸出
Ohio 2
Colorado 6
Utah 10
Name: three, dtype: int64
修改數(shù)據(jù)
可以使用一個(gè)標(biāo)量修改DataFrame中的某一列儒飒,此時(shí)這個(gè)標(biāo)量會(huì)廣播到DataFrame的每一行上:
data = {
'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002],
'pop':[1.5,1.7,3.6,2.4,2.9]
}
frame2 = pd.DataFrame(data,index=['one','two','three','four','five'],columns=['year','state','pop','debt'])
frame2
frame2['debt']=16.5
frame2
#輸出
year state pop debt
one 2000 Ohio 1.5 16.5
two 2001 Ohio 1.7 16.5
three 2002 Ohio 3.6 16.5
four 2001 Nevada 2.4 16.5
five 2002 Nevada 2.9 16.5
也可以使用一個(gè)列表來(lái)修改谬莹,不過(guò)要保證列表的長(zhǎng)度與DataFrame長(zhǎng)度相同:
frame2.debt = np.arange(5)
frame2
#輸出
year state pop debt
one 2000 Ohio 1.5 0
two 2001 Ohio 1.7 1
three 2002 Ohio 3.6 2
four 2001 Nevada 2.4 3
five 2002 Nevada 2.9 4
可以使用一個(gè)Series,此時(shí)會(huì)根據(jù)索引進(jìn)行精確匹配:
val = pd.Series([-1.2,-1.5,-1.7],index=['two','four','five'])
frame2['debt'] = val
frame2
#輸出
year state pop debt
one 2000 Ohio 1.5 NaN
two 2001 Ohio 1.7 -1.2
three 2002 Ohio 3.6 NaN
four 2001 Nevada 2.4 -1.5
five 2002 Nevada 2.9 -1.7
重新索引
使用reindex方法對(duì)DataFrame進(jìn)行重新索引桩了。對(duì)DataFrame進(jìn)行重新索引附帽,可以重新索引行,列或者兩個(gè)都修改井誉,如果只傳入一個(gè)參數(shù)士葫,則會(huì)從新索引行:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),index=[1,4,5],columns=['Ohio','Texas','California'])
frame2 = frame.reindex([1,2,4,5])
frame2
#輸出
Ohio Texas California
1 0.0 1.0 2.0
2 NaN NaN NaN
4 3.0 4.0 5.0
5 6.0 7.0 8.0
states = ['Texas','Utah','California']
frame.reindex(columns=states)
#輸出
Texas Utah California
1 1 NaN 2
4 4 NaN 5
5 7 NaN 8
填充數(shù)據(jù)只能按行填充,此時(shí)只能對(duì)行進(jìn)行重新索引:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'],columns = ['Ohio','Texas','California'])
frame.reindex(['a','b','c','d'],method = 'bfill')
#frame.reindex(['a','b','c','d'],method = 'bfill',columns=states) 報(bào)錯(cuò)
丟棄指定軸上的值
可以使用drop方法丟棄指定軸上的值送悔,不會(huì)對(duì)原DataFrame產(chǎn)生影響
frame = pd.DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'],columns = ['Ohio','Texas','California'])
frame.drop('a')
#輸出
Ohio Texas California
a 0 1 2
c 3 4 5
d 6 7 8
frame.drop(['Ohio'],axis=1)
#輸出
Texas California
a 1 2
c 4 5
d 7 8
算術(shù)運(yùn)算
DataFrame在進(jìn)行算術(shù)運(yùn)算時(shí)會(huì)進(jìn)行補(bǔ)齊,在不重疊的部分補(bǔ)足NA:
df1 = pd.DataFrame(np.arange(9).reshape((3,3)),columns=list('bcd'),index=['Ohio','Texas','Colorado'])
df2 = pd.DataFrame(np.arange(12).reshape((4,3)),columns = list('bde'),index=['Utah','Ohio','Texas','Oregon'])
df1 + df2
#輸出
b c d e
Colorado NaN NaN NaN NaN
Ohio 3.0 NaN 6.0 NaN
Oregon NaN NaN NaN NaN
Texas 9.0 NaN 12.0 NaN
Utah NaN NaN NaN NaN
可以使用fill_value方法填充N(xiāo)A數(shù)據(jù)爪模,不過(guò)兩個(gè)df中都為NA的數(shù)據(jù)欠啤,該方法不會(huì)填充:
df1.add(df2,fill_value=0)
#輸出
b c d e
Colorado 6.0 7.0 8.0 NaN
Ohio 3.0 1.0 6.0 5.0
Oregon 9.0 NaN 10.0 11.0
Texas 9.0 4.0 12.0 8.0
Utah 0.0 NaN 1.0 2.0
函數(shù)應(yīng)用和映射
numpy的元素級(jí)數(shù)組方法,也可以用于操作Pandas對(duì)象:
frame = pd.DataFrame(np.random.randn(3,3),columns=list('bcd'),index=['Ohio','Texas','Colorado'])
np.abs(frame)
#輸出
b c d
Ohio 0.367521 0.232387 0.649330
Texas 3.115632 1.415106 2.093794
Colorado 0.714983 1.420871 0.557722
另一個(gè)常見(jiàn)的操作是屋灌,將函數(shù)應(yīng)用到由各列或行所形成的一維數(shù)組上洁段。DataFrame的apply方法即可實(shí)現(xiàn)此功能。
f = lambda x:x.max() - x.min()
frame.apply(f)
#輸出
b 3.830616
c 2.835978
d 2.743124
dtype: float64
frame.apply(f,axis=1)
#輸出
Ohio 1.016851
Texas 4.530739
Colorado 2.135855
dtype: float64
def f(x):
return pd.Series([x.min(),x.max()],index=['min','max'])
frame.apply(f)
#輸出
b c d
min -0.714983 -1.415106 -0.649330
max 3.115632 1.420871 2.093794
元素級(jí)的Python函數(shù)也是可以用的,使用applymap方法:
format = lambda x:'%.2f'%x
frame.applymap(format)
#輸出
b c d
Ohio 0.37 -0.23 -0.65
Texas 3.12 -1.42 2.09
Colorado -0.71 1.42 -0.56
排序和排名
對(duì)于DataFrame,sort_index可以根據(jù)任意軸的索引進(jìn)行排序共郭,并指定升序降序
frame = pd.DataFrame(np.arange(8).reshape((2,4)),index=['three','one'],columns=['d','a','b','c'])
frame.sort_index()
#輸出
d a b c
one 4 5 6 7
three 0 1 2 3
frame.sort_index(1,ascending=False)
#輸出
d a b c
one 4 5 6 7
three 0 1 2 3
DataFrame也可以按照值進(jìn)行排序:
#按照任意一列或多列進(jìn)行排序
frame.sort_values(by=['a','b'])
#輸出
d a b c
three 0 1 2 3
one 4 5 6 7
匯總和計(jì)算描述統(tǒng)計(jì)
DataFrame中的實(shí)現(xiàn)了sum祠丝、mean、max等方法,我們可以指定進(jìn)行匯總統(tǒng)計(jì)的軸除嘹,同時(shí)写半,也可以使用describe函數(shù)查看基本所有的統(tǒng)計(jì)項(xiàng):
df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
df.sum(axis=1)
#輸出
one 9.25
two -5.80
dtype: float64
#Na會(huì)被自動(dòng)排除,可以使用skipna選項(xiàng)來(lái)禁用該功能
df.mean(axis=1,skipna=False)
#輸出
a NaN
b 1.300
c NaN
d -0.275
dtype: float64
#idxmax返回間接統(tǒng)計(jì)尉咕,是達(dá)到最大值的索引
df.idxmax()
#輸出
one b
two d
dtype: object
#describe返回的是DataFrame的匯總統(tǒng)計(jì)
#非數(shù)值型的與數(shù)值型的統(tǒng)計(jì)返回結(jié)果不同
df.describe()
#輸出
one two
count 3.000000 2.000000
mean 3.083333 -2.900000
std 3.493685 2.262742
min 0.750000 -4.500000
25% 1.075000 -3.700000
50% 1.400000 -2.900000
75% 4.250000 -2.100000
max 7.100000 -1.300000
DataFrame也實(shí)現(xiàn)了corr和cov方法來(lái)計(jì)算一個(gè)DataFrame的相關(guān)系數(shù)矩陣和協(xié)方差矩陣叠蝇,同時(shí)DataFrame也可以與Series求解相關(guān)系數(shù)。
frame1 = pd.DataFrame(np.random.randn(3,3),index=list('abc'),columns=list('abc'))
frame1.corr
#輸出
<bound method DataFrame.corr of a b c
a 1.253773 0.429059 1.535575
b -0.113987 -2.837396 -0.894469
c -0.548208 0.834003 0.994863>
frame1.cov()
#輸出
a b c
a 0.884409 0.357304 0.579613
b 0.357304 4.052147 2.442527
c 0.579613 2.442527 1.627843
#corrwith用于計(jì)算每一列與Series的相關(guān)系數(shù)
frame1.corrwith(frame1['a'])
#輸出
a 1.000000
b 0.188742
c 0.483065
dtype: float64
處理缺失數(shù)據(jù)
Pandas中缺失值相關(guān)的方法主要有以下三個(gè):
isnull方法用于判斷數(shù)據(jù)是否為空數(shù)據(jù)年缎;
fillna方法用于填補(bǔ)缺失數(shù)據(jù)悔捶;
dropna方法用于舍棄缺失數(shù)據(jù)铃慷。
上面兩個(gè)方法返回一個(gè)新的Series或者DataFrame,對(duì)原數(shù)據(jù)沒(méi)有影響,如果想在原數(shù)據(jù)上進(jìn)行直接修改蜕该,使用inplace參數(shù):
data = pd.DataFrame([[1,6.5,3],[1,np.nan,np.nan],[np.nan,np.nan,np.nan],[np.nan,6.5,3]])
data.dropna()
#輸出
0 1 2
0 1.0 6.5 3.0
對(duì)DataFrame來(lái)說(shuō)犁柜,dropna方法如果發(fā)現(xiàn)缺失值,就會(huì)進(jìn)行整行刪除堂淡,不過(guò)可以指定刪除的方式馋缅,how=all,是當(dāng)整行全是na的時(shí)候才進(jìn)行刪除,同時(shí)還可以指定刪除的軸淤齐。
data.dropna(how='all',axis=1,inplace=True)
data
#輸出
0 1 2
0 1.0 6.5 3.0
1 1.0 NaN NaN
2 NaN NaN NaN
3 NaN 6.5 3.0
DataFrame填充缺失值可以統(tǒng)一填充股囊,也可以按列填充,或者指定一種填充方式:
data.fillna({1:2,2:3})
#輸出
0 1 2
0 1.0 6.5 3.0
1 1.0 2.0 3.0
2 NaN 2.0 3.0
3 NaN 6.5 3.0
data.fillna(method='ffill')
#輸出
0 1 2
0 1.0 6.5 3.0
1 1.0 6.5 3.0
2 1.0 6.5 3.0
3 1.0 6.5 3.0