Dataframe:基本概念及創(chuàng)建
Dataframe 數(shù)據(jù)結(jié)構(gòu)
Dataframe是一個表格型的數(shù)據(jù)結(jié)構(gòu),“帶有標(biāo)簽的二維數(shù)組”
Dataframe帶有index(行標(biāo)簽)和columns(列標(biāo)簽),這兩個屬性十分重要!M徽铡余素!
pd.DataFrame(data,index,columns)
data:為傳入的值可以為
data = {'name':['Jack','Tom','Mary']? ? ? ? 'age':[18,19,20],? ? ? 'gender':['m','m','w']}
data = {'a':[1,2,3], 'b':[3,4,5], 'c':[5,6,7]}
data = {'one':np.random.rand(3), 'two':np.random.rand(3)}
data= {'one':pd.Series(np.random.rand(2), index = ['a','b'])
data=np.random.rand(9).reshape(3,3)#直接傳入2維數(shù)組分蓖,必須指定index | columns 按照list的方式來傳入
data = {'Jack':{'math':90,'english':89,'art':78}, 'Marry':{'math':82,'english':95,'art':92}, 'Tom':{'math':78,'english':67}}#index在這里和之前不同断凶,并不能改變原有index受葛,如果指向新的標(biāo)簽,值為NaN (非常重要r诒恕)
? ? ? ? ? ? ? Jack ?? Marry? Tom
?? art? ? ? ? 78? ? ? 92??? ? NaN
?english? ? 89? ? 95 ? ?? 67.0
?math? ? ? 90? ?? 82 ? ?? 78.0
Pandas數(shù)據(jù)結(jié)構(gòu)Dataframe:索引
Dataframe既有行索引也有列索引筑辨,可以被看做由Series組成的字典(共用一個索引) 選擇列 / 選擇行 / 切片 / 布爾判斷
注:data[‘列’][‘行’]默認(rèn)的參數(shù)
data3 = df.loc['one'](.loc()選擇行)
df.iloc[] - 按照整數(shù)位置(從軸的0到length-1)選擇行
data4 = df.loc[['one','two']]
print(data2,type(data3))
print(data3,type(data4))
# 按照index選擇行,只選擇一行輸出Series幸逆,選擇多行輸出Dataframe
#切變的操作與字典一致
布爾值索引
b1 = df < 20
b2 = df['a'] > 50
b3= df.loc[['one','three']] < 50
b4 = df[['a','b']] > 50
print(b1,type(b1))
print(df[b1])
多重索引
print(df['a'].loc[['one','three']]) # 選擇a列的one棍辕,three行
print(df[['b','c','d']].iloc[::2])? # 選擇b,c还绘,d列的one楚昭,three行
print(df[df['a'] < 50].iloc[:2])? # 選擇滿足判斷索引的前兩行數(shù)據(jù)
Pandas數(shù)據(jù)結(jié)構(gòu)Dataframe:基本技巧
數(shù)據(jù)查看、轉(zhuǎn)置 / 添加拍顷、修改抚太、刪除值 / 對齊 / 排序
df['e'] = 10
df.loc[4] = 20
print(df)
# 新增列/行并賦值
df['e'] = 20
df[['a','c']] = 100
print(df)
# 索引后直接修改值
del df['a']
# del語句 - 刪除列
print(df.drop(0))
print(df.drop([1,2]))
# drop()刪除行,inplace=False → 刪除后生成新的數(shù)據(jù)昔案,不改變原數(shù)據(jù)
print(df.drop(['d'], axis = 1))
# drop()刪除列尿贫,需要加上axis = 1,inplace=False → 刪除后生成新的數(shù)據(jù)踏揣,不改變原數(shù)據(jù)
print(df1 + df2)
# DataFrame對象之間的數(shù)據(jù)自動按照列和索引(行標(biāo)簽)對齊
排序1 - 按值排序 .sort_values
# 同樣適用于Series
print(df1.sort_values(['a'], ascending = True))? # 升序
print(df1.sort_values(['a'], ascending = False))? # 降序
# ascending參數(shù):設(shè)置升序降序庆亡,默認(rèn)升序
# 單列排序
print(df2.sort_values(['a','c']))
# 多列排序,按列順序排序
?排序2 - 索引排序 .sort_index
print(df2.sort_index())
# 按照index排序
# 默認(rèn) ascending=True, inplace=False