引入約定
1.pandas的數(shù)據(jù)結(jié)構介紹
1.1Series
series類似于一維數(shù)組的對象,由一組數(shù)據(jù)以及與之相關的數(shù)據(jù)標簽即索引組成。
生成series
series的字符串:索引在左,值在右篮洁,如果不為數(shù)據(jù)指定索引,則會自動創(chuàng)建一個0—N-1的整數(shù)型索引
通過values獲取其數(shù)組表示形式
通過index獲取數(shù)組的索引
創(chuàng)建可以對各個數(shù)據(jù)點進行標記的索引
通過索引方式選取series中的單個值或一組值
numpy數(shù)組運算都會保留索引和值之間的鏈接
numpy數(shù)組運算
可以將series看成是一個定長的有序字典殃姓,因為它是索引值到數(shù)據(jù)值的一個映射
通過字典來創(chuàng)建series
只傳入字典袁波,則結(jié)果series中的索引就是原字典的鍵
sdata中跟states索引相匹配的3個值會被找出來并放到相應的位置上,但california所對應的sdata找不到蜗侈,所以其結(jié)果就為NaN(not a number)
pandas的isnull和notnull函數(shù)可用于檢測缺失數(shù)據(jù)
series會在算術運算中會自動對齊不同索引的數(shù)據(jù)
1.2 DataFrame
dataframe是一個表格型的數(shù)據(jù)結(jié)構篷牌,含有一組有序的列,每列可以使不同的值類型踏幻。
dataframe既有行索引也有列索引枷颊,可以被看做由series組成的字典
dataframe里面的數(shù)據(jù)是以一個或多個二位塊存放的
傳入一個由等長列表或numpy數(shù)組組成的字典,創(chuàng)建dataframe
如果指定了序列叫倍,則dataframe的列就會按照指定順序進行排列
如果傳入的列在數(shù)據(jù)中找不到偷卧,就會產(chǎn)生NA值
通過類似字典標記的方式或?qū)傩缘姆绞剑梢詫ataframe的列獲取為一個series
通過索引字段ix獲取行
可通過賦值方式修改列
將列表或數(shù)組賦值給某個列時吆倦,其長度必須跟dataframe的長度相匹配听诸。如果賦值的是一個series,就會精確匹配dataframe的索引蚕泽,所有空位都會被填上缺失值
為不存在的列賦值會創(chuàng)建出一個新列
del用于刪除列
將嵌套字典傳給dataframe晌梨,外層字典的鍵作為列,內(nèi)層鍵作為行索引
顯示指定dataframe的index和columns的name屬性
可以輸入給dataframe構造器的數(shù)據(jù)
1.3 索引對象
pandas的索引對象負責管理軸標簽和其他元數(shù)據(jù)须妻,index對象不可修改
pandas中主要的index對象
index的方法和屬性
2.基本功能
2.1重新索引
reindex:創(chuàng)建一個適應新索引的新對象