一双戳、panda的數(shù)據(jù)結(jié)構(gòu)
1.1 Series
Series是一種以為數(shù)組型對(duì)象殖演,包含一個(gè)值序列,并且包含了數(shù)據(jù)標(biāo)簽寻行,成為索引(index)。最簡(jiǎn)單的序列可以僅有一個(gè)數(shù)組形成但指。
默認(rèn)索引從0開始寡痰,通過values、index屬性獲得Series對(duì)象的值和索引:
可以創(chuàng)建和修改索引序列:
使用字典生成一個(gè)Series棋凳,可以將字典按照想要的順序傳遞給構(gòu)造函數(shù),
缺失值用NaN表示连躏。
缺失數(shù)據(jù)用isnull和notnull函數(shù)檢查
Series實(shí)例也有isnull和notnull方法
對(duì)齊索引操作:索引將是索引對(duì)的并集
Series對(duì)象自身和index有name的屬性
1.2 DataFrame
DataFrame可以被視為一個(gè)共享相同索引的Series的字典
利用字典生成DataFrame
DataFrame的head()方法只展示頭五行剩岳,也可以指定行數(shù)
可以指定列的順序
可以按標(biāo)記或?qū)傩阅菢訖z索列
賦值給列
將Series賦值給一列,Series的索引將按照DataFrame重新排列入热,并在空缺處填充缺失值NaN
如果被賦值的列不存在拍棕,會(huì)生成新列。del關(guān)鍵字可以刪除列
創(chuàng)建一列布爾值勺良,用frame2.F的語法無法創(chuàng)建新的列
顯示列名
從DataFrame中選取的列是數(shù)據(jù)的視圖绰播,而不是拷貝。因此對(duì)Series的修改會(huì)映射到DataFrame中尚困。如需復(fù)制應(yīng)當(dāng)使用Series的copy方法蠢箩。
包含字典的嵌套字典,內(nèi)部字典的鍵值會(huì)被作為行索引值
轉(zhuǎn)置事甜,但不會(huì)改變frame3
包含Series的字典也可以用來構(gòu)造DataFrame
1.3索引對(duì)象
索引對(duì)象不可修改谬泌,分享索引對(duì)象更安全:
索引可以包含重復(fù)標(biāo)簽:
索引有一些方法和屬性,如計(jì)算索引唯一序列逻谦,計(jì)算兩個(gè)索引的并掌实、交集等
二、基本功能
重建索引
數(shù)據(jù)按新索引排列邦马,如果某個(gè)索引之前不存在贱鼻,會(huì)引入缺失值
不改變?cè)瓕?duì)象
對(duì)于順序數(shù)據(jù)宴卖,如時(shí)間,重建索引會(huì)插填值邻悬。methed可選參數(shù)ffill填充時(shí)用前值嘱腥,bfill填充時(shí)用后值
重建列名
使用loc 進(jìn)行標(biāo)簽索引
刪除條目
傳遞axis=1,刪除列值
inplace = True 真正清除刪除的數(shù)據(jù)
索引拘悦、選擇與過濾
使用周標(biāo)簽loc或整數(shù)標(biāo)簽iloc選取子集
fill_value設(shè)置填充值
DataFrame與Series間的操作
行上廣播
列上廣播
排序:
sort_index()按索引排序
sort_values()按值排序,缺失值會(huì)被排到尾部
對(duì)DataFrame排序齿兔,使用一列多多列作為排序鍵。傳遞參數(shù)by
rank()排名础米,有相同的數(shù)分苇,取他們排名的平均數(shù),如7的排名屁桑,(6+7)/2 = 6.5
按出現(xiàn)的次序排名
三医寿、描述性統(tǒng)計(jì)的概述與計(jì)算
自動(dòng)排除NA值,使用skipna實(shí)現(xiàn)不排除NA值
匯總統(tǒng)計(jì)
非數(shù)值的匯總統(tǒng)計(jì)
相關(guān)性corr蘑斧,協(xié)方差cov
唯一值靖秩、計(jì)數(shù)