目錄:
1.values 和index
2.檢測(cè)缺失數(shù)據(jù)
3.name 屬性
4.賦值直接修改
DataFrame :表格型數(shù)據(jù)結(jié)構(gòu)
1.構(gòu)建DataFrame方法(1)俭茧,直接傳入一個(gè)字典明垢。如果指定了列序列您朽,則列就會(huì)按照指定順序排列
2.通過類似字典標(biāo)記的方式,將DataFrame的列獲取為一個(gè)Series
3.可以通過賦值方式修改
4.為不存在的列賦值會(huì)創(chuàng)建新列气嫁,del 刪除列
5.構(gòu)建方法(2)鲸伴,嵌套字典
6.設(shè)置DataFrame 的index 和columns 的name屬性
7.索引對(duì)象:管理軸標(biāo)簽和其他元素
8.Index 的方法和屬性
9.重新索引: reindex ,創(chuàng)建一個(gè)適應(yīng)新索引的新對(duì)象
10.丟棄指定軸上的項(xiàng)滋恬,drop
11.索引、選取和過濾
12.算數(shù)運(yùn)算和數(shù)據(jù)對(duì)齊
13.DataFrame 和Series 之間的運(yùn)算
14.函數(shù)應(yīng)用和映射
15.排序
16.排名
17.帶有重復(fù)值的軸索引
18.匯總和計(jì)算描述統(tǒng)計(jì)
19.idxmin 和 idxmax 返回的是間接統(tǒng)計(jì)抱究,達(dá)到最小值或最大值的索引
20.相關(guān)系數(shù)和協(xié)方差(空)
21.唯一值、值計(jì)數(shù)以及成元資格
22.處理缺失數(shù)據(jù)
23.過濾缺失值
24.填充缺失數(shù)據(jù)带斑, fillna
25.層次化索引(空)
26.重排分級(jí)順序(空)
27.根據(jù)級(jí)別匯總統(tǒng)計(jì)(空)
28.使用DataFrame的列(空)
29.整數(shù)索引(空)
30.面板數(shù)據(jù)(空)
正文:
Series:由一維數(shù)組以及一組與之相關(guān)的數(shù)據(jù)標(biāo)簽組成
1.values 和index
2. 檢測(cè)缺失數(shù)據(jù)
- isnull : 是否缺失
- notnull
3. name 屬性
4.賦值直接修改
DataFrame :表格型數(shù)據(jù)結(jié)構(gòu)
1.構(gòu)建DataFrame方法(1)鼓寺,直接傳入一個(gè)字典。如果指定了列序列勋磕,則列就會(huì)按照指定順序排列
2.通過類似字典標(biāo)記的方式妈候,將DataFrame的列獲取為一個(gè)Series
3.可以通過賦值方式修改,
4. 為不存在的列賦值會(huì)創(chuàng)建新列挂滓,del 刪除列
5. 構(gòu)建方法(2)苦银,嵌套字典
- 指定索引
6. 設(shè)置DataFrame 的index 和columns 的name屬性
7.索引對(duì)象:管理軸標(biāo)簽和其他元素
- Index 最泛化的index對(duì)象
- Int64Index 針對(duì)整數(shù)的特殊Index
- MultiIndex "層次化“ 索引對(duì)象
- DatetimeIndex 存儲(chǔ)納秒級(jí)時(shí)間戳
- PeriodIndex 針對(duì)Period數(shù)據(jù)的特殊Index
8.Index 的方法和屬性
- append 連接另一個(gè)Index對(duì)象,產(chǎn)生一個(gè)新的Index
- diff 計(jì)算差集赶站,并得到一個(gè)Index
- intersection 計(jì)算交集
- union 計(jì)算并集
- isin 計(jì)算一個(gè)指示各值是否都包含在參數(shù)集合中的布爾型數(shù)組
- delete 刪除索引I處的元素幔虏,并得到新的Index
- drop 刪除傳入的值,并得到新的Index
- insert 將元素插入到索引i處贝椿,得到新Index
- is_monotonic 當(dāng)各元素均大于等于前一個(gè)元素時(shí)想括,返回True
- is_unique 將Index沒有重復(fù)值時(shí), 返回True
- unique 計(jì)算Index中唯一值的數(shù)組
9.重新索引: reindex 烙博,創(chuàng)建一個(gè)適應(yīng)新索引的新對(duì)象
- 根據(jù)新索引進(jìn)行重排瑟蜈。如果某個(gè)索引當(dāng)前不存在烟逊,就引入缺失值。
- 對(duì)有序數(shù)據(jù)铺根,重新索引需要插值處理
ffill 或pad , 前向填充值
bfill 或backfill 宪躯, 后向填充值
- 可修改(行)索引、列位迂,
- 對(duì)行和列重新索引访雪,利用ix的標(biāo)簽索引功能,簡(jiǎn)潔
- index 用作索引的新序列
- method 插值方式
- fill_value 在重新索引的過程中囤官,需要引入缺省值時(shí)使用的替代值
- limit 向前或后向填充時(shí)的最大填充量
- level 在Multilndex的指定級(jí)別上匹配簡(jiǎn)單索引冬阳,否則選取其子集
- copy 默認(rèn)為True , 無論如何都復(fù)制, 如果為False, 則新舊相等就不復(fù)制
10.丟棄指定軸上的項(xiàng)党饮,drop
11.索引肝陪、選取和過濾
- Series索引,索引值不只是整數(shù)
- 利用標(biāo)簽的切片運(yùn)算刑顺, 末端是包含的氯窍, 而普通的Python切片運(yùn)算是不包含的
- 對(duì)DataFrame進(jìn)行索引
- 在DataFrame的行上進(jìn)行標(biāo)簽索引,引入專門的索引字段ix
- obj[val] , 選取DataFrame的單個(gè)列或一組列
- obj.ix[val] , 選取DataFrame的單個(gè)行或一組行
- obj.ix[:, val] , 選取單個(gè)列或列子集
- obj.ix[val1, val2] , 同時(shí)選取行或列
- reindex 方法蹲堂, 將一個(gè)或多個(gè)軸匹配到新索引
- xs 方法狼讨, 根據(jù)標(biāo)簽選取單行或單列,并返回一個(gè)Series
- icol柒竞、 irow 方法政供, 根據(jù)整數(shù)位置選取單列或單行,并返回一個(gè)Series
- get_value朽基、 set_value 方法 布隔, 根據(jù)行標(biāo)簽或列標(biāo)簽 選取 / 設(shè)置 單個(gè)值
12.算數(shù)運(yùn)算和數(shù)據(jù)對(duì)齊
- pandas 可以對(duì)不同索引的對(duì)象進(jìn)行算術(shù)運(yùn)算。
- 對(duì)于DataFrame, 對(duì)齊操作會(huì)同時(shí)發(fā)生在行和列上
- 在算術(shù)方法中填充值稼虎, add函數(shù), fill_value參數(shù)
- 在對(duì)Series或DataFrame重新索引時(shí)衅檀, 也可以指定一個(gè)填充值(?)
- add 用于加法(+)的方法
- sub 用于減法(-) 的方法
- div 用于除法(/) 的方法
- mul 用于乘法 (*) 的方法
13.DataFrame 和Series 之間的運(yùn)算
默認(rèn)情況下, DataFrame和Series 之間的算數(shù)運(yùn)算會(huì)將Series的索引匹配到DataFrame的列
14.函數(shù)應(yīng)用和映射
- Numpy 的nfuns 用于操作pandas對(duì)象
- 將函數(shù)應(yīng)用到各列或行所形成的一維數(shù)組上霎俩。DataFrame 的apply 方法( ? )
- 想得到frame中各個(gè)浮點(diǎn)值的格式好字符串哀军,使用applymap 。 Series 也有用于應(yīng)用元素級(jí)函數(shù)的map方法
15.排序
- sort_index 方法
- 在DataFrame上打却,根據(jù)一個(gè)或多個(gè)列中的值進(jìn)行排序,將一個(gè)或多個(gè)列名字傳遞給by選項(xiàng)
- 對(duì)Series進(jìn)行排序杉适,用order方法
16.排名
- rank , 默認(rèn)情況下学密,是通過“為各組分配一個(gè)平均排名”的方式破壞平級(jí)關(guān)系
- 根據(jù)值在原數(shù)據(jù)中出現(xiàn)的順序給出排名
- 按降序進(jìn)行排名
- average 在相等分組中淘衙,為各個(gè)值分配平均排名
- min 使用整個(gè)分組的最小排名
- max 使用整個(gè)分組的最大pdmk
*first 按值在原始數(shù)據(jù)中的出現(xiàn)順序分配排名
17.帶有重復(fù)值的軸索引
- 索引的is_unique屬性可以告訴它的值是否唯一:
- 如果某個(gè)索引對(duì)應(yīng)多個(gè)值,則返回一個(gè)Series腻暮;而對(duì)應(yīng)單個(gè)值的彤守,則返回一個(gè)標(biāo)量值毯侦。
18.匯總和計(jì)算描述統(tǒng)計(jì)
- DataFrame的sum方法會(huì)返回一個(gè)含義列小計(jì)的Series,傳入axis=1 將按行進(jìn)行求和運(yùn)算
- NA會(huì)自動(dòng)被排除,除非整個(gè)切片都是NA具垫。通過skipna選項(xiàng)可禁用此功能
- axis , 簡(jiǎn)約的軸侈离,DataFrame的行用0, 列用1
- skipna , 排除缺失值筝蚕,默認(rèn)值為True
- level 卦碾, 如果軸是層次化索引,則根據(jù)level分組約簡(jiǎn)
19.idxmin 和 idxmax 返回的是間接統(tǒng)計(jì)起宽,達(dá)到最小值或最大值的索引
- cumsum() 累積型
- describe洲胖, 一次性產(chǎn)生多個(gè)匯總統(tǒng)計(jì)
- count , 非NA的數(shù)量
- describe 針對(duì)Series 或DataFrame列計(jì)算匯總統(tǒng)計(jì)
- min, max 計(jì)算最小值或最大值
- argmin, argmax 計(jì)算能夠獲取到最小值和最大值的索引位置(整數(shù))
- idxmin坯沪、idxmax 計(jì)算能夠獲取到最小值和最大值的索引值
- quantile, 計(jì)算樣本的分位數(shù)
- sum
- mean
- median 绿映, 值的算數(shù)中位數(shù)
- mad ,根據(jù)平均值計(jì)平局絕對(duì)離差
- var 樣本值的方差
- std 樣本值的標(biāo)準(zhǔn)差
- skew 樣本值的偏度(三階矩)
- kurt 樣本值的峰度(四階矩)
- cumsum 樣本值的累積和
- cummin, cummax 樣本值的累積最大值和累積最小值
- cumprod 樣本值的累積積
- diff 計(jì)算一階差分(時(shí)間序列)
- pct_change 計(jì)算百分?jǐn)?shù)變化
20.相關(guān)系數(shù)和協(xié)方差(空)
21.唯一值、值計(jì)數(shù)以及成元資格
- unique , 得到唯一值數(shù)組
- value_counts 用于計(jì)算一個(gè)Series中各值出現(xiàn)的頻率
- isin 腐晾,用于判斷矢量化集合的成元資格
22.處理缺失數(shù)據(jù)
pandas 使用浮點(diǎn)值NaN表示浮點(diǎn)和非浮點(diǎn)數(shù)組中的缺失值叉弦。
- dropna 根據(jù)各標(biāo)簽的值中是否存在缺失數(shù)據(jù)對(duì)軸標(biāo)簽進(jìn)行過濾, 可通過閾值調(diào)節(jié)對(duì)缺失值的容忍度
- fillna 對(duì)制定值或插值方法(fill / bfill)填充缺失數(shù)據(jù)
*isnull 返回一個(gè)含有布爾值的對(duì)象藻糖,這個(gè)布爾值表示那些值是缺失值/NA淹冰,該對(duì)象的類型與源類型一樣 - notnull , isnull 的否定式
23.過濾缺失值
- 對(duì)于Series , dropna 返回一個(gè)僅含非空數(shù)據(jù)和索引值的Series
- DataFrame對(duì)象, dropna 默認(rèn)丟棄任何含有缺失值的行
- 傳入how = 'all' 將只丟棄全為NA的那些行;
*要用這種方式丟棄列巨柒,只需傳入axis=1即可
- thresh參數(shù)樱拴,只 留下一部分觀測(cè)數(shù)據(jù) ?
24.填充缺失數(shù)據(jù), fillna
- 通常一個(gè)常數(shù)調(diào)用fillna, 也可通過一個(gè)字典調(diào)用
- 可用fillna實(shí)現(xiàn)許多功能,插值方法
fillna函數(shù)的參數(shù)
- value
- method
- axis
- inplace
- limit
25.層次化索引
26.重排分級(jí)順序
27.根據(jù)級(jí)別匯總統(tǒng)計(jì)
28.使用DataFrame的列
29.整數(shù)索引
30.面板數(shù)據(jù)