《利用python進(jìn)行數(shù)據(jù)分析》2.0——pandas庫

目錄:

1.values 和index
2.檢測(cè)缺失數(shù)據(jù)
3.name 屬性
4.賦值直接修改

DataFrame :表格型數(shù)據(jù)結(jié)構(gòu)

1.構(gòu)建DataFrame方法(1)俭茧,直接傳入一個(gè)字典明垢。如果指定了列序列您朽,則列就會(huì)按照指定順序排列
2.通過類似字典標(biāo)記的方式,將DataFrame的列獲取為一個(gè)Series
3.可以通過賦值方式修改
4.為不存在的列賦值會(huì)創(chuàng)建新列气嫁,del 刪除列
5.構(gòu)建方法(2)鲸伴,嵌套字典
6.設(shè)置DataFrame 的index 和columns 的name屬性
7.索引對(duì)象:管理軸標(biāo)簽和其他元素
8.Index 的方法和屬性
9.重新索引: reindex ,創(chuàng)建一個(gè)適應(yīng)新索引的新對(duì)象
10.丟棄指定軸上的項(xiàng)滋恬,drop
11.索引、選取和過濾
12.算數(shù)運(yùn)算和數(shù)據(jù)對(duì)齊
13.DataFrame 和Series 之間的運(yùn)算
14.函數(shù)應(yīng)用和映射
15.排序
16.排名
17.帶有重復(fù)值的軸索引
18.匯總和計(jì)算描述統(tǒng)計(jì)
19.idxmin 和 idxmax 返回的是間接統(tǒng)計(jì)抱究,達(dá)到最小值或最大值的索引
20.相關(guān)系數(shù)和協(xié)方差(空)
21.唯一值、值計(jì)數(shù)以及成元資格
22.處理缺失數(shù)據(jù)
23.過濾缺失值
24.填充缺失數(shù)據(jù)带斑, fillna
25.層次化索引(空)
26.重排分級(jí)順序(空)
27.根據(jù)級(jí)別匯總統(tǒng)計(jì)(空)
28.使用DataFrame的列(空)
29.整數(shù)索引(空)
30.面板數(shù)據(jù)(空)

正文:

Series:由一維數(shù)組以及一組與之相關(guān)的數(shù)據(jù)標(biāo)簽組成

1.values 和index

1

2. 檢測(cè)缺失數(shù)據(jù)

  • isnull : 是否缺失
  • notnull
2

3. name 屬性

3

4.賦值直接修改

4
DataFrame :表格型數(shù)據(jù)結(jié)構(gòu)

1.構(gòu)建DataFrame方法(1)鼓寺,直接傳入一個(gè)字典。如果指定了列序列勋磕,則列就會(huì)按照指定順序排列

1

2.通過類似字典標(biāo)記的方式妈候,將DataFrame的列獲取為一個(gè)Series

2

3.可以通過賦值方式修改,

3

4. 為不存在的列賦值會(huì)創(chuàng)建新列挂滓,del 刪除列

4

5. 構(gòu)建方法(2)苦银,嵌套字典

5
  • 指定索引
5.1

6. 設(shè)置DataFrame 的index 和columns 的name屬性

6

7.索引對(duì)象:管理軸標(biāo)簽和其他元素

7
  • Index 最泛化的index對(duì)象
  • Int64Index 針對(duì)整數(shù)的特殊Index
  • MultiIndex "層次化“ 索引對(duì)象
  • DatetimeIndex 存儲(chǔ)納秒級(jí)時(shí)間戳
  • PeriodIndex 針對(duì)Period數(shù)據(jù)的特殊Index

8.Index 的方法和屬性

  • append 連接另一個(gè)Index對(duì)象,產(chǎn)生一個(gè)新的Index
  • diff 計(jì)算差集赶站,并得到一個(gè)Index
  • intersection 計(jì)算交集
  • union 計(jì)算并集
  • isin 計(jì)算一個(gè)指示各值是否都包含在參數(shù)集合中的布爾型數(shù)組
  • delete 刪除索引I處的元素幔虏,并得到新的Index
  • drop 刪除傳入的值,并得到新的Index
  • insert 將元素插入到索引i處贝椿,得到新Index
  • is_monotonic 當(dāng)各元素均大于等于前一個(gè)元素時(shí)想括,返回True
  • is_unique 將Index沒有重復(fù)值時(shí), 返回True
  • unique 計(jì)算Index中唯一值的數(shù)組

9.重新索引: reindex 烙博,創(chuàng)建一個(gè)適應(yīng)新索引的新對(duì)象

  • 根據(jù)新索引進(jìn)行重排瑟蜈。如果某個(gè)索引當(dāng)前不存在烟逊,就引入缺失值。
9
  • 對(duì)有序數(shù)據(jù)铺根,重新索引需要插值處理
    • ffill 或pad , 前向填充值

    • bfill 或backfill 宪躯, 后向填充值

9.1
  • 可修改(行)索引、列位迂,
9.2
  • 對(duì)行和列重新索引访雪,利用ix的標(biāo)簽索引功能,簡(jiǎn)潔
9.3
  • index 用作索引的新序列
  • method 插值方式
  • fill_value 在重新索引的過程中囤官,需要引入缺省值時(shí)使用的替代值
  • limit 向前或后向填充時(shí)的最大填充量
  • level 在Multilndex的指定級(jí)別上匹配簡(jiǎn)單索引冬阳,否則選取其子集
  • copy 默認(rèn)為True , 無論如何都復(fù)制, 如果為False, 則新舊相等就不復(fù)制

10.丟棄指定軸上的項(xiàng)党饮,drop

10

11.索引肝陪、選取和過濾

  • Series索引,索引值不只是整數(shù)
11
  • 利用標(biāo)簽的切片運(yùn)算刑顺, 末端是包含的氯窍, 而普通的Python切片運(yùn)算是不包含的
11.1
  • 對(duì)DataFrame進(jìn)行索引
11.2
  • 在DataFrame的行上進(jìn)行標(biāo)簽索引,引入專門的索引字段ix
11.3
  • obj[val] , 選取DataFrame的單個(gè)列或一組列
  • obj.ix[val] , 選取DataFrame的單個(gè)行或一組行
  • obj.ix[:, val] , 選取單個(gè)列或列子集
  • obj.ix[val1, val2] , 同時(shí)選取行或列
  • reindex 方法蹲堂, 將一個(gè)或多個(gè)軸匹配到新索引
  • xs 方法狼讨, 根據(jù)標(biāo)簽選取單行或單列,并返回一個(gè)Series
  • icol柒竞、 irow 方法政供, 根據(jù)整數(shù)位置選取單列或單行,并返回一個(gè)Series
  • get_value朽基、 set_value 方法 布隔, 根據(jù)行標(biāo)簽或列標(biāo)簽 選取 / 設(shè)置 單個(gè)值

12.算數(shù)運(yùn)算和數(shù)據(jù)對(duì)齊

  • pandas 可以對(duì)不同索引的對(duì)象進(jìn)行算術(shù)運(yùn)算。
12
  • 對(duì)于DataFrame, 對(duì)齊操作會(huì)同時(shí)發(fā)生在行和列上
12.1
  • 在算術(shù)方法中填充值稼虎, add函數(shù), fill_value參數(shù)
12.2
  • 在對(duì)Series或DataFrame重新索引時(shí)衅檀, 也可以指定一個(gè)填充值(?)
12.3
  • add 用于加法(+)的方法
  • sub 用于減法(-) 的方法
  • div 用于除法(/) 的方法
  • mul 用于乘法 (*) 的方法

13.DataFrame 和Series 之間的運(yùn)算
默認(rèn)情況下, DataFrame和Series 之間的算數(shù)運(yùn)算會(huì)將Series的索引匹配到DataFrame的列

13

14.函數(shù)應(yīng)用和映射

  • Numpy 的nfuns 用于操作pandas對(duì)象
14
  • 將函數(shù)應(yīng)用到各列或行所形成的一維數(shù)組上霎俩。DataFrame 的apply 方法( ? )
14.1
  • 想得到frame中各個(gè)浮點(diǎn)值的格式好字符串哀军,使用applymap 。 Series 也有用于應(yīng)用元素級(jí)函數(shù)的map方法
14.2

15.排序

  • sort_index 方法
15
  • 在DataFrame上打却,根據(jù)一個(gè)或多個(gè)列中的值進(jìn)行排序,將一個(gè)或多個(gè)列名字傳遞給by選項(xiàng)
15.1
  • 對(duì)Series進(jìn)行排序杉适,用order方法
15.2

16.排名

  • rank , 默認(rèn)情況下学密,是通過“為各組分配一個(gè)平均排名”的方式破壞平級(jí)關(guān)系
16
  • 根據(jù)值在原數(shù)據(jù)中出現(xiàn)的順序給出排名
16.1
  • 按降序進(jìn)行排名
16.2
  • average 在相等分組中淘衙,為各個(gè)值分配平均排名
  • min 使用整個(gè)分組的最小排名
  • max 使用整個(gè)分組的最大pdmk
    *first 按值在原始數(shù)據(jù)中的出現(xiàn)順序分配排名

17.帶有重復(fù)值的軸索引

  • 索引的is_unique屬性可以告訴它的值是否唯一:
17
  • 如果某個(gè)索引對(duì)應(yīng)多個(gè)值,則返回一個(gè)Series腻暮;而對(duì)應(yīng)單個(gè)值的彤守,則返回一個(gè)標(biāo)量值毯侦。
17.1

18.匯總和計(jì)算描述統(tǒng)計(jì)

  • DataFrame的sum方法會(huì)返回一個(gè)含義列小計(jì)的Series,傳入axis=1 將按行進(jìn)行求和運(yùn)算
18
  • NA會(huì)自動(dòng)被排除,除非整個(gè)切片都是NA具垫。通過skipna選項(xiàng)可禁用此功能
18.1
  • axis , 簡(jiǎn)約的軸侈离,DataFrame的行用0, 列用1
  • skipna , 排除缺失值筝蚕,默認(rèn)值為True
  • level 卦碾, 如果軸是層次化索引,則根據(jù)level分組約簡(jiǎn)

19.idxmin 和 idxmax 返回的是間接統(tǒng)計(jì)起宽,達(dá)到最小值或最大值的索引

19.1
  • cumsum() 累積型
19.2
  • describe洲胖, 一次性產(chǎn)生多個(gè)匯總統(tǒng)計(jì)
19.3
  • count , 非NA的數(shù)量
  • describe 針對(duì)Series 或DataFrame列計(jì)算匯總統(tǒng)計(jì)
  • min, max 計(jì)算最小值或最大值
  • argmin, argmax 計(jì)算能夠獲取到最小值和最大值的索引位置(整數(shù))
  • idxmin坯沪、idxmax 計(jì)算能夠獲取到最小值和最大值的索引值
  • quantile, 計(jì)算樣本的分位數(shù)
  • sum
  • mean
  • median 绿映, 值的算數(shù)中位數(shù)
  • mad ,根據(jù)平均值計(jì)平局絕對(duì)離差
  • var 樣本值的方差
  • std 樣本值的標(biāo)準(zhǔn)差
  • skew 樣本值的偏度(三階矩)
  • kurt 樣本值的峰度(四階矩)
  • cumsum 樣本值的累積和
  • cummin, cummax 樣本值的累積最大值和累積最小值
  • cumprod 樣本值的累積積
  • diff 計(jì)算一階差分(時(shí)間序列)
  • pct_change 計(jì)算百分?jǐn)?shù)變化

20.相關(guān)系數(shù)和協(xié)方差(空)
21.唯一值、值計(jì)數(shù)以及成元資格

  • unique , 得到唯一值數(shù)組
21
  • value_counts 用于計(jì)算一個(gè)Series中各值出現(xiàn)的頻率
21.1
  • isin 腐晾,用于判斷矢量化集合的成元資格
21,2

22.處理缺失數(shù)據(jù)
pandas 使用浮點(diǎn)值NaN表示浮點(diǎn)和非浮點(diǎn)數(shù)組中的缺失值叉弦。

22
  • dropna 根據(jù)各標(biāo)簽的值中是否存在缺失數(shù)據(jù)對(duì)軸標(biāo)簽進(jìn)行過濾, 可通過閾值調(diào)節(jié)對(duì)缺失值的容忍度
  • fillna 對(duì)制定值或插值方法(fill / bfill)填充缺失數(shù)據(jù)
    *isnull 返回一個(gè)含有布爾值的對(duì)象藻糖,這個(gè)布爾值表示那些值是缺失值/NA淹冰,該對(duì)象的類型與源類型一樣
  • notnull , isnull 的否定式

23.過濾缺失值

  • 對(duì)于Series , dropna 返回一個(gè)僅含非空數(shù)據(jù)和索引值的Series
23
  • DataFrame對(duì)象, dropna 默認(rèn)丟棄任何含有缺失值的行
23.1
  • 傳入how = 'all' 將只丟棄全為NA的那些行;
23.2

*要用這種方式丟棄列巨柒,只需傳入axis=1即可

23.3
  • thresh參數(shù)樱拴,只 留下一部分觀測(cè)數(shù)據(jù) ?
23.4

24.填充缺失數(shù)據(jù), fillna

  • 通常一個(gè)常數(shù)調(diào)用fillna, 也可通過一個(gè)字典調(diào)用
24
  • 可用fillna實(shí)現(xiàn)許多功能,插值方法
24.1
24.2

fillna函數(shù)的參數(shù)

  • value
  • method
  • axis
  • inplace
  • limit

25.層次化索引
26.重排分級(jí)順序
27.根據(jù)級(jí)別匯總統(tǒng)計(jì)
28.使用DataFrame的列
29.整數(shù)索引
30.面板數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末洋满,一起剝皮案震驚了整個(gè)濱河市疹鳄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌芦岂,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件垫蛆,死亡現(xiàn)場(chǎng)離奇詭異禽最,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)袱饭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門川无,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人虑乖,你說我怎么就攤上這事懦趋。” “怎么了疹味?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵仅叫,是天一觀的道長(zhǎng)帜篇。 經(jīng)常有香客問我,道長(zhǎng)诫咱,這世上最難降的妖魔是什么笙隙? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮坎缭,結(jié)果婚禮上竟痰,老公的妹妹穿的比我還像新娘。我一直安慰自己掏呼,他們只是感情好坏快,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著憎夷,像睡著了一般莽鸿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上岭接,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天富拗,我揣著相機(jī)與錄音,去河邊找鬼鸣戴。 笑死啃沪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的窄锅。 我是一名探鬼主播创千,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼入偷!你這毒婦竟也來了追驴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤疏之,失蹤者是張志新(化名)和其女友劉穎殿雪,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體锋爪,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡丙曙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了其骄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亏镰。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖拯爽,靈堂內(nèi)的尸體忽然破棺而出索抓,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布逼肯,位于F島的核電站耸黑,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏汉矿。R本人自食惡果不足惜崎坊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望洲拇。 院中可真熱鬧奈揍,春花似錦、人聲如沸赋续。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纽乱。三九已至蛾绎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鸦列,已是汗流浹背租冠。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留薯嗤,地道東北人顽爹。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像骆姐,于是被迫代替她去往敵國(guó)和親镜粤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容