小蛇學python(18)pandas的數(shù)據聚合與分組計算

對數(shù)據集進行分組并對各組應用一個函數(shù)笛丙,這是數(shù)據分析工作的重要環(huán)節(jié)。在將數(shù)據集準備好之后,通常的任務就是計算分組統(tǒng)計或生成透視表能颁。pandas提供了一個高效的groupby功能,它使你能以一種自然的方式對數(shù)據集進行切片倒淫、切塊伙菊、摘要等操作。

groupby的簡單介紹

image.png

變量grouped是一個GroupBy對象敌土。它還沒有進行計算占业,但是已經分組完畢。

image.png

以上是對已經分組完畢的變量的一些計算纯赎,同時還涉及到層次化索引以及層次化索引的展開谦疾。

groupby還有更加簡便得使用方法。

image.png

你一定注意到犬金,在執(zhí)行上面一行代碼時念恍,結果中沒有key2列,這是因為該列的內容不是數(shù)值晚顷,俗稱麻煩列峰伙,所以被從結果中排除了。

無論你準備拿groupby做什么该默,都會用到size方法瞳氓,它可以返回一個含有分組大小的Series。

image.png

對分組進行迭代

以下是單鍵值情況

image.png

以下是按由多個鍵值構成元組的分組情況

image.png

通過這兩個操作分析得知栓袖,第一行打印出來的是分組所根據的鍵值匣摘,緊接是按照此分組鍵值或者鍵值對得到的分組。

通過字典進行分組

image.png

通過函數(shù)進行分組

這是一個極具python特色的功能裹刮。

image.png

如果你想使用的自己的聚合函數(shù)音榜,只需要將其傳入aggregate或者agg方法即可。

image.png

還有describe方法捧弃,嚴格來講它不是聚類運算赠叼,它很好的描述了一個數(shù)據集的分組分布情況。

image.png

總結一下常用的分組聚類函數(shù)违霞。

函數(shù)名 說明
count 分組中的非NA的值的數(shù)量
sum 非NA值的和
mean 非NA值得平均值
median 非NA值的算術中位數(shù)
std var 標準差嘴办,方差
max min 最大值,最小值
prod 非NA值的積
first last 第一個和最后一個非NA值

更加高階的運用

我們拿到一個表格买鸽,想添加一個用于存放各索引分組平均值的列涧郊。我們可以利用以前學習pandas的表格合并的知識,但是pandas也給我專門提供了更為簡便的方法癞谒。

image.png

經過以上操作底燎,我們可以看出來刃榨,凡是key是按照one分組的,如今在people列表里都變成了one里的平均值双仍。這時候我們再自定義函數(shù)枢希。

image.png

這樣就實現(xiàn)了,people表格里的數(shù)據減去同類型數(shù)據平均值的功能朱沃。這個功能叫做距平化苞轿,是一個經常使用的操作。是不是很神奇逗物,如果不相信搬卒,我們可以來驗證一下,按理說減去平均值后翎卓,數(shù)據的平均值會變成零契邀。

image.png

可以看出來,就算不為零失暴,也是很小的數(shù)坯门。至于為什么不準確為零,這是由于python的float浮點類型數(shù)據自身不夠精確的問題逗扒,不在我們討論之內古戴。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市矩肩,隨后出現(xiàn)的幾起案子现恼,更是在濱河造成了極大的恐慌,老刑警劉巖黍檩,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件叉袍,死亡現(xiàn)場離奇詭異,居然都是意外死亡建炫,警方通過查閱死者的電腦和手機畦韭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門疼蛾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肛跌,“玉大人,你說我怎么就攤上這事察郁⊙苌鳎” “怎么了?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵皮钠,是天一觀的道長稳捆。 經常有香客問我,道長麦轰,這世上最難降的妖魔是什么乔夯? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任砖织,我火速辦了婚禮,結果婚禮上末荐,老公的妹妹穿的比我還像新娘侧纯。我一直安慰自己,他們只是感情好甲脏,可當我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布眶熬。 她就那樣靜靜地躺著,像睡著了一般块请。 火紅的嫁衣襯著肌膚如雪娜氏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天墩新,我揣著相機與錄音贸弥,去河邊找鬼。 笑死海渊,一個胖子當著我的面吹牛茂腥,可吹牛的內容都是我干的。 我是一名探鬼主播切省,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼最岗,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了朝捆?” 一聲冷哼從身側響起般渡,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎芙盘,沒想到半個月后驯用,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡儒老,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年蝴乔,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片驮樊。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡薇正,死狀恐怖,靈堂內的尸體忽然破棺而出囚衔,到底是詐尸還是另有隱情挖腰,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布练湿,位于F島的核電站猴仑,受9級特大地震影響,放射性物質發(fā)生泄漏肥哎。R本人自食惡果不足惜辽俗,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一疾渣、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧崖飘,春花似錦稳衬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至赊琳,卻和暖如春街夭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背躏筏。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工板丽, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人趁尼。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓埃碱,卻偏偏與公主長得像,于是被迫代替她去往敵國和親酥泞。 傳聞我的和親對象是個殘疾皇子砚殿,可洞房花燭夜當晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內容