練習書7-《python數據科學手冊》

pandas數據累記和分組

代碼

import numpy as np
import pandas as pd
import time
import matplotlib as mpl
import matplotlib.pyplot as plt

# plt.style.use('classic')
plt.style.use('seaborn-whitegrid')
np.random.seed(0)
# 配置pandas顯示
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 10)

# 數據累計(summarization):計算累計(aggregation)指標,
# 如sum()哈肖、mean()凡桥、median()、min()和max()伏尼,
# 其中每一個指標都呈現了大數據集的特征流妻。

rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
print(ser)
print(ser.sum())
print(ser.mean())

df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
print(df)
print(df.mean())
print(df.mean(axis='columns'))
print(df.describe())

# 雖然“分組”(group by)這個名字是借用SQL數據庫語言的命令,
# 但其理念引用發(fā)明R語言frame的 Hadley Wickham的觀點可能更合適:
# 分割(split)、應用(apply)和組合(combine)检诗。
# GroupBy的用處就是將這些 步驟進行抽象:
# 用戶不需要知道在底層如何計算,只要把操作看成一個整體就夠了瓢剿。
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)},
                  columns=['key', 'data'])
print(df)
print(df.groupby('key'))
print(df.groupby('key').sum())
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                  columns=['key', 'data1', 'data2'])
print(df)
print(df.groupby('key').aggregate(['min', np.median, max]))
print(df.groupby('key').aggregate({'data1': 'min',
                                   'data2': 'max'}))


def filter_func(x):
    return x['data2'].std() > 4


print(df.groupby('key').std())
print(df.groupby('key').filter(filter_func))
print(df.groupby('key').transform(lambda x: x - x.mean()))


def norm_by_data(x):
    x['data1'] /= x['data2'].sum()
    return x


print(df.groupby('key').apply(norm_by_data))
L = [0, 1, 0, 1, 2, 0]
print(df.groupby(L).sum())

輸出

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64
2.811925491708157
0.5623850983416314
          A         B
0  0.155995  0.020584
1  0.058084  0.969910
2  0.866176  0.832443
3  0.601115  0.212339
4  0.708073  0.181825
A    0.477888
B    0.443420
dtype: float64
0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64
              A         B
count  5.000000  5.000000
mean   0.477888  0.443420
std    0.353125  0.426952
min    0.058084  0.020584
25%    0.155995  0.181825
50%    0.601115  0.212339
75%    0.708073  0.832443
max    0.866176  0.969910
  key  data
0   A     0
1   B     1
2   C     2
3   A     3
4   B     4
5   C     5
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11edbb6d8>
     data
key      
A       3
B       5
C       7
  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
    data1            data2           
      min median max   min median max
key                                  
A       0    1.5   3     3    4.0   5
B       1    2.5   4     0    3.5   7
C       2    3.5   5     3    6.0   9
     data1  data2
key              
A        0      5
B        1      7
C        2      9
       data1     data2
key                   
A    2.12132  1.414214
B    2.12132  4.949747
C    2.12132  4.242641
  key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9
   data1  data2
0   -1.5    1.0
1   -1.5   -3.5
2   -1.5   -3.0
3    1.5   -1.0
4    1.5    3.5
5    1.5    3.0
  key     data1  data2
0   A  0.000000      5
1   B  0.142857      0
2   C  0.166667      3
3   A  0.375000      3
4   B  0.571429      7
5   C  0.416667      9
   data1  data2
0      7     17
1      4      3
2      4      7
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末逢慌,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子间狂,更是在濱河造成了極大的恐慌攻泼,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鉴象,死亡現場離奇詭異忙菠,居然都是意外死亡,警方通過查閱死者的電腦和手機纺弊,發(fā)現死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門牛欢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人淆游,你說我怎么就攤上這事傍睹「羰ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵拾稳,是天一觀的道長吮炕。 經常有香客問我,道長访得,這世上最難降的妖魔是什么来屠? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮震鹉,結果婚禮上,老公的妹妹穿的比我還像新娘捆姜。我一直安慰自己传趾,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布泥技。 她就那樣靜靜地躺著浆兰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪珊豹。 梳的紋絲不亂的頭發(fā)上簸呈,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機與錄音店茶,去河邊找鬼蜕便。 笑死,一個胖子當著我的面吹牛贩幻,可吹牛的內容都是我干的轿腺。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼丛楚,長吁一口氣:“原來是場噩夢啊……” “哼族壳!你這毒婦竟也來了?” 一聲冷哼從身側響起趣些,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤仿荆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后坏平,有當地人在樹林里發(fā)現了一具尸體拢操,經...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年功茴,在試婚紗的時候發(fā)現自己被綠了庐冯。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡坎穿,死狀恐怖展父,靈堂內的尸體忽然破棺而出返劲,到底是詐尸還是另有隱情,我是刑警寧澤栖茉,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布篮绿,位于F島的核電站,受9級特大地震影響吕漂,放射性物質發(fā)生泄漏亲配。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一惶凝、第九天 我趴在偏房一處隱蔽的房頂上張望吼虎。 院中可真熱鬧,春花似錦苍鲜、人聲如沸思灰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽洒疚。三九已至,卻和暖如春坯屿,著一層夾襖步出監(jiān)牢的瞬間油湖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工领跛, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留乏德,地道東北人。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓吠昭,卻偏偏與公主長得像鹅经,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子怎诫,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355