Pandas組合操作

在上一篇文章中介紹了panda合并操作的主要用法(http://www.reibang.com/p/fe47c70d31f9)绰垂,本篇將給大家介紹pandas的另一個常用的操作兽肤,groupby翻斟。
本篇內(nèi)容參考自http://pandas.pydata.org/pandas-docs/stable/groupby.html#groupby

groupby

使用groupby跋涣,我們是在進行下面的一個或多個操作:

  • Spliting:根據(jù)條件分組數(shù)據(jù)
  • Applying : 在各個分組上執(zhí)行函數(shù)
  • Combining : 合并結(jié)果

拆分單個對象 into groups

常用方式為:

# default is axis=0
>>> grouped = obj.groupby(key)
>>> grouped = obj.groupby(key, axis=1)
>>> grouped = obj.groupby([key1, key2])

如:

In [1]: df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
   ...:                           'foo', 'bar', 'foo', 'foo'],
   ...:                    'B' : ['one', 'one', 'two', 'three',
   ...:                           'two', 'two', 'one', 'three'],
   ...:                    'C' : np.random.randn(8),
   ...:                    'D' : np.random.randn(8)})
   ...: 

In [2]: df
Out[2]: 
     A      B         C         D
0  foo    one  0.469112 -0.861849
1  bar    one -0.282863 -2.104569
2  foo    two -1.509059 -0.494929
3  bar  three -1.135632  1.071804
4  foo    two  1.212112  0.721555
5  bar    two -0.173215 -0.706771
6  foo    one  0.119209 -1.039575
7  foo  three -1.044236  0.27186
In [3]: grouped = df.groupby('A')

In [4]: grouped = df.groupby(['A', 'B'])

返回的是GroupBy 對象犁嗅,可以看到罩缴,在需要操作之前不會發(fā)生Spliting他爸。創(chuàng)建GroupBy對象只是保證傳遞了有效的映射咪橙。接下來再進行操作夕膀。如:

In [13]: df2 = pd.DataFrame({'X' : ['B', 'B', 'A', 'A'], 'Y' : [1, 2, 3, 4]})
#groupby之后分組求和
In [14]: df2.groupby(['X']).sum()
Out[14]: 
   Y
X   
A  7
B  3
#可以指定sort=False來關(guān)閉group操作中的排序,從而加速操作
In [15]: df2.groupby(['X'], sort=False).sum()
Out[15]: 
   Y
X   
B  3
A  7

我們可以通過get_group()方法獲得group的結(jié)果

In [16]: df3 = pd.DataFrame({'X' : ['A', 'B', 'A', 'B'], 'Y' : [1, 4, 3, 2]})

In [17]: df3.groupby(['X']).get_group('A')
Out[17]: 
   X  Y
0  A  1
2  A  3

In [18]: df3.groupby(['X']).get_group('B')
Out[18]: 
   X  Y
1  B  4
3  B  2

GroupBy object 屬性

可以通過.groups屬性獲取groupby對象的group屬性美侦,如:

In [19]: df.groupby('A').groups
Out[19]: 
{'bar': Int64Index([1, 3, 5], dtype='int64'),
 'foo': Int64Index([0, 2, 4, 6, 7], dtype='int64')}
In [21]: grouped = df.groupby(['A', 'B'])

In [22]: grouped.groups
Out[22]: 
{('bar', 'one'): Int64Index([1], dtype='int64'),
 ('bar', 'three'): Int64Index([3], dtype='int64'),
 ('bar', 'two'): Int64Index([5], dtype='int64'),
 ('foo', 'one'): Int64Index([0, 6], dtype='int64'),
 ('foo', 'three'): Int64Index([7], dtype='int64'),
 ('foo', 'two'): Int64Index([2, 4], dtype='int64')}

In [23]: len(grouped)
Out[23]: 6

groupby多個index

如下創(chuàng)建一個兩層的index:

In [27]: arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
   ....:           ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
   ....: 

In [28]: index = pd.MultiIndex.from_arrays(arrays, names=['first', 'second'])

In [29]: s = pd.Series(np.random.randn(8), index=index)

In [30]: s
Out[30]: 
first  second
bar    one      -0.919854
       two      -0.042379
baz    one       1.247642
       two      -0.009920
foo    one       0.290213
       two       0.495767
qux    one       0.362949
       two       1.548106
dtype: float64

我們可以通過任何一層來對數(shù)據(jù)進行操作产舞,如:

In [31]: grouped = s.groupby(level=0)

In [32]: grouped.sum()
Out[32]: 
first
bar   -0.962232
baz    1.237723
foo    0.785980
qux    1.911055
dtype: float64

或者這么指定level

In [34]: s.sum(level='second')
Out[34]: 
second
one    0.980950
two    1.991575
dtype: float64
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市菠剩,隨后出現(xiàn)的幾起案子易猫,更是在濱河造成了極大的恐慌,老刑警劉巖具壮,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件准颓,死亡現(xiàn)場離奇詭異哈蝇,居然都是意外死亡,警方通過查閱死者的電腦和手機攘已,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門炮赦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人样勃,你說我怎么就攤上這事吠勘。” “怎么了峡眶?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵剧防,是天一觀的道長。 經(jīng)常有香客問我辫樱,道長峭拘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任搏熄,我火速辦了婚禮棚唆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘心例。我一直安慰自己宵凌,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布止后。 她就那樣靜靜地躺著瞎惫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪译株。 梳的紋絲不亂的頭發(fā)上瓜喇,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機與錄音歉糜,去河邊找鬼乘寒。 笑死,一個胖子當(dāng)著我的面吹牛匪补,可吹牛的內(nèi)容都是我干的伞辛。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼夯缺,長吁一口氣:“原來是場噩夢啊……” “哼蚤氏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起踊兜,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤竿滨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體于游,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡毁葱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了贰剥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片头谜。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鸠澈,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情截驮,我是刑警寧澤笑陈,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站葵袭,受9級特大地震影響涵妥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜坡锡,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一蓬网、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鹉勒,春花似錦帆锋、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至脯倒,卻和暖如春实辑,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背藻丢。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工剪撬, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人悠反。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓残黑,卻偏偏與公主長得像,于是被迫代替她去往敵國和親问慎。 傳聞我的和親對象是個殘疾皇子萍摊,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容