分組函數(shù)groupby
在處理數(shù)據(jù)的時(shí)候經(jīng)常會(huì)用到分組誓琼,類似于SQL中的group by,按照group by后面接的字段來(lái)分成組齐莲,之后再進(jìn)行其他處理亿鲜。
Pandas中內(nèi)置了類似的方法柬帕,用法簡(jiǎn)要如下:
df_test = pd.DataFrame(df.groupby(['Pclass','Embarked']).count())
這個(gè)意思就是,按照Pclass和Embarked兩列取笛卡爾積為組別狡门,然后針對(duì)每一組計(jì)數(shù)。
可以看到锅很,用兩列分組的話其馏,出來(lái)的索引是分層的。
接下來(lái)爆安,用
df_test.index = df_test.index.ravel()
該函數(shù)是將拼合的基礎(chǔ)數(shù)據(jù)作為 ndarray 返回叛复。
這里,index就是一組Series,那么正好能返回一個(gè)ndarray褐奥,把這個(gè)ndarry作為index即可咖耘。