分析分析:是指根據(jù)分析的目的父款,將數(shù)據(jù)(定量數(shù)據(jù))進(jìn)行等距或者不等距的分組浅役,進(jìn)行研究各組分布規(guī)律的一種分析方法斩松。如收入分布,年齡分析觉既。
例子惧盹,簡書用戶(簡書簽約作者)的文章篇數(shù)分析
步驟:
1、定義分組的數(shù)組瞪讼,如年齡分段钧椰。要包含最小值和最大值的數(shù)據(jù)
r = pd.read_csv(path)
bins = [min(r.articles)-1,50,100,200,300,max(r.articles)+1]
2、定義分組的標(biāo)簽
labels=['23-50篇','50-100篇','100-200篇','200-300篇','300篇+']
3符欠、使用pandas.cut()方法嫡霞,根據(jù)分組和標(biāo)簽進(jìn)行劃分
import pandas
articles_cut=pandas.cut(r.articles, bins,labels=labels)
r['articels-cut']=articles_cut
4、統(tǒng)計(jì)匯總 groupby
r.groupby(by=['articels-cut'])['author'].agg({'total':numpy.size})
分布匯總數(shù)據(jù)
加入分布列后的DataFrame
問題:如果日期列進(jìn)行分布分析背亥,采用to_datetime()進(jìn)行數(shù)據(jù)轉(zhuǎn)換后秒际,也無法進(jìn)行分布處理。之前采用的方式是對(duì)注冊日期列(regtime)采用字任串截取slice狡汉,保留年-月娄徊,再分類統(tǒng)計(jì)。