1、pandas的value_counts()和describe()
pandas 的value_counts()函數(shù)可以對Series里面的每個(gè)值進(jìn)行計(jì)數(shù)并且排序橱夭。
value_counts是計(jì)數(shù)卿闹,統(tǒng)計(jì)所有非零元素的個(gè)數(shù)阱高,默認(rèn)以降序的方式輸出Series。
按區(qū)域進(jìn)行分類統(tǒng)計(jì)(默認(rèn)降序排列昆禽,如果要升序排列可以添加參數(shù)ascending = True)
df[].value_counts()
df[].value_counts(ascending= True)
df[].value_counts(normalize= Ture) #統(tǒng)計(jì)每個(gè)區(qū)域的占比(指定normalize參數(shù)為True,也可以用sum函數(shù)進(jìn)行計(jì)算):
df[].value_counts(normalize= Ture)=df[].value_counts(ascending= True)/sum(df[].value_counts())
空值是默認(rèn)剔除掉的蝇庭,value_counts()返回的結(jié)果是一個(gè)Series數(shù)組醉鳖,可以跟別的數(shù)組進(jìn)行運(yùn)算。
value_count()跟透視表里(pandas或者excel)的計(jì)數(shù)很相似哮内,都是返回一組唯一值盗棵,并進(jìn)行計(jì)數(shù),這樣能快速找出重復(fù)出現(xiàn)的值北发。
還有value_counts()函數(shù)是針對Series的纹因,不是針對DataFrame的,所以只能是單列琳拨。
describe函數(shù)(統(tǒng)計(jì)計(jì)數(shù)函數(shù))
describe函數(shù)總結(jié)數(shù)據(jù)集分布的中心趨勢瞭恰,分散和形狀,不包括NaN值狱庇。
DataFrame.describe(percentiles=None,include=None,exclude=None)惊畏,可以快速的求出一些算術(shù)運(yùn)算指標(biāo):
include包含all、[np.number]和[np.object]三個(gè)值密任,describe屬性可以對數(shù)值型變量(include=['number'])和離散型變量(include=['object'])進(jìn)行描述性統(tǒng)計(jì):
df.describe()
df.describe(include='all' /[np.number] /[np.object])