python數(shù)據(jù)分析(四)

1、基本統(tǒng)計(jì)

基本統(tǒng)計(jì)分析:描述性統(tǒng)計(jì)分析晃痴,用來(lái)概括事物整體狀況以及事物間聯(lián)系(即事物的基本特征)残吩,以發(fā)現(xiàn)其內(nèi)在規(guī)律的統(tǒng)計(jì)分析方法。
常用的統(tǒng)計(jì)指標(biāo):計(jì)數(shù)倘核、求和泣侮、平均值、方差紧唱、標(biāo)準(zhǔn)差
描述性統(tǒng)計(jì)分析函數(shù):describe()活尊;常用統(tǒng)計(jì)函數(shù)size()計(jì)數(shù),sum()求和漏益,mean()平均值酬凳,var()方差,std()標(biāo)準(zhǔn)差
例如:描述性分析data.score.describe(),最大值data.score.max(),平均值data.score.mean(),方差data.score.var()
累積求和data.score.cumsum(),最小值所在位置data.score.argmin()

2遭庶、分組分析

分組分析是指根據(jù)分組字段,將分析對(duì)象劃分成不同的部分稠屠,以進(jìn)行對(duì)比分析各組之間的差異性的一種分析方法峦睡。
分組類型主要有兩大類:定性分組翎苫,定量分組,定性分組按事物已有的屬性劃分榨了,如性別煎谍,年齡。定量分組即數(shù)值分組龙屉。
常用的統(tǒng)計(jì)指標(biāo):計(jì)數(shù)呐粘,求和,平均值
分組統(tǒng)計(jì)函數(shù):groupby(by=[分組列])[統(tǒng)計(jì)列].agg({統(tǒng)計(jì)列別名:統(tǒng)計(jì)函數(shù)})转捕,by用于分組的列作岖,中括號(hào)用于統(tǒng)計(jì)的列,agg統(tǒng)計(jì)別名顯示統(tǒng)計(jì)值的名稱五芝,統(tǒng)計(jì)函數(shù)用于統(tǒng)計(jì)數(shù)據(jù)痘儡。
例如:aggResult = data.groupby( by = ['class'] ) ['score'].agg({ '總分' : numpy.sum, '人數(shù)'.numpy.size, '平均數(shù)'.numpy.mean})

3、分布分析

分不分析是指根據(jù)分析目的枢步,將數(shù)據(jù)(定量數(shù)據(jù))進(jìn)行等距或者不等距的分組沉删,進(jìn)行研究各組分布規(guī)律的一種分析方法。
常用于用戶消費(fèi)分布醉途,收入分布矾瑰,年齡分布等。
先進(jìn)行數(shù)值分組
bins = [min(data.年齡-1,20,30,40,max(data.年齡+1))]
data['年齡分層'] = pandas.cut(data.年齡,bins,labels = labels)
在進(jìn)行分組aggResult = data.groupby(by = ['年齡分層'])['年齡'].agg({'人數(shù)':numpy.size})

百分比的表現(xiàn)形式:
pAggResult = round( aggResult/aggResult.sum(), 2 )*100 pAggResult['人數(shù)'].map('{:,.2f}%'.format)

4隘擎、交叉分析

通常用于分析兩個(gè)或兩個(gè)以上殴穴,分組變量之間的關(guān)系,以交叉表形式進(jìn)行變量間關(guān)系的對(duì)比分析嵌屎。
定量推正、定量分組交叉;定量宝惰、定性分組交叉植榕;定性、定性分組交叉尼夺。
交叉計(jì)數(shù)函數(shù):pivot_table(values,index,columns,aggfunc,fill_value)尊残,參數(shù)說(shuō)明:
values:數(shù)據(jù)透視表中的值;Index:數(shù)據(jù)透視表中的行淤堵;columns:數(shù)據(jù)透視表中的列寝衫;aggfunc:統(tǒng)計(jì)函數(shù);fill_value:NA值的統(tǒng)一替換拐邪。
例如:ptResult = data.pivot_table(values = ['年齡'],index = ['年齡分層'],columns = ['性別'],aggfunc=[numpy.size])

5慰毅、結(jié)構(gòu)分析

是在分組以及交叉的基礎(chǔ)上,計(jì)算各組成部分所占的比重扎阶,進(jìn)而分析總體的內(nèi)部特征的一種分析方法汹胃。
數(shù)據(jù)庫(kù)的外運(yùn)算:add,sub,multiply,div婶芭,分別是加減乘除;數(shù)據(jù)框的內(nèi)運(yùn)算函數(shù):sum,mean,var,sd分別是求和着饥,平均值犀农,方差,標(biāo)準(zhǔn)差
在上述的交叉分析的基礎(chǔ)上進(jìn)行結(jié)構(gòu)分析:ptResult.sum()宰掉,ptResult.div(ptResult.sum.(axis = 1),axis = 0)

6呵哨、相關(guān)分析

是研究?jī)蓚€(gè)或兩個(gè)以上速記變量之間相互依存關(guān)系的方向和密切程度的方法。分為線性相關(guān)和非線性相關(guān)轨奄。
線性相關(guān)關(guān)系主要采用皮爾孫相關(guān)系數(shù)r來(lái)度量連續(xù)變量之間線性相關(guān)強(qiáng)度孟害。
相關(guān)分析函數(shù):DataFrame.corr() ,Series.corr()
如果由數(shù)據(jù)框調(diào)用corr方法戚绕,那么將會(huì)計(jì)算每個(gè)列兩兩之間的相似度纹坐;如果由序列調(diào)用corr方法,那么只是計(jì)算該序列與傳入的序列之間的相關(guān)度舞丛。
data[['超市購(gòu)物率','網(wǎng)上購(gòu)物率','文盲率','人口']]

7耘子、RFM分析

是根據(jù)客戶活躍程度和交易金額貢獻(xiàn),進(jìn)行客戶價(jià)值細(xì)分的一種方法球切。

RFM分析過(guò)程:

1谷誓、計(jì)算RFM各項(xiàng)分值

R_S,距離當(dāng)前日期越近吨凑,得分越高捍歪,最高5分,最低1分
F_S鸵钝,交易頻率越高糙臼,得分越高,最高5分恩商,最低1分
M_S变逃,交易金額越高,得分越高怠堪,最高5分揽乱,最低1分

2、匯總RFM分值

RFM=100R_S+10F_S+1*M_S

3粟矿、根據(jù)RFM分值對(duì)客戶分類

RFM分析前提

1凰棉、最近有過(guò)交易行為的客戶,再次發(fā)生交易的可能性要高于最近沒有交易行為的客戶
2陌粹、交易頻率較高的客戶比交易頻率較低的客戶撒犀,更有可能再次發(fā)生交易行為
3、過(guò)去所有交易總金額較多的客戶,比交易總金額較少的客戶或舞,更有消費(fèi)積極性

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末隧膏,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子嚷那,更是在濱河造成了極大的恐慌,老刑警劉巖杆煞,帶你破解...
    沈念sama閱讀 223,126評(píng)論 6 520
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件魏宽,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡决乎,警方通過(guò)查閱死者的電腦和手機(jī)队询,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,421評(píng)論 3 400
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)构诚,“玉大人蚌斩,你說(shuō)我怎么就攤上這事》吨觯” “怎么了送膳?”我有些...
    開封第一講書人閱讀 169,941評(píng)論 0 366
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)丑蛤。 經(jīng)常有香客問(wèn)我叠聋,道長(zhǎng),這世上最難降的妖魔是什么受裹? 我笑而不...
    開封第一講書人閱讀 60,294評(píng)論 1 300
  • 正文 為了忘掉前任碌补,我火速辦了婚禮,結(jié)果婚禮上棉饶,老公的妹妹穿的比我還像新娘厦章。我一直安慰自己,他們只是感情好照藻,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,295評(píng)論 6 398
  • 文/花漫 我一把揭開白布袜啃。 她就那樣靜靜地躺著,像睡著了一般岩梳。 火紅的嫁衣襯著肌膚如雪囊骤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,874評(píng)論 1 314
  • 那天冀值,我揣著相機(jī)與錄音也物,去河邊找鬼。 笑死列疗,一個(gè)胖子當(dāng)著我的面吹牛滑蚯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 41,285評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼告材,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼坤次!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起斥赋,我...
    開封第一講書人閱讀 40,249評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤缰猴,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后疤剑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滑绒,經(jīng)...
    沈念sama閱讀 46,760評(píng)論 1 321
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,840評(píng)論 3 343
  • 正文 我和宋清朗相戀三年隘膘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了疑故。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,973評(píng)論 1 354
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡弯菊,死狀恐怖纵势,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情管钳,我是刑警寧澤钦铁,帶...
    沈念sama閱讀 36,631評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站蹋嵌,受9級(jí)特大地震影響育瓜,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜栽烂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,315評(píng)論 3 336
  • 文/蒙蒙 一躏仇、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧腺办,春花似錦焰手、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,797評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至躬拢,卻和暖如春躲履,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背聊闯。 一陣腳步聲響...
    開封第一講書人閱讀 33,926評(píng)論 1 275
  • 我被黑心中介騙來(lái)泰國(guó)打工工猜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人菱蔬。 一個(gè)月前我還...
    沈念sama閱讀 49,431評(píng)論 3 379
  • 正文 我出身青樓篷帅,卻偏偏與公主長(zhǎng)得像史侣,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子魏身,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,982評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 通過(guò)Excel讀取數(shù)據(jù) # 導(dǎo)入木鳎快 import xlrd # 打開excel data=xlrd.open_w...
    小豆角lch閱讀 390評(píng)論 0 0
  • 基本統(tǒng)計(jì) 基本統(tǒng)計(jì)分析,也叫描述性統(tǒng)計(jì)分析箭昵,用來(lái)概括事物整體狀況以及事物間聯(lián)系(即事物的基本特征)税朴,以發(fā)現(xiàn)其內(nèi)在規(guī)...
    WesleyLien閱讀 2,083評(píng)論 0 1
  • 50個(gè)常用的sql語(yǔ)句Student(S#,Sname,Sage,Ssex) 學(xué)生表Course(C#,Cname...
    哈哈海閱讀 1,235評(píng)論 0 7
  • # -*- coding: utf-8 -*- from __future__ import division f...
    小豆角lch閱讀 1,297評(píng)論 0 0
  • 我也得正兒八經(jīng)去吃頓飯了 不著急的,一個(gè)人的家制,吃想吃的掉房,不說(shuō)話的
    觸角_閱讀 173評(píng)論 0 0