1. 項(xiàng)目背景
1.1訂單數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)源:某平臺(tái)提供的?2020年5月25日大家電-家用電器-冰箱 抽樣數(shù)據(jù)(可供學(xué)習(xí))
數(shù)據(jù)量:70k+
訂單數(shù)據(jù)介紹
2. 訂單數(shù)據(jù)的分析思路
? 對(duì)于訂單數(shù)據(jù),在業(yè)務(wù)中最常見(jiàn)的是使用可視化報(bào)表來(lái)監(jiān)測(cè)訂單關(guān)鍵性指標(biāo)的變化,并在一定維度上進(jìn)行下鉆穆刻。
3. 結(jié)論
從宏觀角度浩考,把握當(dāng)天訂單狀況浩峡。訂單總數(shù)中,有71.15%是未取消訂單,在未取消訂單中,有效訂單(有效訂單衡量標(biāo)準(zhǔn)為訂單有效標(biāo)志為1且實(shí)際支付金額>0)
在訂單價(jià)格分布中捧挺,一天中近80%的訂單支付金額都小于3000元。
在訂單的微觀分析中尿瞭,根據(jù)以上訂單分析思路闽烙,將訂單分為四個(gè)維度去考慮,時(shí)間維度筷厘,地區(qū)維度鸣峭,品牌維度,店鋪維度酥艳。
1)?? 時(shí)間維度
結(jié)論1:0時(shí)刻(表示客戶在0:00-1:00下單)是訂單數(shù)量和客單價(jià)最高的時(shí)間段,有效訂單量4024單爬骤,超過(guò)其他時(shí)段一倍以上充石;
結(jié)論2:10:00和20:00為一天中的小高峰期,訂單數(shù)量2000+霞玄;
結(jié)論3:?訂單量較高的時(shí)段可能因?yàn)樵诖似陂g有優(yōu)惠促銷活動(dòng)導(dǎo)致骤铃;
2)地域維度
結(jié)論4:?廣東,北京坷剧,上海惰爬,四川,江蘇為京東家電(冰箱)類的頭部市場(chǎng)惫企;
結(jié)論5:?廣東為全國(guó)省份中訂單總量最多的地區(qū)撕瞧;
結(jié)論6:?上海地區(qū)人均購(gòu)買力更強(qiáng)陵叽;
結(jié)論7:?上海地區(qū)具有較強(qiáng)的品牌偏好性
3) 品牌維度
結(jié)論8:?海爾、容聲丛版、美的巩掺、康佳、至高為冰箱產(chǎn)品中的頭部品牌页畦,其中海爾占據(jù)絕大部分市場(chǎng)份額胖替;
3) 品牌維度
結(jié)論8:?海爾、容聲豫缨、美的独令、康佳、至高為冰箱產(chǎn)品中的頭部品牌好芭,其中海爾占據(jù)絕大部分市場(chǎng)份額燃箭;
4)?? 店鋪維度
結(jié)論9:?非自營(yíng)店鋪訂單數(shù)量和客單價(jià)大幅度低于自營(yíng)店鋪
結(jié)論10:原因可能是非自營(yíng)店鋪主要集中于單價(jià)很低的品牌,缺少單價(jià)較高的品牌
4. 數(shù)據(jù)處理
4.1??? 分析工具
開(kāi)發(fā)語(yǔ)言:Python(數(shù)據(jù)分析:Numpy/Pandas 數(shù)據(jù)可視化:Matplotlib)
開(kāi)發(fā)環(huán)境:Jupternotebook
4.2? ? 數(shù)據(jù)導(dǎo)入
? ? ? ?為方便理解栓撞,把英文字段改為中文遍膜。
4.3? ? 數(shù)據(jù)清洗
該數(shù)據(jù)清洗分為三個(gè)部分,缺失值處理瓤湘、數(shù)據(jù)邏輯錯(cuò)誤瓢颅、內(nèi)容格式的一致性方面。
第一弛说,缺失值處理
用戶城市和省份信息有部分缺失挽懦,分析其原因是部分用戶隱藏了IP地址,不影響分析木人。
部分訂單的訂單時(shí)間是空值信柿,分析其原因可能是訂單尚未支付,可以將其賦特殊值比如-1或者不做任何處理醒第,不影響分析渔嚷。
第二,數(shù)據(jù)邏輯錯(cuò)誤
有用戶城市ID為-1稠曼。優(yōu)惠前冰箱最低價(jià)格為300形病,數(shù)據(jù)中存在大量低價(jià)訂單,其中絕大部分是保修霞幅,返現(xiàn)等無(wú)價(jià)值訂單漠吻,一小部分是異常訂單,可以忽略司恳。
第三途乃,格式內(nèi)容一致性
此數(shù)據(jù)一致性較好,不需要特殊處理扔傅。
df.info()
查看整體數(shù)據(jù)索引耍共,在支付時(shí)間烫饼,訂單有效標(biāo)志,訂單取消標(biāo)注均有缺失值划提,需要進(jìn)行缺失值處理枫弟,并且所有數(shù)據(jù)都是object,故需要對(duì)id鹏往,time等進(jìn)行數(shù)據(jù)類型轉(zhuǎn)化淡诗。
·?數(shù)據(jù)類型轉(zhuǎn)換
對(duì)數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換,標(biāo)注類數(shù)據(jù)只有0伊履,1韩容,故更改為整型(int型),對(duì)價(jià)格金額類的數(shù)據(jù)更改為浮點(diǎn)型(float型)唐瀑,對(duì)于時(shí)間日期類更改為datatime
· 數(shù)據(jù)缺失值處理
df.isnull().sum().sort_values(ascending=False)
查看缺失的數(shù)據(jù)群凶,并按缺失數(shù)據(jù)多少進(jìn)行排序,用戶所在城市編號(hào)有38190個(gè)缺失值哄辣,用戶所在省份編號(hào)有38033個(gè)缺失值请梢,支付時(shí)間有23271個(gè)缺失值
·? 填充缺失值
·? 異常值處理
定義異常值處理規(guī)則:冰箱的優(yōu)惠前單價(jià)最低為300元,低于該價(jià)格的訂單設(shè)定為異常力穗。
?通過(guò)以上分析可知毅弧,共有15133條冰箱優(yōu)惠前價(jià)格大于300的異常數(shù)據(jù),剔除異常值当窗。
· 重復(fù)值處理
df.訂單號(hào).duplicated() 語(yǔ)句查看訂單號(hào)是否有重復(fù)值
發(fā)現(xiàn)訂單號(hào)有重復(fù)現(xiàn)象(檢驗(yàn)為true)够坐,故需要對(duì)重復(fù)的訂單號(hào)進(jìn)行處理。根據(jù)京東訂單規(guī)則崖面,若訂單號(hào)重復(fù)元咙,保留第一個(gè)重復(fù)值。
5. 訂單數(shù)據(jù)的宏觀分析
5.1? ???? 有效訂單率
計(jì)算取消訂單數(shù)巫员,計(jì)算訂單取消標(biāo)志為1的訂單數(shù)量為取消訂單數(shù)庶香,17782
計(jì)算訂單數(shù),計(jì)算總訂單數(shù)為61536
通過(guò)繪制餅圖简识,可知有效訂單占總訂單的比率為71.10%
有效訂單篩選條件脉课,訂單有效標(biāo)志=1,訂單取消標(biāo)志=0财异,優(yōu)惠前單價(jià)不等于0
已支付的訂單占總體訂單的85%
5.2??? 訂單價(jià)格分布
通過(guò)訂單價(jià)格分布可得知80%的訂單都在3000以下。
通過(guò)生成直方圖函數(shù)唱遭,hist戳寸,bin_edges分別代表各個(gè)區(qū)間統(tǒng)計(jì)數(shù)值和區(qū)間端點(diǎn),hist_sum表示累積訂單量拷泽,hist_per為計(jì)算出的累積百分比疫鹊。
畫(huà)出折線圖
6. 訂單數(shù)據(jù)的微觀分析
6.1 時(shí)間維度
通過(guò)對(duì)時(shí)間維度進(jìn)行深挖袖瞻,我們發(fā)現(xiàn)0時(shí)刻是訂單數(shù)量最多的時(shí)間,在這個(gè)小時(shí)內(nèi)我們有超過(guò)4000個(gè)訂單拆吆,遠(yuǎn)遠(yuǎn)超過(guò)其他任何時(shí)間的訂單數(shù)聋迎。
6.1.1? 有效訂單量
除了0時(shí)刻外,上午十點(diǎn)和晚上八點(diǎn)也是訂單高峰期枣耀,考慮到0時(shí)訂單量可能是因?yàn)楫惓V党霈F(xiàn)霉晕,如某幾個(gè)顧客下了很多的訂單,基于以上考慮捞奕,這里可以對(duì)人均有效訂單量做一個(gè)分析牺堰。
從直方圖中,可明顯獲知0時(shí)刻有效訂單數(shù)4000+颅围,是全天最高的時(shí)刻伟葫,除此之外,10:00與20:00訂單量是一天中的小高峰期院促。
人均有效訂單量折線圖筏养,從數(shù)據(jù)來(lái)看,0時(shí)刻的人均有效訂單量的確偏高常拓,但低于峰值(1時(shí)刻的1.08)和11時(shí)刻的人均有效訂單量掌猛,這說(shuō)明了0時(shí)刻并非因?yàn)槟硞€(gè)異常高的單人訂單量造成訂單量最高的現(xiàn)象斋配。
6.1.2? 客單價(jià)&平均訂單價(jià)
客單價(jià)與平均訂單價(jià)的定義如下:
客單價(jià)=銷售額/顧客數(shù)
平均訂單價(jià)=銷售額/訂單數(shù)
同樣應(yīng)用groupby與agg訂單實(shí)際支付價(jià)格按照時(shí)間段分類孔飒,并取sum進(jìn)行求和,得到每一個(gè)時(shí)間段總銷售額艰争,再根據(jù)公式求得客單價(jià)和平均訂單價(jià)鸠匀,并畫(huà)出曲線圖缀棍。
6.1.3? 不同時(shí)段訂單價(jià)格對(duì)比
從時(shí)間維度來(lái)對(duì)訂單進(jìn)行拆分,把0時(shí)刻訂單價(jià)格累計(jì)分布圖和20時(shí)刻(除0時(shí)刻以外訂單數(shù)量最多的時(shí)間)價(jià)格累計(jì)分布來(lái)進(jìn)行對(duì)比汪疮。
0時(shí)刻:約25%的用戶訂單在2000元以下
20時(shí)刻:約75%的用戶訂單在2000元以下
說(shuō)明0時(shí)的用戶并不只是有一小部分訂單價(jià)格更高,而是大部分下單用戶都具有較高的客單價(jià)觉鼻。
避免重復(fù)操作,這里定義價(jià)格累計(jì)分布折線圖繪制函數(shù)佳簸,后續(xù)計(jì)算各個(gè)時(shí)刻可直接調(diào)用函數(shù)
分別調(diào)用函數(shù)乙墙,得到0時(shí)刻與20時(shí)刻訂單價(jià)格累計(jì)分布折線圖录别。
6.1.4?? 優(yōu)惠訂單占比
6.2??? 地域維度
6.2.1? 不同地域訂單量對(duì)比
計(jì)算各個(gè)用戶省份編號(hào)的訂單總量抱冷,刪掉not given即沒(méi)有省份信息的數(shù)據(jù)崔列,并更改用戶所在省份編號(hào)字段為整型。
下一步讀取城市等級(jí)數(shù)據(jù)表,同樣設(shè)置數(shù)據(jù)類型赵讯,由于city_level存儲(chǔ)了各個(gè)省份城市的信息盈咳,但我們分析時(shí)只需要統(tǒng)計(jì)到省份即可,所以這里需要簡(jiǎn)化边翼,每一個(gè)省份留一個(gè)數(shù)據(jù)即可鱼响。
刪除不必要的信息,只保留用戶所在省份編號(hào)和省份名稱兩列數(shù)據(jù)组底,且按照城市編號(hào)大小順序排序,由于下一步要通過(guò)pd.merge()對(duì)表進(jìn)行拼接丈积,所以需要將該表省份字段provinve_id更改為“用戶所在省份編號(hào)”,與order_area進(jìn)行匹配债鸡。
通過(guò)pd.merge()對(duì)表進(jìn)行拼接江滨,這時(shí)省份名稱和訂單數(shù)據(jù)就有相對(duì)應(yīng)關(guān)系了。
與前面畫(huà)圖方法相同厌均,將各個(gè)地區(qū)訂單量進(jìn)行可視化唬滑,如圖所示,訂單量排在前三名的城市為廣東莫秆,北京间雀,江蘇。其中廣東和北京的日訂單量都在1000+镊屎。惹挟。
當(dāng)然,也可以通過(guò)繪制餅圖來(lái)查看每一個(gè)省份訂單量占比缝驳,廣東訂單量約占全部訂單的20.55%连锯,北京約占13.29%。
6.2.2? 客單價(jià)&平均訂單價(jià)
此外用狱,之前我們?cè)跁r(shí)間維度考慮客單價(jià)和平均訂單價(jià)运怖,在地域維度也可采用同樣的方式進(jìn)行分析。這里就不詳細(xì)贅述夏伊,代碼如圖摇展。
6.3??? 品牌維度
把地區(qū)維度和品牌維度結(jié)合起來(lái),可以讓我們更清楚的看到不同地區(qū)品牌偏好性和市場(chǎng)滲透率溺忧。因?yàn)椴煌放朴胁煌▋r(jià)和營(yíng)銷策略咏连,通過(guò)不同地區(qū)用戶品牌偏好,我們也可以在產(chǎn)品定價(jià)和營(yíng)銷策略上發(fā)現(xiàn)洞察鲁森。
6.3.1? 頭部品牌
第一步同樣應(yīng)用groupby按照品牌名稱進(jìn)行分組祟滴,并統(tǒng)計(jì)支付價(jià)格總量和商品數(shù)量總量(sum),按照支付價(jià)格有多到少的順序進(jìn)行排序歌溉,代碼如圖垄懂。
從品牌整體銷售情況可以得知,海爾,容聲草慧,西門子桶蛔,美的,海信為銷量前五大品牌冠蒋。
6.3.2? 頭部省份四個(gè)品牌市場(chǎng)滲透率
品牌滲透率:該品牌訂單數(shù)/所有品牌總訂單數(shù)
這里選取剛剛地域分析中有效訂單量排在前五的五個(gè)省份羽圃,北京、上海抖剿、江蘇、廣東识窿、四川斩郎,首先用海爾品牌進(jìn)行分析,統(tǒng)計(jì)出海爾品牌在這幾個(gè)城市編號(hào)的商品數(shù)量和實(shí)際支付價(jià)格喻频。
根據(jù)上述公式缩宜,計(jì)算滲透率還需要所有品牌的訂單數(shù),所以采用merge將兩個(gè)df連接在一起甥温,并計(jì)算滲透率锻煌。其他品牌操作一致,所以這里定義一個(gè)計(jì)算滲透率的函數(shù)姻蚓,方便后續(xù)調(diào)用宋梧。
通過(guò)定義不同顏色來(lái)區(qū)分不同的品牌,黃色代表海爾狰挡,紅色代表容聲捂龄,藍(lán)色代表西門子,綠色代表美的加叁。由不同地域的品牌分布可知倦沧,上海用戶具有較強(qiáng)的品牌偏好性。
6.3.3? 各個(gè)品牌單價(jià)
?
6.4??? 店鋪維度
首先從自營(yíng)店鋪與非自營(yíng)店鋪有效訂單量方面來(lái)進(jìn)行宏觀分析展融,其代碼邏輯與訂單數(shù)據(jù)宏觀分析中的有效訂單率分析基本一致。
如上圖所示豫柬,自營(yíng)店鋪與非自營(yíng)店鋪的有效訂單比約為7:3告希,自營(yíng)店鋪的有效訂單數(shù)占總訂單數(shù)的主要部分。
除了訂單數(shù)量差異之外轮傍,非自營(yíng)店鋪的客單價(jià)也要遠(yuǎn)遠(yuǎn)低于自營(yíng)的店鋪暂雹。
接下來(lái),從品牌角度來(lái)進(jìn)行分析创夜,并分別將自營(yíng)店鋪與非自營(yíng)店鋪的訂單量前五的品牌繪制餅圖進(jìn)行對(duì)比杭跪。
由以上餅圖可知,在自營(yíng)店鋪中,頭部品牌是海爾涧尿、容聲系奉、西門子、海信姑廉、美的缺亮。在非自營(yíng)店鋪中,頭部品牌是志高桥言、海爾萌踱、奧克斯、現(xiàn)代号阿、美的(按日訂單總量排序)并鸵,不難發(fā)現(xiàn),非自營(yíng)訂單主要集中于價(jià)格較低的品牌扔涧,極大可能是非自營(yíng)店鋪訂單數(shù)量和客單價(jià)均大幅低于自營(yíng)店鋪的主要原因园担。