Python家電訂單數(shù)據(jù)分析報(bào)告

1. 項(xiàng)目背景

1.1訂單數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)源:某平臺(tái)提供的?2020年5月25日大家電-家用電器-冰箱 抽樣數(shù)據(jù)(可供學(xué)習(xí))

數(shù)據(jù)量:70k+

訂單數(shù)據(jù)介紹

2. 訂單數(shù)據(jù)的分析思路

? 對(duì)于訂單數(shù)據(jù),在業(yè)務(wù)中最常見(jiàn)的是使用可視化報(bào)表來(lái)監(jiān)測(cè)訂單關(guān)鍵性指標(biāo)的變化,并在一定維度上進(jìn)行下鉆穆刻。

3. 結(jié)論

從宏觀角度浩考,把握當(dāng)天訂單狀況浩峡。訂單總數(shù)中,有71.15%是未取消訂單,在未取消訂單中,有效訂單(有效訂單衡量標(biāo)準(zhǔn)為訂單有效標(biāo)志為1且實(shí)際支付金額>0)

在訂單價(jià)格分布中捧挺,一天中近80%的訂單支付金額都小于3000元。

在訂單的微觀分析中尿瞭,根據(jù)以上訂單分析思路闽烙,將訂單分為四個(gè)維度去考慮,時(shí)間維度筷厘,地區(qū)維度鸣峭,品牌維度,店鋪維度酥艳。

1)?? 時(shí)間維度

結(jié)論1:0時(shí)刻(表示客戶在0:00-1:00下單)是訂單數(shù)量和客單價(jià)最高的時(shí)間段,有效訂單量4024單爬骤,超過(guò)其他時(shí)段一倍以上充石;

結(jié)論2:10:00和20:00為一天中的小高峰期,訂單數(shù)量2000+霞玄;

結(jié)論3:?訂單量較高的時(shí)段可能因?yàn)樵诖似陂g有優(yōu)惠促銷活動(dòng)導(dǎo)致骤铃;

2)地域維度

結(jié)論4:?廣東,北京坷剧,上海惰爬,四川,江蘇為京東家電(冰箱)類的頭部市場(chǎng)惫企;

結(jié)論5:?廣東為全國(guó)省份中訂單總量最多的地區(qū)撕瞧;

結(jié)論6:?上海地區(qū)人均購(gòu)買力更強(qiáng)陵叽;

結(jié)論7:?上海地區(qū)具有較強(qiáng)的品牌偏好性

3) 品牌維度

結(jié)論8:?海爾、容聲丛版、美的巩掺、康佳、至高為冰箱產(chǎn)品中的頭部品牌页畦,其中海爾占據(jù)絕大部分市場(chǎng)份額胖替;

3) 品牌維度

結(jié)論8:?海爾、容聲豫缨、美的独令、康佳、至高為冰箱產(chǎn)品中的頭部品牌好芭,其中海爾占據(jù)絕大部分市場(chǎng)份額燃箭;

4)?? 店鋪維度

結(jié)論9:?非自營(yíng)店鋪訂單數(shù)量和客單價(jià)大幅度低于自營(yíng)店鋪

結(jié)論10:原因可能是非自營(yíng)店鋪主要集中于單價(jià)很低的品牌,缺少單價(jià)較高的品牌

4. 數(shù)據(jù)處理

4.1??? 分析工具

開(kāi)發(fā)語(yǔ)言:Python(數(shù)據(jù)分析:Numpy/Pandas 數(shù)據(jù)可視化:Matplotlib)

開(kāi)發(fā)環(huán)境:Jupternotebook


4.2? ? 數(shù)據(jù)導(dǎo)入

? ? ? ?為方便理解栓撞,把英文字段改為中文遍膜。

4.3? ? 數(shù)據(jù)清洗

該數(shù)據(jù)清洗分為三個(gè)部分,缺失值處理瓤湘、數(shù)據(jù)邏輯錯(cuò)誤瓢颅、內(nèi)容格式的一致性方面。

第一弛说,缺失值處理

用戶城市和省份信息有部分缺失挽懦,分析其原因是部分用戶隱藏了IP地址,不影響分析木人。

部分訂單的訂單時(shí)間是空值信柿,分析其原因可能是訂單尚未支付,可以將其賦特殊值比如-1或者不做任何處理醒第,不影響分析渔嚷。

第二,數(shù)據(jù)邏輯錯(cuò)誤

有用戶城市ID為-1稠曼。優(yōu)惠前冰箱最低價(jià)格為300形病,數(shù)據(jù)中存在大量低價(jià)訂單,其中絕大部分是保修霞幅,返現(xiàn)等無(wú)價(jià)值訂單漠吻,一小部分是異常訂單,可以忽略司恳。

第三途乃,格式內(nèi)容一致性

此數(shù)據(jù)一致性較好,不需要特殊處理扔傅。

df.info()

查看整體數(shù)據(jù)索引耍共,在支付時(shí)間烫饼,訂單有效標(biāo)志,訂單取消標(biāo)注均有缺失值划提,需要進(jìn)行缺失值處理枫弟,并且所有數(shù)據(jù)都是object,故需要對(duì)id鹏往,time等進(jìn)行數(shù)據(jù)類型轉(zhuǎn)化淡诗。

·?數(shù)據(jù)類型轉(zhuǎn)換

對(duì)數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換,標(biāo)注類數(shù)據(jù)只有0伊履,1韩容,故更改為整型(int型),對(duì)價(jià)格金額類的數(shù)據(jù)更改為浮點(diǎn)型(float型)唐瀑,對(duì)于時(shí)間日期類更改為datatime

· 數(shù)據(jù)缺失值處理

df.isnull().sum().sort_values(ascending=False)

查看缺失的數(shù)據(jù)群凶,并按缺失數(shù)據(jù)多少進(jìn)行排序,用戶所在城市編號(hào)有38190個(gè)缺失值哄辣,用戶所在省份編號(hào)有38033個(gè)缺失值请梢,支付時(shí)間有23271個(gè)缺失值

·? 填充缺失值

·? 異常值處理

定義異常值處理規(guī)則:冰箱的優(yōu)惠前單價(jià)最低為300元,低于該價(jià)格的訂單設(shè)定為異常力穗。

?通過(guò)以上分析可知毅弧,共有15133條冰箱優(yōu)惠前價(jià)格大于300的異常數(shù)據(jù),剔除異常值当窗。

· 重復(fù)值處理

df.訂單號(hào).duplicated() 語(yǔ)句查看訂單號(hào)是否有重復(fù)值

發(fā)現(xiàn)訂單號(hào)有重復(fù)現(xiàn)象(檢驗(yàn)為true)够坐,故需要對(duì)重復(fù)的訂單號(hào)進(jìn)行處理。根據(jù)京東訂單規(guī)則崖面,若訂單號(hào)重復(fù)元咙,保留第一個(gè)重復(fù)值。

5. 訂單數(shù)據(jù)的宏觀分析

5.1? ???? 有效訂單率

計(jì)算取消訂單數(shù)巫员,計(jì)算訂單取消標(biāo)志為1的訂單數(shù)量為取消訂單數(shù)庶香,17782

計(jì)算訂單數(shù),計(jì)算總訂單數(shù)為61536

通過(guò)繪制餅圖简识,可知有效訂單占總訂單的比率為71.10%

有效訂單篩選條件脉课,訂單有效標(biāo)志=1,訂單取消標(biāo)志=0财异,優(yōu)惠前單價(jià)不等于0

已支付的訂單占總體訂單的85%

5.2??? 訂單價(jià)格分布

通過(guò)訂單價(jià)格分布可得知80%的訂單都在3000以下。

通過(guò)生成直方圖函數(shù)唱遭,hist戳寸,bin_edges分別代表各個(gè)區(qū)間統(tǒng)計(jì)數(shù)值和區(qū)間端點(diǎn),hist_sum表示累積訂單量拷泽,hist_per為計(jì)算出的累積百分比疫鹊。

畫(huà)出折線圖


6. 訂單數(shù)據(jù)的微觀分析

6.1 時(shí)間維度

通過(guò)對(duì)時(shí)間維度進(jìn)行深挖袖瞻,我們發(fā)現(xiàn)0時(shí)刻是訂單數(shù)量最多的時(shí)間,在這個(gè)小時(shí)內(nèi)我們有超過(guò)4000個(gè)訂單拆吆,遠(yuǎn)遠(yuǎn)超過(guò)其他任何時(shí)間的訂單數(shù)聋迎。

6.1.1? 有效訂單量

除了0時(shí)刻外,上午十點(diǎn)和晚上八點(diǎn)也是訂單高峰期枣耀,考慮到0時(shí)訂單量可能是因?yàn)楫惓V党霈F(xiàn)霉晕,如某幾個(gè)顧客下了很多的訂單,基于以上考慮捞奕,這里可以對(duì)人均有效訂單量做一個(gè)分析牺堰。

從直方圖中,可明顯獲知0時(shí)刻有效訂單數(shù)4000+颅围,是全天最高的時(shí)刻伟葫,除此之外,10:00與20:00訂單量是一天中的小高峰期院促。

人均有效訂單量折線圖筏养,從數(shù)據(jù)來(lái)看,0時(shí)刻的人均有效訂單量的確偏高常拓,但低于峰值(1時(shí)刻的1.08)和11時(shí)刻的人均有效訂單量掌猛,這說(shuō)明了0時(shí)刻并非因?yàn)槟硞€(gè)異常高的單人訂單量造成訂單量最高的現(xiàn)象斋配。

6.1.2? 客單價(jià)&平均訂單價(jià)

客單價(jià)與平均訂單價(jià)的定義如下:

客單價(jià)=銷售額/顧客數(shù)

平均訂單價(jià)=銷售額/訂單數(shù)

同樣應(yīng)用groupby與agg訂單實(shí)際支付價(jià)格按照時(shí)間段分類孔飒,并取sum進(jìn)行求和,得到每一個(gè)時(shí)間段總銷售額艰争,再根據(jù)公式求得客單價(jià)和平均訂單價(jià)鸠匀,并畫(huà)出曲線圖缀棍。

6.1.3? 不同時(shí)段訂單價(jià)格對(duì)比

從時(shí)間維度來(lái)對(duì)訂單進(jìn)行拆分,把0時(shí)刻訂單價(jià)格累計(jì)分布圖和20時(shí)刻(除0時(shí)刻以外訂單數(shù)量最多的時(shí)間)價(jià)格累計(jì)分布來(lái)進(jìn)行對(duì)比汪疮。

0時(shí)刻:約25%的用戶訂單在2000元以下

20時(shí)刻:約75%的用戶訂單在2000元以下

說(shuō)明0時(shí)的用戶并不只是有一小部分訂單價(jià)格更高,而是大部分下單用戶都具有較高的客單價(jià)觉鼻。

避免重復(fù)操作,這里定義價(jià)格累計(jì)分布折線圖繪制函數(shù)佳簸,后續(xù)計(jì)算各個(gè)時(shí)刻可直接調(diào)用函數(shù)

分別調(diào)用函數(shù)乙墙,得到0時(shí)刻與20時(shí)刻訂單價(jià)格累計(jì)分布折線圖录别。

6.1.4?? 優(yōu)惠訂單占比

6.2??? 地域維度

6.2.1? 不同地域訂單量對(duì)比

計(jì)算各個(gè)用戶省份編號(hào)的訂單總量抱冷,刪掉not given即沒(méi)有省份信息的數(shù)據(jù)崔列,并更改用戶所在省份編號(hào)字段為整型。

下一步讀取城市等級(jí)數(shù)據(jù)表,同樣設(shè)置數(shù)據(jù)類型赵讯,由于city_level存儲(chǔ)了各個(gè)省份城市的信息盈咳,但我們分析時(shí)只需要統(tǒng)計(jì)到省份即可,所以這里需要簡(jiǎn)化边翼,每一個(gè)省份留一個(gè)數(shù)據(jù)即可鱼响。

刪除不必要的信息,只保留用戶所在省份編號(hào)和省份名稱兩列數(shù)據(jù)组底,且按照城市編號(hào)大小順序排序,由于下一步要通過(guò)pd.merge()對(duì)表進(jìn)行拼接丈积,所以需要將該表省份字段provinve_id更改為“用戶所在省份編號(hào)”,與order_area進(jìn)行匹配债鸡。

通過(guò)pd.merge()對(duì)表進(jìn)行拼接江滨,這時(shí)省份名稱和訂單數(shù)據(jù)就有相對(duì)應(yīng)關(guān)系了。

與前面畫(huà)圖方法相同厌均,將各個(gè)地區(qū)訂單量進(jìn)行可視化唬滑,如圖所示,訂單量排在前三名的城市為廣東莫秆,北京间雀,江蘇。其中廣東和北京的日訂單量都在1000+镊屎。惹挟。

當(dāng)然,也可以通過(guò)繪制餅圖來(lái)查看每一個(gè)省份訂單量占比缝驳,廣東訂單量約占全部訂單的20.55%连锯,北京約占13.29%。

6.2.2? 客單價(jià)&平均訂單價(jià)

此外用狱,之前我們?cè)跁r(shí)間維度考慮客單價(jià)和平均訂單價(jià)运怖,在地域維度也可采用同樣的方式進(jìn)行分析。這里就不詳細(xì)贅述夏伊,代碼如圖摇展。

6.3??? 品牌維度

把地區(qū)維度和品牌維度結(jié)合起來(lái),可以讓我們更清楚的看到不同地區(qū)品牌偏好性和市場(chǎng)滲透率溺忧。因?yàn)椴煌放朴胁煌▋r(jià)和營(yíng)銷策略咏连,通過(guò)不同地區(qū)用戶品牌偏好,我們也可以在產(chǎn)品定價(jià)和營(yíng)銷策略上發(fā)現(xiàn)洞察鲁森。

6.3.1? 頭部品牌

第一步同樣應(yīng)用groupby按照品牌名稱進(jìn)行分組祟滴,并統(tǒng)計(jì)支付價(jià)格總量和商品數(shù)量總量(sum),按照支付價(jià)格有多到少的順序進(jìn)行排序歌溉,代碼如圖垄懂。

從品牌整體銷售情況可以得知,海爾,容聲草慧,西門子桶蛔,美的,海信為銷量前五大品牌冠蒋。

6.3.2? 頭部省份四個(gè)品牌市場(chǎng)滲透率

品牌滲透率:該品牌訂單數(shù)/所有品牌總訂單數(shù)

這里選取剛剛地域分析中有效訂單量排在前五的五個(gè)省份羽圃,北京、上海抖剿、江蘇、廣東识窿、四川斩郎,首先用海爾品牌進(jìn)行分析,統(tǒng)計(jì)出海爾品牌在這幾個(gè)城市編號(hào)的商品數(shù)量和實(shí)際支付價(jià)格喻频。

根據(jù)上述公式缩宜,計(jì)算滲透率還需要所有品牌的訂單數(shù),所以采用merge將兩個(gè)df連接在一起甥温,并計(jì)算滲透率锻煌。其他品牌操作一致,所以這里定義一個(gè)計(jì)算滲透率的函數(shù)姻蚓,方便后續(xù)調(diào)用宋梧。

通過(guò)定義不同顏色來(lái)區(qū)分不同的品牌,黃色代表海爾狰挡,紅色代表容聲捂龄,藍(lán)色代表西門子,綠色代表美的加叁。由不同地域的品牌分布可知倦沧,上海用戶具有較強(qiáng)的品牌偏好性。

6.3.3? 各個(gè)品牌單價(jià)


?

6.4??? 店鋪維度

首先從自營(yíng)店鋪與非自營(yíng)店鋪有效訂單量方面來(lái)進(jìn)行宏觀分析展融,其代碼邏輯與訂單數(shù)據(jù)宏觀分析中的有效訂單率分析基本一致。

如上圖所示豫柬,自營(yíng)店鋪與非自營(yíng)店鋪的有效訂單比約為7:3告希,自營(yíng)店鋪的有效訂單數(shù)占總訂單數(shù)的主要部分。

除了訂單數(shù)量差異之外轮傍,非自營(yíng)店鋪的客單價(jià)也要遠(yuǎn)遠(yuǎn)低于自營(yíng)的店鋪暂雹。

接下來(lái),從品牌角度來(lái)進(jìn)行分析创夜,并分別將自營(yíng)店鋪與非自營(yíng)店鋪的訂單量前五的品牌繪制餅圖進(jìn)行對(duì)比杭跪。

由以上餅圖可知,在自營(yíng)店鋪中,頭部品牌是海爾涧尿、容聲系奉、西門子、海信姑廉、美的缺亮。在非自營(yíng)店鋪中,頭部品牌是志高桥言、海爾萌踱、奧克斯、現(xiàn)代号阿、美的(按日訂單總量排序)并鸵,不難發(fā)現(xiàn),非自營(yíng)訂單主要集中于價(jià)格較低的品牌扔涧,極大可能是非自營(yíng)店鋪訂單數(shù)量和客單價(jià)均大幅低于自營(yíng)店鋪的主要原因园担。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市枯夜,隨后出現(xiàn)的幾起案子领炫,更是在濱河造成了極大的恐慌商架,老刑警劉巖酬姆,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件二鳄,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡劝枣,警方通過(guò)查閱死者的電腦和手機(jī)汤踏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)舔腾,“玉大人溪胶,你說(shuō)我怎么就攤上這事∥瘸希” “怎么了哗脖?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)扳还。 經(jīng)常有香客問(wèn)我才避,道長(zhǎng),這世上最難降的妖魔是什么氨距? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任桑逝,我火速辦了婚禮,結(jié)果婚禮上俏让,老公的妹妹穿的比我還像新娘楞遏。我一直安慰自己茬暇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布寡喝。 她就那樣靜靜地躺著糙俗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪预鬓。 梳的紋絲不亂的頭發(fā)上巧骚,一...
    開(kāi)封第一講書(shū)人閱讀 49,785評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音格二,去河邊找鬼劈彪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛顶猜,可吹牛的內(nèi)容都是我干的粉臊。 我是一名探鬼主播,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼驶兜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了远寸?” 一聲冷哼從身側(cè)響起抄淑,我...
    開(kāi)封第一講書(shū)人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎驰后,沒(méi)想到半個(gè)月后肆资,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡灶芝,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年郑原,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夜涕。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡犯犁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出女器,到底是詐尸還是另有隱情酸役,我是刑警寧澤,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布驾胆,位于F島的核電站涣澡,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏丧诺。R本人自食惡果不足惜入桂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望驳阎。 院中可真熱鬧抗愁,春花似錦馁蒂、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至逢捺,卻和暖如春谁鳍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背劫瞳。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工倘潜, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人志于。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓涮因,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親伺绽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子养泡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348