Kaggle電商零售數(shù)據(jù)分析

一旗芬、數(shù)據(jù)來源及說明

數(shù)據(jù)來源:? https://www.kaggle.com/carrie1/ecommerce-data

數(shù)據(jù)解釋:該數(shù)據(jù)集是由 Machine Learning Repository 在基于一個英國電商公司從2010年月12月到2011年12月的真實(shí)的交易數(shù)據(jù)集進(jìn)行改造的荸型。 該電商主要銷售的商品是各類禮品, 主要客戶是各類經(jīng)銷商。數(shù)據(jù)集大小:541909行x8列數(shù)據(jù)集的特征:

InvoiceNo/訂單編號:每筆交易分配唯一的6位數(shù),需注意退貨訂單的代碼以字母'C'開頭

StockCode/商品編號:每個不同的產(chǎn)品分配唯一的5位整數(shù)。

Description/產(chǎn)品描述:對每件產(chǎn)品的簡略描述姚糊。

Quantity/數(shù)量:每筆交易的每件產(chǎn)品的數(shù)量。

InvoiceDate/訂單日期:每筆交易發(fā)生的日期和時間授舟。

UnitPrice/單價:單位產(chǎn)品價格救恨。

CustomerID/顧客賬號ID:每個客戶分配唯一的5位整數(shù)。

Country/國家:每個客戶所在國家/地區(qū)的名稱释树。

二肠槽、分析維度

三擎淤、數(shù)據(jù)清洗

1、選擇子集

? ? ? ? 我們獲取到的數(shù)據(jù)中秸仙,可能數(shù)據(jù)量非常龐大嘴拢,并不是每一列都有價值都需要分析,這時候就需要從整個數(shù)據(jù)中選取合適的子集進(jìn)行分析寂纪,這樣能從數(shù)據(jù)中獲取最大價值席吴。本數(shù)據(jù)中產(chǎn)品描述這一列沒有分析價值,為了提高數(shù)據(jù)處理的效率捞蛋,可以將其進(jìn)行刪除孝冒。

2、列名重命名

? ? ? ? 在數(shù)據(jù)分析過程中拟杉,有些列名和數(shù)據(jù)容易混淆或產(chǎn)生歧義庄涡,不利于數(shù)據(jù)分析,這時候需要把列名換成容易理解的名稱搬设。本數(shù)據(jù)原來的列名是英文穴店,需要將其改成中文。

3拿穴、缺失值處理

? ? ? 在本數(shù)據(jù)中迹鹅,客戶編號這一列數(shù)據(jù)中存在大量缺失值,其它列都有541910條數(shù)據(jù)贞言,可這一列只有406830條數(shù)據(jù),缺失了135080條數(shù)據(jù)阀蒂。為了更好地進(jìn)行后面數(shù)據(jù)的分析该窗,這里我們將缺失客戶編號的數(shù)據(jù)全部進(jìn)行刪除。

4蚤霞、數(shù)據(jù)類型轉(zhuǎn)換

? ? ? 訂單日期和時間這列數(shù)據(jù)的數(shù)據(jù)類型并不是時間型的數(shù)據(jù)酗失,而且格式也不對。我們需要修改格式并增加購買時間這一列數(shù)據(jù)昧绣。首先對這一列數(shù)據(jù)進(jìn)行分列(需要復(fù)制數(shù)據(jù)规肴,再進(jìn)行分列,否則旁邊的數(shù)據(jù)會被覆蓋)夜畴,然后利用Excel工具進(jìn)行月份拖刃、日期、年份的提取贪绘,并用公式進(jìn)行文本合并兑牡。再用substitute將“/”替換成”-”,并*1税灌,就可以替換成時間格式了

5均函、數(shù)據(jù)排序

數(shù)據(jù)是按照訂單編號進(jìn)行排序的亿虽,所以不需要再進(jìn)行排序

6、異常數(shù)據(jù)處理

用excel自帶的數(shù)據(jù)數(shù)據(jù)分析工具可以對數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)苞也。發(fā)現(xiàn)產(chǎn)品數(shù)量最大值和最小值存在巨大差異(負(fù)數(shù)代表退貨)洛勉,后面分析會進(jìn)行處理。單價出現(xiàn)了0如迟,通過對貨物描述的查看收毫, 發(fā)現(xiàn)大部分的單價為0的記錄是對有缺陷貨物的處理或者是禮品,此類數(shù)據(jù)對我們的分析沒有用,為了不影響后續(xù)的分析氓涣,我們需要進(jìn)行刪除牛哺。

四、構(gòu)建模型及數(shù)據(jù)可視化

1劳吠、用戶消費(fèi)趨勢分析

1.1引润、按月進(jìn)行分析

? ? ? 用戶由于存在退款的數(shù)據(jù)會影響數(shù)據(jù)的分析,所以我們需要將其刪除痒玩。為了對退款率以及退款金額的分析淳附,我們需要保存一份原始數(shù)據(jù)。

? ? ? ? 觀察圖表發(fā)現(xiàn)蠢古,消費(fèi)人群主要集中在9月到11月奴曙,11月達(dá)到峰值,其它幾個月訂單量草讶、產(chǎn)品購買量洽糟、購買金額基本處于平穩(wěn),原因在于11月有感恩節(jié)堕战,10月有萬圣節(jié)坤溃。由于禮品與節(jié)日強(qiáng)相關(guān),尤其是圣誕節(jié)嘱丢、感恩節(jié)薪介,可以針對不同節(jié)日的特點(diǎn)推廣不同的商品。而平臺方面需要物流越驻、采購汁政、網(wǎng)站流量維護(hù)等各方面提前做好準(zhǔn)備。

? ? ? ? 9月到11月的消費(fèi)人數(shù)在1200-1800之間缀旁,其它月份消費(fèi)人數(shù)在800左右记劈,說明用戶的粘性比較高。新用戶的購買行為總體來說較少并巍,后續(xù)的消費(fèi)行為基本來自老用戶的回購抠蚣。

1.2、按季度進(jìn)行分析

由圖可知履澳,用戶主要在第三嘶窄、第四季度進(jìn)行消費(fèi)怀跛。

1.3、按周進(jìn)行分析

? ? ? ? 由圖可知柄冲,用戶的消費(fèi)時間集中在周一至周五吻谋,特別是周四。而周日相對較少现横,周六可能是店鋪的休息日漓拾,所以無購買量。

1.4戒祠、按日進(jìn)行分析


? ? ? 因?yàn)槭卿N售禮品的店鋪骇两,并不是電商,所以用戶的集中購買時間在中午姜盈,而早上和晚上的購買量非常少低千。

2、用戶個體消費(fèi)分析

2.1.1馏颂、用戶消費(fèi)金額消費(fèi)次數(shù)相關(guān)性分析

? ? ? ? 由于存在極值示血,會影響我們的分析以及圖表展示,所以我們通過篩選進(jìn)行制圖救拉,我們選擇購買金額<4000的數(shù)據(jù)進(jìn)行制圖(橫軸為消費(fèi)金額难审,縱軸為消費(fèi)次數(shù))

用戶消費(fèi)金額消費(fèi)次數(shù)都集中在0-1000的區(qū)間。

2.1.2亿絮、用戶消費(fèi)金額的分布

? ? ? ? 由于一些極值的影響使得數(shù)據(jù)分布收到了干擾告喊,并且大部分購買金額較小。所以我們選擇<100的數(shù)據(jù)作圖派昧。

數(shù)據(jù)都集中在0-20這個區(qū)間葱绒,說明購買客戶總體的購買金額比較小,而且長尾效應(yīng)明顯斗锭。

2.1.3、用戶產(chǎn)品購買量的分布

數(shù)據(jù)集中在1-5這個區(qū)間失球,說明用戶總體的購買量很小岖是,而且長尾效應(yīng)明顯。

2.2实苞、熱銷產(chǎn)品(前10)

? ? ? 頭部商品優(yōu)勢很突出豺撑,銷量前十名占比達(dá)到了8%,建議與這些商品的供應(yīng)商進(jìn)行長期品牌化的合作黔牵,確保貨源充足聪轿。

2.3、用戶價格偏好

將產(chǎn)品價格設(shè)置為單獨(dú)組猾浦。然后用vlookup函數(shù)進(jìn)行近似匹配即可陆错。

? ? ? ? 大部分的禮品價格位于0-3這個價位段灯抛,由此,我們可以知道音瓷, 該市場的目標(biāo)客戶為低端客戶对嚼,這可能是平臺售賣商品類型與主要客戶是批發(fā)商有關(guān)。

2.4绳慎、購買主力及客戶類型(前30)

客戶類型:

大型批發(fā)商:消費(fèi)金額特別巨大的一般是大型批發(fā)商纵竖,平臺可以針對這種客戶開發(fā)To B的服務(wù)。

專業(yè)買手或者小型商店:雖然在購買金額遠(yuǎn)遠(yuǎn)無法與大型批發(fā)商相比杏愤,但其在為商品宣傳方面的能力是不容小覷的靡砌,平臺可以與一些受眾廣泛的買手達(dá)成宣傳方面的合作。

消費(fèi)能力較強(qiáng)的用戶:考慮到禮品不是日常生活用品珊楼,一年消費(fèi)400美金以上應(yīng)該是在平均消費(fèi)者能力以上通殃。平臺可以考慮給這類消費(fèi)能力較強(qiáng)的消費(fèi)者一些優(yōu)惠或者提供更細(xì)致的服務(wù)。

普通用戶:正常消費(fèi)

2.5亥曹、客單價(總消費(fèi)金額/總客戶數(shù))

由于國家數(shù)量太多邓了,全部求出來很費(fèi)時間,所以我們選擇計(jì)算總消費(fèi)金額前10國家的客單價媳瞪。


? ? ? ? 由于英國的消費(fèi)總量占全部銷售額的82%,在同一坐標(biāo)下骗炉,其他國家的數(shù)據(jù)指標(biāo)不好做比較,因此我們?nèi)サ粲笊呤埽龠M(jìn)行做圖分析句葵。

愛爾蘭在消費(fèi)總量排名靠前的國家里客單價是最高的。

3兢仰、消費(fèi)行為分析

3.1乍丈、新老客戶消費(fèi)比

? ? ? ? 用數(shù)據(jù)透視表求出用戶購買產(chǎn)品日期的最大值和最小值,若該日期的最大值等于其最小值把将,說明這個用戶只消費(fèi)了一次轻专。

有35.68%的用戶僅消費(fèi)過一次,老用戶所占比例為64.32%察蹲。

3.2请垛、RFM客戶價值分類

? ? ? ? RFM模型,通過對用戶在R(Recency洽议,最近一次消費(fèi))F(Frequency宗收,消費(fèi)頻率)M(Monetary,消費(fèi)金額)三方面的表現(xiàn)進(jìn)行分類亚兄,然后對分類分組進(jìn)行定性描述的混稽,分層模型如下:先對數(shù)據(jù)做預(yù)處理,讓最大日期減去每個日期獲得間隔天數(shù),當(dāng)數(shù)值越小時匈勋,說明日期越近礼旅。(這里需要用到Excel工具的時間差計(jì)算:=DATEDIF(B2, C2, "d"))。將用戶在R颓影、F各淀、M三個維度上按照高于平均值和低于平均值進(jìn)行劃分(劃分標(biāo)準(zhǔn)可根據(jù)不同業(yè)務(wù)設(shè)計(jì)也不同),高于平均值則賦值為1,低于平均值則賦值為0诡挂,這里需要用到IF判斷函數(shù)碎浇,然后將判斷的結(jié)果進(jìn)行合并,并用Vlookup函數(shù)進(jìn)行匹配璃俗,最后用數(shù)據(jù)透視表統(tǒng)計(jì)客戶數(shù)奴璃。

最后根據(jù)RFM分層模型給所有用戶分層:

只有四類客戶,可能由于存在過多極值導(dǎo)致的城豁,也可能是參考值的原因苟穆。

3.3、用戶生命周期分析(按第一次&最后一次消費(fèi))

? ? ? ? 使用數(shù)據(jù)透視表將客戶首次購買時間唱星、客戶末次購買時間提取出來雳旅,然后計(jì)算客戶最近一次下單時間R(R=當(dāng)前時間(最大值+1)-客戶末次購買時間),然后計(jì)算消費(fèi)時間跨度L(L=客戶末次購買時間-客戶首次購買時間)间聊,也就是生命周期攒盈。然后創(chuàng)建客戶分類,這里利用帕累托模型計(jì)算參考值(R參考值:153哎榴,L參考值82)型豁,高于L參考值、低于R參考值賦值為1尚蝌,否則賦值為0迎变,這里需要用到IF判斷函數(shù),然后將判斷的結(jié)果進(jìn)行合并飘言,并用Vlookup函數(shù)進(jìn)行匹配衣形,最后用數(shù)據(jù)透視表統(tǒng)計(jì)客戶數(shù)(11代表忠誠客戶,01代表新客戶姿鸿,10代表一次性客戶谆吴,00代表流失客戶)。

? ? ? ? 用戶的平均生命周期為131天般妙,但中位數(shù)為93天,說明大部分用戶購買了一次之后就很少再次消費(fèi)相速〉欤客戶的生命周期集中分布在0-28天這個區(qū)間,說明大部分客戶的生命周期比較短。

? ? ? ? 有48%的客戶為忠誠客戶苫拍,說明用戶黏性較好芜繁,但是還存在20%的流失客戶,需要加大力度進(jìn)行挽回绒极。

3.4 用戶留存分析(基于Tableau)

這里我們用tablea進(jìn)行數(shù)據(jù)可視化創(chuàng)建計(jì)算字段:首次購買時間骏令、時間間隔、創(chuàng)建參數(shù):時間間隔單位垄提。

用戶每個月的留存率相對較低罩扇,在20%左右怜奖。

3.5、 復(fù)購率計(jì)算

? ? ? ? 以月為單位,對每月用戶消費(fèi)情況進(jìn)行預(yù)處理:若消費(fèi)次數(shù)大于1氯材,則說明用戶在本月進(jìn)行了多次消費(fèi),對多次消費(fèi)的情況取值為1嵌屎;若消費(fèi)次數(shù)等于1疯暑,說明用戶在本月只進(jìn)行了1次消費(fèi),每月復(fù)購行為滩报,取值為0锅知;若消費(fèi)次數(shù)等于0,則說明用戶在本月未消費(fèi)脓钾。

復(fù)購率基本上穩(wěn)定在96.5%左右售睹,大部分客戶購買次數(shù)比較多。

3.6惭笑、 回購率計(jì)算

? ? ? 月末不存在回購行為侣姆,因此其回購率為0。前四個月由于有大量新用戶涌入沉噩,大部分人只消費(fèi)過一次捺宗,所以回購率偏低;第四個月回購率回升川蒙,最后穩(wěn)定在8%左右蚜厉,即當(dāng)月消費(fèi)人數(shù)中有8%左右的用戶會在下一個月再次消費(fèi)。

3.7畜眨、退貨率計(jì)算

退貨率計(jì)算方法:通過篩選的方式將有退貨的數(shù)據(jù)提取出來昼牛,然后分別進(jìn)行數(shù)據(jù)透視,然后通過vlookup進(jìn)行匹配康聂,最后計(jì)算退貨率

? ? ? ? 退貨率排名前五的國家:美國贰健,沙特阿拉伯,西班牙恬汁,愛爾蘭伶椿,德國。其中,美國年退貨率快高達(dá)6%脊另,遙遙領(lǐng)先于其他國家导狡。

五、結(jié)論

1偎痛、英國銷售額是全部的82%旱捧,占據(jù)本土優(yōu)勢,銷量靠前的大部分都是歐洲國家踩麦,由此可見該平臺的主要市場還是在歐洲枚赡,可以著力開發(fā)除了歐洲市場之外的消費(fèi)水平較高的市場。

2靖榕、絕大多數(shù)銷量靠前的產(chǎn)品單價都是低價的标锄,這與平臺主要售賣商品類型和客戶有較大關(guān)系。針對這些批發(fā)商用戶茁计,制定合理價格機(jī)制料皇,控制商品成本,優(yōu)化物流運(yùn)輸以提供物美價廉的商品星压。提高銷量践剂。同時,可以增加1-3英鎊產(chǎn)品的多樣性娜膘,有利于增加客戶的消費(fèi)額度逊脯, 同時也能吸引更加多的目標(biāo)客戶。

3竣贪、銷量高峰期是8军洼、9、10演怎、11月匕争,需要平臺物流、采購爷耀、網(wǎng)站流量維護(hù)等方面提前做好準(zhǔn)備甘桑。

4、退貨率過高歹叮,原因主要有物流時間過長跑杭,商品實(shí)際與描述不符合,產(chǎn)品本身有質(zhì)量問題等咆耿。建議:要及時處理跟進(jìn)德谅,優(yōu)化商品采購,物流運(yùn)輸萨螺,店鋪管理等窄做,降低退貨率宅荤,跟買家營造良好的購物環(huán)境,增進(jìn)客戶忠誠度浸策。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市惹盼,隨后出現(xiàn)的幾起案子庸汗,更是在濱河造成了極大的恐慌,老刑警劉巖手报,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蚯舱,死亡現(xiàn)場離奇詭異,居然都是意外死亡掩蛤,警方通過查閱死者的電腦和手機(jī)枉昏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來揍鸟,“玉大人兄裂,你說我怎么就攤上這事⊙粼澹” “怎么了晰奖?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長腥泥。 經(jīng)常有香客問我匾南,道長,這世上最難降的妖魔是什么蛔外? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任蛆楞,我火速辦了婚禮,結(jié)果婚禮上夹厌,老公的妹妹穿的比我還像新娘豹爹。我一直安慰自己,他們只是感情好尊流,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布帅戒。 她就那樣靜靜地躺著,像睡著了一般崖技。 火紅的嫁衣襯著肌膚如雪逻住。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天迎献,我揣著相機(jī)與錄音瞎访,去河邊找鬼。 笑死吁恍,一個胖子當(dāng)著我的面吹牛扒秸,可吹牛的內(nèi)容都是我干的播演。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼伴奥,長吁一口氣:“原來是場噩夢啊……” “哼写烤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起拾徙,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤洲炊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后尼啡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體暂衡,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年崖瞭,在試婚紗的時候發(fā)現(xiàn)自己被綠了狂巢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡书聚,死狀恐怖唧领,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情雌续,我是刑警寧澤疹吃,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站西雀,受9級特大地震影響萨驶,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜艇肴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一腔呜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧再悼,春花似錦核畴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至莺奸,卻和暖如春丑孩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背灭贷。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工温学, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人甚疟。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓仗岖,卻偏偏與公主長得像逃延,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子轧拄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評論 2 355