一旗芬、數(shù)據(jù)來源及說明
數(shù)據(jù)來源:? https://www.kaggle.com/carrie1/ecommerce-data
數(shù)據(jù)解釋:該數(shù)據(jù)集是由 Machine Learning Repository 在基于一個英國電商公司從2010年月12月到2011年12月的真實(shí)的交易數(shù)據(jù)集進(jìn)行改造的荸型。 該電商主要銷售的商品是各類禮品, 主要客戶是各類經(jīng)銷商。數(shù)據(jù)集大小:541909行x8列數(shù)據(jù)集的特征:
InvoiceNo/訂單編號:每筆交易分配唯一的6位數(shù),需注意退貨訂單的代碼以字母'C'開頭
StockCode/商品編號:每個不同的產(chǎn)品分配唯一的5位整數(shù)。
Description/產(chǎn)品描述:對每件產(chǎn)品的簡略描述姚糊。
Quantity/數(shù)量:每筆交易的每件產(chǎn)品的數(shù)量。
InvoiceDate/訂單日期:每筆交易發(fā)生的日期和時間授舟。
UnitPrice/單價:單位產(chǎn)品價格救恨。
CustomerID/顧客賬號ID:每個客戶分配唯一的5位整數(shù)。
Country/國家:每個客戶所在國家/地區(qū)的名稱释树。
二肠槽、分析維度
三擎淤、數(shù)據(jù)清洗
1、選擇子集
? ? ? ? 我們獲取到的數(shù)據(jù)中秸仙,可能數(shù)據(jù)量非常龐大嘴拢,并不是每一列都有價值都需要分析,這時候就需要從整個數(shù)據(jù)中選取合適的子集進(jìn)行分析寂纪,這樣能從數(shù)據(jù)中獲取最大價值席吴。本數(shù)據(jù)中產(chǎn)品描述這一列沒有分析價值,為了提高數(shù)據(jù)處理的效率捞蛋,可以將其進(jìn)行刪除孝冒。
2、列名重命名
? ? ? ? 在數(shù)據(jù)分析過程中拟杉,有些列名和數(shù)據(jù)容易混淆或產(chǎn)生歧義庄涡,不利于數(shù)據(jù)分析,這時候需要把列名換成容易理解的名稱搬设。本數(shù)據(jù)原來的列名是英文穴店,需要將其改成中文。
3拿穴、缺失值處理
? ? ? 在本數(shù)據(jù)中迹鹅,客戶編號這一列數(shù)據(jù)中存在大量缺失值,其它列都有541910條數(shù)據(jù)贞言,可這一列只有406830條數(shù)據(jù),缺失了135080條數(shù)據(jù)阀蒂。為了更好地進(jìn)行后面數(shù)據(jù)的分析该窗,這里我們將缺失客戶編號的數(shù)據(jù)全部進(jìn)行刪除。
4蚤霞、數(shù)據(jù)類型轉(zhuǎn)換
? ? ? 訂單日期和時間這列數(shù)據(jù)的數(shù)據(jù)類型并不是時間型的數(shù)據(jù)酗失,而且格式也不對。我們需要修改格式并增加購買時間這一列數(shù)據(jù)昧绣。首先對這一列數(shù)據(jù)進(jìn)行分列(需要復(fù)制數(shù)據(jù)规肴,再進(jìn)行分列,否則旁邊的數(shù)據(jù)會被覆蓋)夜畴,然后利用Excel工具進(jìn)行月份拖刃、日期、年份的提取贪绘,并用公式進(jìn)行文本合并兑牡。再用substitute將“/”替換成”-”,并*1税灌,就可以替換成時間格式了
5均函、數(shù)據(jù)排序
數(shù)據(jù)是按照訂單編號進(jìn)行排序的亿虽,所以不需要再進(jìn)行排序
6、異常數(shù)據(jù)處理
用excel自帶的數(shù)據(jù)數(shù)據(jù)分析工具可以對數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)苞也。發(fā)現(xiàn)產(chǎn)品數(shù)量最大值和最小值存在巨大差異(負(fù)數(shù)代表退貨)洛勉,后面分析會進(jìn)行處理。單價出現(xiàn)了0如迟,通過對貨物描述的查看收毫, 發(fā)現(xiàn)大部分的單價為0的記錄是對有缺陷貨物的處理或者是禮品,此類數(shù)據(jù)對我們的分析沒有用,為了不影響后續(xù)的分析氓涣,我們需要進(jìn)行刪除牛哺。
四、構(gòu)建模型及數(shù)據(jù)可視化
1劳吠、用戶消費(fèi)趨勢分析
1.1引润、按月進(jìn)行分析
? ? ? 用戶由于存在退款的數(shù)據(jù)會影響數(shù)據(jù)的分析,所以我們需要將其刪除痒玩。為了對退款率以及退款金額的分析淳附,我們需要保存一份原始數(shù)據(jù)。
? ? ? ? 觀察圖表發(fā)現(xiàn)蠢古,消費(fèi)人群主要集中在9月到11月奴曙,11月達(dá)到峰值,其它幾個月訂單量草讶、產(chǎn)品購買量洽糟、購買金額基本處于平穩(wěn),原因在于11月有感恩節(jié)堕战,10月有萬圣節(jié)坤溃。由于禮品與節(jié)日強(qiáng)相關(guān),尤其是圣誕節(jié)嘱丢、感恩節(jié)薪介,可以針對不同節(jié)日的特點(diǎn)推廣不同的商品。而平臺方面需要物流越驻、采購汁政、網(wǎng)站流量維護(hù)等各方面提前做好準(zhǔn)備。
? ? ? ? 9月到11月的消費(fèi)人數(shù)在1200-1800之間缀旁,其它月份消費(fèi)人數(shù)在800左右记劈,說明用戶的粘性比較高。新用戶的購買行為總體來說較少并巍,后續(xù)的消費(fèi)行為基本來自老用戶的回購抠蚣。
1.2、按季度進(jìn)行分析
由圖可知履澳,用戶主要在第三嘶窄、第四季度進(jìn)行消費(fèi)怀跛。
1.3、按周進(jìn)行分析
? ? ? ? 由圖可知柄冲,用戶的消費(fèi)時間集中在周一至周五吻谋,特別是周四。而周日相對較少现横,周六可能是店鋪的休息日漓拾,所以無購買量。
1.4戒祠、按日進(jìn)行分析
? ? ? 因?yàn)槭卿N售禮品的店鋪骇两,并不是電商,所以用戶的集中購買時間在中午姜盈,而早上和晚上的購買量非常少低千。
2、用戶個體消費(fèi)分析
2.1.1馏颂、用戶消費(fèi)金額消費(fèi)次數(shù)相關(guān)性分析
? ? ? ? 由于存在極值示血,會影響我們的分析以及圖表展示,所以我們通過篩選進(jìn)行制圖救拉,我們選擇購買金額<4000的數(shù)據(jù)進(jìn)行制圖(橫軸為消費(fèi)金額难审,縱軸為消費(fèi)次數(shù))
用戶消費(fèi)金額消費(fèi)次數(shù)都集中在0-1000的區(qū)間。
2.1.2亿絮、用戶消費(fèi)金額的分布
? ? ? ? 由于一些極值的影響使得數(shù)據(jù)分布收到了干擾告喊,并且大部分購買金額較小。所以我們選擇<100的數(shù)據(jù)作圖派昧。
數(shù)據(jù)都集中在0-20這個區(qū)間葱绒,說明購買客戶總體的購買金額比較小,而且長尾效應(yīng)明顯斗锭。
2.1.3、用戶產(chǎn)品購買量的分布
數(shù)據(jù)集中在1-5這個區(qū)間失球,說明用戶總體的購買量很小岖是,而且長尾效應(yīng)明顯。
2.2实苞、熱銷產(chǎn)品(前10)
? ? ? 頭部商品優(yōu)勢很突出豺撑,銷量前十名占比達(dá)到了8%,建議與這些商品的供應(yīng)商進(jìn)行長期品牌化的合作黔牵,確保貨源充足聪轿。
2.3、用戶價格偏好
將產(chǎn)品價格設(shè)置為單獨(dú)組猾浦。然后用vlookup函數(shù)進(jìn)行近似匹配即可陆错。
? ? ? ? 大部分的禮品價格位于0-3這個價位段灯抛,由此,我們可以知道音瓷, 該市場的目標(biāo)客戶為低端客戶对嚼,這可能是平臺售賣商品類型與主要客戶是批發(fā)商有關(guān)。
2.4绳慎、購買主力及客戶類型(前30)
客戶類型:
大型批發(fā)商:消費(fèi)金額特別巨大的一般是大型批發(fā)商纵竖,平臺可以針對這種客戶開發(fā)To B的服務(wù)。
專業(yè)買手或者小型商店:雖然在購買金額遠(yuǎn)遠(yuǎn)無法與大型批發(fā)商相比杏愤,但其在為商品宣傳方面的能力是不容小覷的靡砌,平臺可以與一些受眾廣泛的買手達(dá)成宣傳方面的合作。
消費(fèi)能力較強(qiáng)的用戶:考慮到禮品不是日常生活用品珊楼,一年消費(fèi)400美金以上應(yīng)該是在平均消費(fèi)者能力以上通殃。平臺可以考慮給這類消費(fèi)能力較強(qiáng)的消費(fèi)者一些優(yōu)惠或者提供更細(xì)致的服務(wù)。
普通用戶:正常消費(fèi)
2.5亥曹、客單價(總消費(fèi)金額/總客戶數(shù))
由于國家數(shù)量太多邓了,全部求出來很費(fèi)時間,所以我們選擇計(jì)算總消費(fèi)金額前10國家的客單價媳瞪。
? ? ? ? 由于英國的消費(fèi)總量占全部銷售額的82%,在同一坐標(biāo)下骗炉,其他國家的數(shù)據(jù)指標(biāo)不好做比較,因此我們?nèi)サ粲笊呤埽龠M(jìn)行做圖分析句葵。
愛爾蘭在消費(fèi)總量排名靠前的國家里客單價是最高的。
3兢仰、消費(fèi)行為分析
3.1乍丈、新老客戶消費(fèi)比
? ? ? ? 用數(shù)據(jù)透視表求出用戶購買產(chǎn)品日期的最大值和最小值,若該日期的最大值等于其最小值把将,說明這個用戶只消費(fèi)了一次轻专。
有35.68%的用戶僅消費(fèi)過一次,老用戶所占比例為64.32%察蹲。
3.2请垛、RFM客戶價值分類
? ? ? ? RFM模型,通過對用戶在R(Recency洽议,最近一次消費(fèi))F(Frequency宗收,消費(fèi)頻率)M(Monetary,消費(fèi)金額)三方面的表現(xiàn)進(jìn)行分類亚兄,然后對分類分組進(jìn)行定性描述的混稽,分層模型如下:先對數(shù)據(jù)做預(yù)處理,讓最大日期減去每個日期獲得間隔天數(shù),當(dāng)數(shù)值越小時匈勋,說明日期越近礼旅。(這里需要用到Excel工具的時間差計(jì)算:=DATEDIF(B2, C2, "d"))。將用戶在R颓影、F各淀、M三個維度上按照高于平均值和低于平均值進(jìn)行劃分(劃分標(biāo)準(zhǔn)可根據(jù)不同業(yè)務(wù)設(shè)計(jì)也不同),高于平均值則賦值為1,低于平均值則賦值為0诡挂,這里需要用到IF判斷函數(shù)碎浇,然后將判斷的結(jié)果進(jìn)行合并,并用Vlookup函數(shù)進(jìn)行匹配璃俗,最后用數(shù)據(jù)透視表統(tǒng)計(jì)客戶數(shù)奴璃。
最后根據(jù)RFM分層模型給所有用戶分層:
只有四類客戶,可能由于存在過多極值導(dǎo)致的城豁,也可能是參考值的原因苟穆。
3.3、用戶生命周期分析(按第一次&最后一次消費(fèi))
? ? ? ? 使用數(shù)據(jù)透視表將客戶首次購買時間唱星、客戶末次購買時間提取出來雳旅,然后計(jì)算客戶最近一次下單時間R(R=當(dāng)前時間(最大值+1)-客戶末次購買時間),然后計(jì)算消費(fèi)時間跨度L(L=客戶末次購買時間-客戶首次購買時間)间聊,也就是生命周期攒盈。然后創(chuàng)建客戶分類,這里利用帕累托模型計(jì)算參考值(R參考值:153哎榴,L參考值82)型豁,高于L參考值、低于R參考值賦值為1尚蝌,否則賦值為0迎变,這里需要用到IF判斷函數(shù),然后將判斷的結(jié)果進(jìn)行合并飘言,并用Vlookup函數(shù)進(jìn)行匹配衣形,最后用數(shù)據(jù)透視表統(tǒng)計(jì)客戶數(shù)(11代表忠誠客戶,01代表新客戶姿鸿,10代表一次性客戶谆吴,00代表流失客戶)。
? ? ? ? 用戶的平均生命周期為131天般妙,但中位數(shù)為93天,說明大部分用戶購買了一次之后就很少再次消費(fèi)相速〉欤客戶的生命周期集中分布在0-28天這個區(qū)間,說明大部分客戶的生命周期比較短。
? ? ? ? 有48%的客戶為忠誠客戶苫拍,說明用戶黏性較好芜繁,但是還存在20%的流失客戶,需要加大力度進(jìn)行挽回绒极。
3.4 用戶留存分析(基于Tableau)
這里我們用tablea進(jìn)行數(shù)據(jù)可視化創(chuàng)建計(jì)算字段:首次購買時間骏令、時間間隔、創(chuàng)建參數(shù):時間間隔單位垄提。
用戶每個月的留存率相對較低罩扇,在20%左右怜奖。
3.5、 復(fù)購率計(jì)算
? ? ? ? 以月為單位,對每月用戶消費(fèi)情況進(jìn)行預(yù)處理:若消費(fèi)次數(shù)大于1氯材,則說明用戶在本月進(jìn)行了多次消費(fèi),對多次消費(fèi)的情況取值為1嵌屎;若消費(fèi)次數(shù)等于1疯暑,說明用戶在本月只進(jìn)行了1次消費(fèi),每月復(fù)購行為滩报,取值為0锅知;若消費(fèi)次數(shù)等于0,則說明用戶在本月未消費(fèi)脓钾。
復(fù)購率基本上穩(wěn)定在96.5%左右售睹,大部分客戶購買次數(shù)比較多。
3.6惭笑、 回購率計(jì)算
? ? ? 月末不存在回購行為侣姆,因此其回購率為0。前四個月由于有大量新用戶涌入沉噩,大部分人只消費(fèi)過一次捺宗,所以回購率偏低;第四個月回購率回升川蒙,最后穩(wěn)定在8%左右蚜厉,即當(dāng)月消費(fèi)人數(shù)中有8%左右的用戶會在下一個月再次消費(fèi)。
3.7畜眨、退貨率計(jì)算
退貨率計(jì)算方法:通過篩選的方式將有退貨的數(shù)據(jù)提取出來昼牛,然后分別進(jìn)行數(shù)據(jù)透視,然后通過vlookup進(jìn)行匹配康聂,最后計(jì)算退貨率
? ? ? ? 退貨率排名前五的國家:美國贰健,沙特阿拉伯,西班牙恬汁,愛爾蘭伶椿,德國。其中,美國年退貨率快高達(dá)6%脊另,遙遙領(lǐng)先于其他國家导狡。
五、結(jié)論
1偎痛、英國銷售額是全部的82%旱捧,占據(jù)本土優(yōu)勢,銷量靠前的大部分都是歐洲國家踩麦,由此可見該平臺的主要市場還是在歐洲枚赡,可以著力開發(fā)除了歐洲市場之外的消費(fèi)水平較高的市場。
2靖榕、絕大多數(shù)銷量靠前的產(chǎn)品單價都是低價的标锄,這與平臺主要售賣商品類型和客戶有較大關(guān)系。針對這些批發(fā)商用戶茁计,制定合理價格機(jī)制料皇,控制商品成本,優(yōu)化物流運(yùn)輸以提供物美價廉的商品星压。提高銷量践剂。同時,可以增加1-3英鎊產(chǎn)品的多樣性娜膘,有利于增加客戶的消費(fèi)額度逊脯, 同時也能吸引更加多的目標(biāo)客戶。
3竣贪、銷量高峰期是8军洼、9、10演怎、11月匕争,需要平臺物流、采購爷耀、網(wǎng)站流量維護(hù)等方面提前做好準(zhǔn)備甘桑。
4、退貨率過高歹叮,原因主要有物流時間過長跑杭,商品實(shí)際與描述不符合,產(chǎn)品本身有質(zhì)量問題等咆耿。建議:要及時處理跟進(jìn)德谅,優(yōu)化商品采購,物流運(yùn)輸萨螺,店鋪管理等窄做,降低退貨率宅荤,跟買家營造良好的購物環(huán)境,增進(jìn)客戶忠誠度浸策。