一伏穆、項(xiàng)目描述
1.1 項(xiàng)目背景:
該數(shù)據(jù)集由kaggle提供的,為英國(guó)一家在線零售商在2010年12月1日到2011年12月9日的網(wǎng)絡(luò)交易訂單數(shù)據(jù),該電商公司主要以銷售各類禮品為主,主要客戶是批發(fā)商。
1.2 分析工具
MYSQL + Tebleau
1.3 分析步驟
1.4 分析結(jié)論
從商品銷售規(guī)律和用戶行為特征兩個(gè)方面對(duì)數(shù)據(jù)集進(jìn)行了探索性的分析:
1)有效訂單共19960筆器联,筆單價(jià)為533.17英鎊二汛,連帶率約為279件。訂單以批發(fā)性質(zhì)為主拨拓,總體來說訂單交易金額與訂單內(nèi)商品件數(shù)正相關(guān)肴颊。
2)客單價(jià)為2049英鎊,客戶的購(gòu)買力存在較大的差異渣磷,總體來說客戶消費(fèi)金額與購(gòu)買商品數(shù)量呈正相關(guān)婿着。隨著時(shí)間的推移,其訂單成交量醋界,商品售賣數(shù)量竟宋,交易總額是震蕩上升,到了年底會(huì)達(dá)到一個(gè)最高峰形纺。
3)該電商主營(yíng)低價(jià)的小商品批發(fā)業(yè)務(wù)丘侠,低于5美元的商品最受歡迎。低價(jià)商品不僅銷售數(shù)量更多逐样,也是銷售額的主要組成部分蜗字;
4)該網(wǎng)站大部分的交易發(fā)生在英國(guó)本地,并向英國(guó)周邊國(guó)家輻射脂新。
5)用戶生命周期的分布呈兩極分化的狀態(tài)挪捕,36%的用戶僅消費(fèi)過一次,該電商需要更加重視客戶初次購(gòu)買的體驗(yàn)感戏羽,引導(dǎo)用戶進(jìn)行多次消費(fèi)担神;另有部分用戶有極高的用戶粘性。
6)該網(wǎng)站30%的客戶貢獻(xiàn)了80%的消費(fèi)額始花,屬于明顯的消費(fèi)數(shù)據(jù),基本符合二八原則孩锡。
二酷宵、數(shù)據(jù)理解
1. 發(fā)生時(shí)間
2010年12月1日到2011年12月9日
2. 數(shù)據(jù)集大小
541909條數(shù)據(jù),8個(gè)字段
3.字段說明
三躬窜、明確分析目的
四浇垦、數(shù)據(jù)清理
主要按以下思路進(jìn)行數(shù)據(jù)清洗
1. 導(dǎo)入數(shù)據(jù)并刪除重復(fù)值
//1.navicat 導(dǎo)入csv文件 data.csv
//2.創(chuàng)建工作表ecommerce
create table ecommerce like data;
//工作表插入數(shù)據(jù)并去重
insert into ecommerce select distinct * from data;
數(shù)據(jù)集原有數(shù)據(jù)541909條,去重后有536641條記錄
2. 處理缺失值
select sum(case when Invoice No is null then 1 else 0 end) as 發(fā)票編號(hào),
sum(case when StockCode is null then 1 else 0 end) as 商品編號(hào),
sum(case when Description is null then 1 else 0 end) as 商品描述,
sum(case when Quantity is null then 1 else 0 end) as 商品數(shù)量,
sum(case when InvoiceDate is null then 1 else 0 end) as 發(fā)票日期,
sum(case when UnitPrice is null then 1 else 0 end) as 商品單價(jià),
sum(case when CustomerID is null then 1 else 0 end) as 客戶編號(hào),
sum(case when Country is null then 1 else 0 end) as Country from ecommerce;
商品描述不影響我們的分析荣挨,可以暫時(shí)不理會(huì)男韧。
客戶編號(hào)是客戶的唯一標(biāo)識(shí),共缺失135037條數(shù)據(jù)默垄,缺失數(shù)據(jù)占1/5此虑,現(xiàn)實(shí)情況可以要求相關(guān)負(fù)責(zé)人補(bǔ)全,在這里口锭,可以填充為CustomerID=0朦前。但是當(dāng)我們分析對(duì)象是客戶時(shí)介杆,需要排除CustomerID=0的記錄。
//填充缺失的CustomerID
update ecommerce set CustomerID = 0 where CustomerID is null;
3. 格式一致化
3.1 更改時(shí)間格式:
根據(jù)分析目的韭寸,我們需要把InvoiceTime轉(zhuǎn)換成方便處理的日期春哨。
//增加日期列 Dtime,并填充數(shù)據(jù)
alter table ecommerce add column Dtime char(20) not null;
update ecommerce set Dtime = str_to_date(InvoiceDate,'%m/%d/%Y %H:%i');
3.2 增加消費(fèi)金額列
根據(jù)分析目的,我們?cè)黾酉M(fèi)金額列用于存放改行數(shù)據(jù)的總價(jià)恩伺,方便后面分析
// 增加消費(fèi)金額列Amounts 赴背,并填充數(shù)據(jù)
ALTER TABLE ecommerce add column Amounts decimal(8,2) not null;
update ecommerce set Amounts = Quantity * UnitPrice;
4. 處理異常值
4.1 檢查日期是否在規(guī)定時(shí)間內(nèi)
select max(InvoiceDate),min(InvoiceDate) from ecommerce;
結(jié)果顯示,所有日期都在規(guī)定日期范圍內(nèi)晶渠,屬于正常數(shù)據(jù)癞尚。
4.2 檢查單價(jià)和數(shù)量是否存在負(fù)值或零值
4.2.1 數(shù)量異常值
//檢查數(shù)量出現(xiàn)零值情況
select * from ecommerce where Quantity=0;//0條記錄
//檢查數(shù)量出現(xiàn)負(fù)值情況
select * from ecommerce where Quantity<0;//10587條記錄
結(jié)果顯示,交易數(shù)量小于0的發(fā)票編號(hào)大都是"C”開頭的乱陡,共有10587條取消訂單數(shù)據(jù)浇揩。
本次分析主要以成功交易訂單為主,在此可以將工作表拆分成兩個(gè)數(shù)據(jù)表憨颠,取消訂單表ecommerce_cancel 以及 成功訂單表ecommerce_success胳徽,
//拆分工作表ecommerce_cancel
create table ecommerce_cancel as (select * from ecommerce where Quantity<0);
//拆分工作表ecommerce_success
create table ecommerce_success as (select * from ecommerce where Quantity>0);
4.2.2 單價(jià)異常值
select count(*) from ecommerce_success where UnitPrice =0;//1174條記錄
select count(*) from ecommerce_success where UnitPrice <0;//2條記錄
//拆分贈(zèng)品訂單表ecommerce_free
create table ecommerce_free as (select * from ecommerce_success where Quantity=0);
//刪除單價(jià)異常值記錄
delete from ecommerce_success where UnitPrice =0;
delete from ecommerce_success where UnitPrice <0;
單價(jià)為0可能是促銷活動(dòng)的附贈(zèng)品,對(duì)后面對(duì)訂單量的分析會(huì)造成干擾爽彤,拆分保存到另一張表ecommerce_free养盗,后面再分析贈(zèng)品訂單。
單價(jià)為負(fù)值的适篙,描述中已說明是做的壞賬處理,可以直接刪除往核。
經(jīng)過數(shù)據(jù)清洗,ecommerce_success剩余524878條記錄
5嚷节、數(shù)據(jù)分析與可視化
銷售額Amounts =∑ 商品數(shù)量 * 商品價(jià)格
5.1 訂單維度
5.1.1描述性統(tǒng)計(jì)
2010年12月1日到2011年12月9日聂儒,有效訂單19960筆,筆單價(jià)(每筆訂單平均購(gòu)買金額)為533.17英鎊硫痰,連帶率(每筆訂單平均購(gòu)買商品數(shù)量)279件衩婚,說明訂單以批發(fā)為主。 筆單價(jià)與連帶率都大于中位數(shù)效斑,交易金額均值大于Q3分位數(shù)非春,說明訂單總體差異大,存在部分購(gòu)買力極強(qiáng)的客戶缓屠。
5.1.2 訂單金額的分布情況
部分交易訂單金額過大奇昙,觀察1000英鎊以下的訂單,訂單金額集中分布在400英鎊以內(nèi)敌完,峰值集中在20英鎊內(nèi)储耐、100-220英鎊、300-320英鎊蠢挡。
5.1.3 訂單內(nèi)商品數(shù)量分布
訂單內(nèi)商品數(shù)量呈現(xiàn)出典型的長(zhǎng)尾分布弧岳,大部分訂單數(shù)量在250件內(nèi)凳忙,且商品數(shù)量越多,訂單數(shù)量逐漸減少禽炬。
5.1.4 訂單內(nèi)商品件數(shù)與訂單金額的關(guān)系
總體來說訂單交易金額與訂單內(nèi)商品件數(shù)呈正相關(guān)关面,訂單內(nèi)商品件數(shù)越多暑塑,訂單金額越高健民;
5.2 客戶維度:
5.2.1 描述性統(tǒng)計(jì)
人均購(gòu)買筆數(shù)為90筆憾朴,中位數(shù)為41筆;每位客戶平均購(gòu)買1187件商品热幔,超過Q3分位數(shù)乐设,最多客戶購(gòu)買了196915件商品;客單價(jià)為2049英鎊绎巨,超過Q3分位數(shù)近尚,說明客戶的購(gòu)買力存在較大的差異,存在小部分的高消費(fèi)用戶拉高人均數(shù)值场勤。
5.2.2 客戶消費(fèi)金額分布
大部分客戶的消費(fèi)力不高戈锻,高消費(fèi)用戶幾乎看不到;截取消費(fèi)金額小于5000英鎊的消費(fèi)金額分布可以看出和媳,客戶消費(fèi)金額分布呈現(xiàn)單峰長(zhǎng)尾分布格遭,金額金額集中在100-330之間。
5.2.3 客戶購(gòu)買商品數(shù)量分布
5.2.4 客戶購(gòu)買商品件數(shù)與金額的關(guān)系
1.總體來說客戶購(gòu)買商品數(shù)量與消費(fèi)金額呈正相關(guān)留瞳,購(gòu)買商品數(shù)量越多拒迅,消費(fèi)金額越高;
2.有一定數(shù)量消費(fèi)能力強(qiáng)的客戶她倘。
5.2.5 用戶時(shí)間行為分析
1. 三條線總體上呈相近的趨勢(shì)璧微,2010年12月-2011年8月銷售情況相近,在2011年9月-11月連續(xù)增長(zhǎng)帝牡,達(dá)到高峰往毡。推測(cè)主要是受年末節(jié)日(萬圣節(jié)、圣誕節(jié))影響較大靶溜。
1.銷售額和銷售數(shù)量趨勢(shì)是趨同的,該電商主要是以低價(jià)電商為主懒震,商品價(jià)低且集中罩息,則銷售額主要隨銷量變化而變化。
2.12月9日个扰,訂單量大幅下降瓷炮,但是銷售額和銷售量卻創(chuàng)歷史新高,說明存在某筆或某幾筆購(gòu)買量極大的訂單递宅,使得銷售額大幅上升娘香。
對(duì)該數(shù)據(jù)進(jìn)行溯源苍狰,發(fā)現(xiàn)是客戶ID為16446的用戶一次性大量訂購(gòu)某種商品。建議對(duì)該用戶配備固定客服烘绽,建立長(zhǎng)期合作關(guān)系淋昭,
5.3 商品維度
5.3.1 商品平均價(jià)格分布
商品平均價(jià)格分布峰值在1-2英鎊,大部分是10英鎊以內(nèi)的商品安接,推測(cè)該電商主營(yíng)低價(jià)的小商品批發(fā)業(yè)務(wù)翔忽。
5.3.2 商品平均價(jià)格與銷售數(shù)量的關(guān)系
從散點(diǎn)圖可以看出,低于5英鎊的商品銷量更多盏檐,最受客戶歡迎歇式。
5.3.3 商品平均價(jià)格與銷售總額的關(guān)系
低價(jià)商品不僅銷售數(shù)量更多,也是銷售額的主要組成部分胡野;
高價(jià)商品雖然單價(jià)高昂材失,但是銷量很低,并沒有帶來太多的銷售額硫豆,建議采購(gòu)部門以低于10英鎊的商品為主龙巨,來進(jìn)一步擴(kuò)充低價(jià)商品品類。
5.4 地區(qū)維度
絕大部分客戶來自英國(guó)本土够庙,基本以英國(guó)為核心 向外輻射恭应,這種現(xiàn)象可能和運(yùn)輸成本及語言等有關(guān),也可能是影響力隨距離而衰減耘眨。
1.可以嘗試增加境外的宣傳投放昼榛,提高知名度,建議網(wǎng)站做好多國(guó)語言的適配剔难,也可以在網(wǎng)站上對(duì)于境外物流費(fèi)用計(jì)算及手續(xù)辦理等事項(xiàng)給出更易懂的說明胆屿。
2.但是建議衡量投入產(chǎn)出比,適當(dāng)放棄一些地區(qū)偶宫,集中優(yōu)勢(shì)在英國(guó)非迹。
5.5 用戶生命周期
大量用戶首次消費(fèi)在觀察日期初期,最后消費(fèi)時(shí)間在觀察期末期纯趋,說明有大量用戶的生命周期被低估憎兽,實(shí)際上還要向前向后延伸。
36%的客戶生命周期為0吵冒,僅消費(fèi)過一次纯命,需要更加重視客戶初次購(gòu)買的體驗(yàn)感,引導(dǎo)用戶進(jìn)行多次消費(fèi)痹栖。
64%的用戶有二次消費(fèi)行為亿汞,并且在350天以后,用戶數(shù)量有一個(gè)小高峰揪阿,這部分用戶擁有極高的用戶粘性疗我。
下面將根據(jù)RFM模型咆畏,劃分出用戶等級(jí),可以根據(jù)用戶不同價(jià)值吴裤,對(duì)客戶進(jìn)行銷售推廣策略
5.6 基于RFM模型用戶分層
交易客戶中旧找,新客戶最多,占總數(shù)的33.54%嚼摩,其次是流失客戶28.10%钦讳,重要深耕客戶25.45%,重要價(jià)值客戶7.61%枕面,重要挽留客戶5.14%和重要挽回客戶0.16%愿卒。雖然新客很多,但是貢獻(xiàn)最多的卻是重要價(jià)值客戶潮秘,占總交易額的49.03%琼开。其次是重要深耕客戶,占總交易額的31.71%枕荞。符合我們常說的二八原則柜候。
//TEBLEAU
//R:
//Rec
{ FIXED ([CustomerID]):DATEDIFF('day',max(Dtime),#2011-12-09#)}
//R評(píng)分
IF [Rec]<=30 THEN 5
ELSEIF [Rec]>30 AND [Rec]<=90 THEN 4
ELSEIF [Rec]>90 AND [Rec]<=180 THEN 3
ELSEIF [Rec]>180 AND [Rec]<=365 THEN 2
ELSE 1
END
//R標(biāo)準(zhǔn)
round(avg([R評(píng)分]),1)
//R標(biāo)記值
IIF([R評(píng)分]<3.8,0,1)//3.8為R標(biāo)準(zhǔn)
//F:
//Freq
{ FIXED ([CustomerID]):COUNTD([InvoiceNo])}
//F評(píng)分
IF [Freq]<=10 THEN 1
ELSEIF [Freq]>10 AND [Freq]<=30 THEN 2
ELSEIF [Freq]>30 AND [Freq]<=50 THEN 3
ELSEIF [Freq]>50 AND [Freq]<=80 THEN 4
ELSE 5
END
//F標(biāo)準(zhǔn)
round(avg([F評(píng)分]),1)
//F標(biāo)記值
IIF([R評(píng)分]<1.1,0,1)//1.1為F標(biāo)準(zhǔn)
//M:
//每個(gè)客戶消費(fèi)金額
{ FIXED ([CustomerID]):sum([Amounts])}
//M評(píng)分
IF [每個(gè)客戶消費(fèi)金額] <=1000 THEN 1
ELSEIF [每個(gè)客戶消費(fèi)金額]>1000 AND [每個(gè)客戶消費(fèi)金額]<=3000 THEN 2
ELSEIF [每個(gè)客戶消費(fèi)金額]>3000 AND [每個(gè)客戶消費(fèi)金額]<=5000 THEN 3
ELSEIF [每個(gè)客戶消費(fèi)金額]>5000 AND [每個(gè)客戶消費(fèi)金額]<=8000 THEN 4
ELSE 5
END
//M標(biāo)準(zhǔn)
round(avg([M評(píng)分]),1)
//M標(biāo)記值
IIF([M評(píng)分]<1.6,0,1)//1.6為M標(biāo)準(zhǔn)
//客戶分層
IF [R標(biāo)記值]=1 AND [F標(biāo)記值]=1 AND [M標(biāo)記值]=1 THEN '重要價(jià)值用戶'
ELSEIF [R標(biāo)記值]=0 AND [F標(biāo)記值]=1 AND [M標(biāo)記值]=1 THEN '重要喚回用戶'
ELSEIF [R標(biāo)記值]=1 AND [F標(biāo)記值]=0 AND [M標(biāo)記值]=1 THEN '重要深耕用戶'
ELSEIF [R標(biāo)記值]=0 AND [F標(biāo)記值]=0 AND [M標(biāo)記值]=1 THEN '重要挽留用戶'
ELSEIF [R標(biāo)記值]=1 AND [F標(biāo)記值]=1 AND [M標(biāo)記值]=0 THEN '潛力用戶'
ELSEIF [R標(biāo)記值]=1 AND [F標(biāo)記值]=0 AND [M標(biāo)記值]=0 THEN '新用戶'
ELSEIF [R標(biāo)記值]=0 AND [F標(biāo)記值]=1 AND [M標(biāo)記值]=0 THEN '一般維持用戶'
ELSEIF [R標(biāo)記值]=0 AND [F標(biāo)記值]=0 AND [M標(biāo)記值]=0 THEN '流失用戶'
END