一颅和、背景介紹
電子商務相對于傳統(tǒng)零售業(yè)來說响鹃,最大特點就是一切都可以通過數據化來監(jiān)控和改進轩触。通過數據可以看到用戶從哪里來柠逞、如何組織產品可以實現(xiàn)很好的轉化率以及投放廣告的效率如何等等問題硫椰∞认瑁“無數據试和,沒運營”,業(yè)務目標可以通過數據來量化拌蜘,戰(zhàn)略也需要通過數據進行決策遂唧,因此陪蜻,對于業(yè)務部門來說,數據是最基礎的贱鼻,也是十分重要的宴卖。
二、思考途徑
2.1 提出問題
a邻悬,不同國家的消費者有不同的消費喜好症昏,為了能更好安排不同國家的商品類型和價格策略,需要知道不同國家的消費者對商品類型和商品價格的偏好以及主要消費者具有怎樣的特征父丰?
b肝谭,各國消費水平的差異?制定不同的運營戰(zhàn)略蛾扇。
c攘烛,統(tǒng)計出一年當中哪個月度和季度銷量最高?為網站的銷售旺季镀首,提前做好流量管理坟漱;提前安排好采購、物流等工作更哄。
d芋齿,了解商品的單品退貨率與整體退貨率情況,可以快速幫助商家找到問題所在成翩。
2.2 問題解決途徑
三觅捆、理解數據
數據來源地址:
kaggle—— E-Commerce Data
數據解釋:
該數據集是由 Machine Learning Repository 在基于一個英國電商公司從2010年月12號到2011年9月12號的真實的交易數據集進行改造的。 該電商主要銷售的商品是各類禮品捕传, 主要客戶是各類經銷商惠拭。
數據集大小:541909x8
數據集的特征:
InvoiceNo/訂單編號:每筆交易分配唯一的6位數庸论,需注意退貨訂單的代碼以字母'c'開頭职辅。
StockCode/商品編號:每個不同的產品分配唯一的5位整數。
Description/產品描述:對每件產品的簡略描述聂示。
Quantity/數量:每筆交易的每件產品的數量域携。
InvoiceDate/訂單日期:每筆交易發(fā)生的日期和時間。
UnitPrice/單價:單位產品價格鱼喉。
CustomerID/顧客賬號ID:每個客戶分配唯一的5位整數秀鞭。
Country/國家:每個客戶所在國家/地區(qū)的名稱趋观。
四、數據清洗
4.1 選擇子集
只選擇對數據分析有意義的字段锋边,無意義的字段進行暫時隱藏皱坛。
根據我們需要解決的業(yè)務問題,C列商品描述和B列商品編號是一一對應關系豆巨,只需要保留B列就可以了剩辟,我們選擇隱藏。
4.2 列名重命名
將列名更改成中文
4.3 刪除重復值
由于各字段往扔,訂單編號贩猎、商品編號、描述萍膛、數量吭服、訂單日期、單價蝗罗、顧客ID艇棕、國家,按照收集規(guī)則绿饵,各列都可能會存在數據重復的問題欠肾,因此不做刪除。
4.4 缺失值處理和異常值處理
4.4.1 缺失值處理
客戶編號出現(xiàn)空值拟赊,而且缺失值較多刺桃,并且是不可計算或者預估的,故做刪除空值吸祟。
4.4.2 異常值處理
4.4.2.1 單價列中的零值和負值:
在單價列中瑟慈,發(fā)現(xiàn)存在2512 行0值和負值,不符合數據銷售邏輯屋匕。 通過對貨物描述的查看葛碧, 發(fā)現(xiàn)大部分的單價為0的記錄是對有缺陷貨物的處理或者是禮品。 此類數據對所提出問題的分析無用过吻,所以進行刪除进泼。
4.4.2.2 在數量列中的負值
在數量列中, 發(fā)現(xiàn)有9288 個記錄是負值纤虽, 發(fā)票號由首字母和數字組成乳绕,推測此類記錄為退貨記錄. 決定此類數據進行分列處理,定義新列命名為退貨數量逼纸,原列為購買數量洋措。
4.5 補充必要數列
4.5.1 補充銷售額列
由于需要做銷售額的比較,銷售額=單價*購買數量杰刽,因此我們增加一列菠发,并且調用乘法函數王滤。
4.5.2 分出訂單的日期和時間兩列
五、構建模型
問題1 客戶購買商品類型以及價格偏好滓鸠、購買主力
a.哪些商品較受歡迎
總結:
頭部商品優(yōu)勢很突出
銷量前十名占比達到了8%雁乡,建議與這些商品的供應商進行長期品牌化的合作,確保貨源充足糜俗。
長尾效應明顯
可以看到蔗怠,這家線上零售商大部分的銷售量是由底部產品提供的,90%的商品銷量在20000以下吩跋。
b.哪個價位段最受目標客戶喜好
將異常價格設置為單獨組。
添加單價區(qū)間列渔工,通過VLOOKUP 函數 (=VLOOKUP(E38,價格分組!2:14,2,1)))將單價分為下列組:
并通過插入透視表(下圖)
得出锌钮,大部分的禮品價格位于0-3這個價位段, 由此引矩,我們可以知道梁丘, 該市場的目標客戶為低端客戶,這可能是平臺售賣商品類型與主要客戶是批發(fā)商有關旺韭。
c.哪些消費者是購買的主力
客戶類型:
大型批發(fā)商:
消費金額特別巨大的一般是大型批發(fā)商氛谜,平臺可以針對這種客戶開發(fā)To B的服務。
專業(yè)買手或者小型商店:
雖然在購買金額遠遠無與大型批發(fā)商相比区端,但其在為商品宣傳方面的能力是不容小覷的值漫,平臺可以與一些受眾廣泛的買手達成宣傳方面的合作。
消費能力較強的用戶:
考慮到禮品不是日常生活用品织盼,一年消費400美金以上應該是在平均消費者能力以上杨何。平臺可以考慮給這類消費能力較強的消費者一些優(yōu)惠或者提供更細致的服務。
普通用戶:
正常消費
問題2 不同國家的消費水平對客單價的影響
客單價的計算方式:客單價=銷售總額/總客戶數
由于客戶編號的計數統(tǒng)計出來的數據有重復沥邻,所以在各國客戶人數上危虱,我們用Count函數繼續(xù)統(tǒng)計。結果寫入F5唐全。以此給各國做客單價計算埃跷。
[注:從透視表中提取數據,需要用到GETPIVOTDATA函數邮利,該函數的語法結構為=GETPIVOTDATA(條件,條件引用的區(qū)域,項目1,項目1對應的內容,項目2,項目2對應的內容……)
以提取五金1弥雹,型號1835的數量為例,輸入公式=GETPIVOTDATA("數量",
依次求出各國客單價
數據可視化處理缅糟,可看出
由于英國的消費總量占全部銷售額的82%,在同一坐標下,其他國家的數據指標不好做比較祷愉,因此我們去掉英國之后窗宦,再進行分析赦颇。
除了英國,愛爾蘭在消費總量排名靠前的國家里客單價非常高赴涵;新加坡是消費總額在22萬英鎊以下的國家中客單價是最高的媒怯。
荷蘭,愛爾蘭髓窜,新加坡這些發(fā)達國家消費水平較高扇苞,和平臺客單價有一定的關系。
問題3 哪些時段是購買的高峰期寄纵,這些時段有什么特征
數據透視表統(tǒng)計網站月度鳖敷、季度銷售額及銷量
可視化,
一年中5程拭、8定踱、9、10恃鞋、11月是銷量的高峰期崖媚,平臺商品銷量以及銷量額都增加較快。
由于禮品與節(jié)日強相關恤浪,尤其是圣誕節(jié)畅哑、感恩節(jié),可以針對不同節(jié)日的特點推廣不同的商品水由。
而平臺方面需要物流荠呐、采購、網站流量維護等各方面提前做好準備绷杜。
問題四 退貨商品
各國退貨率比較
退貨率排名前五的國家:美國直秆,沙特阿拉伯,西班牙鞭盟,愛爾蘭圾结,德國。其中齿诉,美國年退貨率快高達6%筝野,遙遙領先于其他國家。
六粤剧、結論
1.英國銷售額是全部的82%歇竟,占據本土優(yōu)勢,銷量靠前的大部分都是歐洲國家抵恋,由此可見該平臺的主要市場還是在歐洲焕议,可以著力開發(fā)除了歐洲市場之外的消費水平較高的市場。
2.絕大多數銷量靠前的產品單價都是低價的弧关,這與平臺主要售賣商品類型和客戶有較大關系盅安。針對這些批發(fā)商用戶唤锉,制定合理價格機制,控制商品成本别瞭,優(yōu)化物流運輸以提供物美價廉的商品窿祥。提高銷量。同時蝙寨,可以增加1-3英鎊產品的多樣性晒衩,有利于增加客戶的消費額度, 同時也能吸引更加多的目標客戶墙歪。
- 8听系、9、10虹菲、11月是銷量高峰期跛锌,需要平臺物流、采購届惋、網站流量維護等方面提前做好準備。
4.退貨率過高菠赚,原因主要有物流時間過長脑豹,商品實際與描述不符合,產品本身有質量問題等衡查。建議:要及時處理跟進瘩欺,優(yōu)化商品采購,物流運輸拌牲,店鋪管理等俱饿,降低退貨率,跟買家營造良好的購物環(huán)境塌忽,增進客戶忠誠度拍埠。