用mysql做數(shù)據(jù)分析——淘寶用戶行為分析

本文利用MySQL提取數(shù)據(jù)匈织,通過寫SQL的數(shù)據(jù)處理方式浪默,來對一份淘寶數(shù)據(jù)進行用戶分析。

一缀匕、數(shù)據(jù)來源及說明

阿里云天池:?https://tianchi.aliyun.com/dataset/dataDetail?dataId=649

本數(shù)據(jù)集包含了2017年11月25日至2017年12月3日之間纳决,約有一百萬隨機用戶的所有行為(行為包括點擊、購買乡小、加購阔加、喜歡)。數(shù)據(jù)集的每一行表示一條用戶行為满钟,由用戶ID掸哑、商品ID、商品類目ID零远、行為類型和時間戳組成苗分,并以逗號分隔。

數(shù)據(jù)記錄達到一億條牵辣,為了方便分析及效率摔癣,源數(shù)據(jù)是已經(jīng)按照user_id排序好的,因數(shù)據(jù)量較大纬向,取5百萬行到8百萬行之間的3百萬行記錄進行分析择浊。

各字段含義:

User_ID:用戶身份

Item_ID:商品ID

Category_ID:商品類目ID

Behavior_type:用戶行為類型(包含點擊、收藏逾条、加購物車琢岩、購買四種行為,分別用pv师脂,fav担孔,cart江锨,buy)

Time_stamp:用戶行為發(fā)生的時間

二、提出問題

1糕篇、整體用戶的購物情況

pv(總訪問量)啄育、日均訪問量、uv(用戶總數(shù))拌消、有購買行為的用戶數(shù)量挑豌、用戶的購物情況、復(fù)購率分別是多少墩崩?

2氓英、用戶行為轉(zhuǎn)化漏斗

點擊— 加購物車— 收藏— 購買各環(huán)節(jié)轉(zhuǎn)化率如何?

3鹦筹、購買率高和購買率低的人群有什么特征

4债蓝、基于時間維度了解用戶的行為習(xí)慣

5、不同商品種類的用戶行為

6盛龄、基于RFM模型的用戶分析

三饰迹、數(shù)據(jù)清洗

1、導(dǎo)入數(shù)據(jù)

第一種:在Navicat中導(dǎo)入

數(shù)據(jù)量有300多萬余舶,本次通過數(shù)據(jù)庫管理工具 Navicat 將數(shù)據(jù)集導(dǎo)入 MySQL 數(shù)據(jù)庫啊鸭,速度較慢,數(shù)據(jù)庫的表名為user_behavior匿值。


第二種:用python向Mysql寫入數(shù)據(jù)

先在 mysql 的 data 庫創(chuàng)建 user_behavior表,然后在Juypter中運行以下代碼赠制,讀取csv數(shù)據(jù)向Mysql寫入數(shù)據(jù)


兩種方法的比較,第一種:直接在Navicat中導(dǎo)入挟憔,速度會很慢钟些,但是穩(wěn)定,一般系統(tǒng)不會崩潰绊谭,第二種:用python向Mysql寫入數(shù)據(jù)政恍,速度相對第一種較快,但是如果數(shù)據(jù)源太大达传,容易崩潰篙耗。當然,除此之外還有一些其他方法宪赶。

2宗弯、缺失值處理

經(jīng)檢查,原始數(shù)據(jù)不存在空值搂妻,可直接進行下一步操作蒙保。

3、數(shù)據(jù)一致化處理

時間數(shù)據(jù)中原為時間戳格式欲主,需要將其分為兩列邓厕,以便研究每日和一段日期內(nèi)數(shù)據(jù)變化



四逝嚎、構(gòu)建模型和分析問題

1、總體用戶購物情況

訪問用戶總數(shù)(UV):29282

頁面總訪問量(PV):2684586

平均每人每周訪問量為91.6次頁面

日均訪問量


有購買行為的用戶數(shù)量


用戶的購物情況


復(fù)購率:產(chǎn)生兩次或兩次以上購買的用戶占購買用戶的比例


2邑狸、用戶行為轉(zhuǎn)化路徑漏斗分析


用戶總行為數(shù)漏斗計算,有兩種方法

第一種:

第二種:


由于收藏和加入購物車都為瀏覽和購買階段之間確定購買意向的用戶行為涤妒,且不分先后順序单雾,因此將其算作同一階段,可以看到從瀏覽到有購買意向只有9.53%的轉(zhuǎn)化率她紫,當然有部分用戶是直接購買而未通過收藏和加入購物車硅堆,但也說明大多數(shù)用戶瀏覽頁面次數(shù)較多,而使用購物車和收藏功能較少贿讹,而購買次數(shù)占使用購物車和收藏功能的23.32%渐逃,說明從瀏覽到進行收藏和加入購物車的階段是指標提升的重點環(huán)節(jié)。

但是上述分析并不是很準確民褂,因為buy用戶分為兩類茄菊,一類是由點擊——收藏或加購物車——購買轉(zhuǎn)化而來,還有一類是有點擊——購買赊堪,沒有進行收藏和加購物車面殖,


點擊——購買,沒有進行收藏和加購物車
點擊——收藏或加購物車——購買


通過拆分最終購買用戶的行為路徑哭廉,可以將拆分成加購或收藏和不加購且不收藏兩類脊僚,其中不加購且不收藏的用戶,由點擊直接購買的轉(zhuǎn)化率為2.80%遵绰;加購或收藏的用戶辽幌,點擊到收藏或加購的轉(zhuǎn)化率為10.14%,由收藏或加購到最終購買的轉(zhuǎn)化率為21.55%椿访,但是由點擊到購買的轉(zhuǎn)化率僅為2.18%乌企,低于不加購且不收藏的用戶,這說明活躍度高的用戶并不一定轉(zhuǎn)化率較高成玫,不加購且不收藏的用戶逛犹,可能為理智型消費者,購買率更高梁剔,后期結(jié)合購買率高低人群特征來佐證分析虽画。

獨立訪客漏斗模型


查詢出結(jié)果是每一步用戶行為的獨立用戶數(shù),可以看到使用APP的用戶中PUR(付費用戶占比)為67.98%荣病,用戶付費轉(zhuǎn)化率相當高码撰。

3、購買率高和購買率為低的人群有什么特征

購買率高用戶特征:




由以上結(jié)果可以看出个盆,購買率高的用戶很多點擊率并不是很高脖岛,這些用戶收藏數(shù)和加購物車的次數(shù)也很少朵栖,很多都是就直接購買,查看高購物率用戶的用戶行為柴梆,發(fā)現(xiàn)并非一次性購買多件同一商品陨溅,購買的商品多為之前收藏、加購或者購買過绍在,行為路徑多為點擊——購買门扇,由此可以推斷出這些用戶為理智型消費者,有明確的購物目標偿渡,有明確的購物計劃臼寄,屬于缺啥買啥型,較少會被店家廣告或促銷吸引溜宽,更傾向于之前購買過的優(yōu)質(zhì)商品吉拳。

購買率為低用戶特征:



由以上結(jié)果可以看出,購買率低的用戶分為兩類适揉,一類是點擊次數(shù)少的留攒,一方面的原因是這類用戶可能是不太會購物或者不喜歡上網(wǎng)的用戶,可以加以引導(dǎo)嫉嘀,另一方面是從商品的角度考慮稼跳,是否商品定價過高或設(shè)計不合理;第二類用戶是點擊率高吃沪,收藏或加購物車較少的用戶汤善,此類用戶可能為閑逛用戶,這類用戶沒有明確的購物目標票彪,喜歡在APP閑逛红淡,購物欲望較差,針對此類用戶更多地是關(guān)注對于APP整體活躍度的貢獻降铸。

4在旱、基于時間維度了解用戶的行為習(xí)慣

(1)一天中用戶的活躍時段分布


可以看出,每日0點到5點用戶活躍度快速降低推掸,降到一天中的活躍量最低值桶蝎,6點到10點用戶活躍度快速上升,10點到18點用戶活躍度較平穩(wěn)谅畅,19點到22點用戶活躍度快速上升登渣,達到一天中的最高值,之后午夜進入低谷毡泻,符合大部分人的作息時間胜茧。在晚上19點到22點,進行各種直播活動等互動營銷手段,可能取得更大的收益呻顽。

(2)? 一周中用戶活躍時段分布



從上圖可以看出雹顺,從左到右為周一到周日的數(shù)據(jù),工作日時各項指標相對平穩(wěn)廊遍,而到周末高漲嬉愧,推測是上班族因工作逛淘寶的時間少,而周末有充足的精力喉前,購買能力也增加没酣。因此平日運營可以將活動集中在周末進行。

5被饿、不同商品種類的用戶行為

1)統(tǒng)計瀏覽次數(shù)四康、收藏次數(shù)和加入購物車次數(shù)搪搏、購買次數(shù)最多的商品狭握。


瀏覽量前10的商品


收藏量前10的商品


加購量前10的商品


購買量前10的商品


瀏覽和收藏前10相同的商品ID


瀏覽和加購前10相同的商品ID

從上可以看出,瀏覽和收藏量的前10商品疯溺,有5個是相同论颅,瀏覽和加購量的前10商品,有3個是相同囱嫩,并且瀏覽恃疯、收藏、加購量前19的商品中墨闲,有2個是相同的今妄,說明收藏和加購跟跟瀏覽量有直接的關(guān)系。


瀏覽鸳碧、收藏盾鳞、加購和購買前10名相同的商品ID

從上可以看出,瀏覽量高瞻离、收藏量高的商品腾仅,最終的購買量并不是很高,轉(zhuǎn)化效果不是很好套利,?說明這些吸引用戶更多注意力的商品沒有很好的轉(zhuǎn)化為實際銷量推励,僅更多的進入收藏中;加購量和購買量前10的商品中肉迫,有兩個是相同的验辞,說明加購的商品多為具有購買意向的商品,加購可能是用戶等待合適的時間或者是等待更好的優(yōu)惠再買喊衫,能較好的轉(zhuǎn)化為實際銷量受神,對于加購的商品,可通過提醒用戶和推送優(yōu)惠的方式格侯,促進用戶消費鼻听。

2)統(tǒng)計所用商品的購買次數(shù)



根據(jù)本次分析的數(shù)據(jù)财著,只購買一次的商品有37567種,購買兩次的商品有5376種撑碴,本次分析的商品有45627種撑教,購買一次的商品占到82.34%,說明商品售賣主要依靠長尾商品的累計效應(yīng)醉拓。而非爆款商品的帶動伟姐。

6、基于 RFM 模型找出有價值的用戶

由于數(shù)據(jù)源沒有商品的金額亿卤,無法統(tǒng)計M值愤兵,故本次只計算RF值。

計算消費間隔R值排吴,最近消費時間和最大時間(2017-12-03)間隔時間秆乳,最近購買時間的區(qū)間為0-8,將其分為3檔钻哩,0-2,3-5,6-8分別對應(yīng)的R評分0到2






計算消費頻率F值屹堰,付費用戶中消費次數(shù)從低到高為1-84次,將其分為6檔1-9街氢,10-19扯键,20-29,30-39珊肃,40-49荣刑,50以上,對應(yīng)F評分分別為0-5分




從中我們可以得到用戶的RFM分數(shù)伦乔,用戶user_ID為234304的用戶綜合評分為7分厉亏,購買次數(shù)為84,是體系中的最有價值用戶评矩,綜合評分大于4的用戶屬于活躍的成熟客戶叶堆,可以積極推送營銷信息,對于綜合評分為4—2的用戶斥杜,可以通過推送新品通知虱颗、店鋪活動信息的方式進一步提供用戶的活躍度,對于評分小于2的用戶蔗喂,運營活動可以重點針對這部分用戶忘渔,提高用戶使用產(chǎn)品的頻率,可以通過拼團打折缰儿、積分兌換等活動喚起用戶注意力畦粮。


選定RF值為7的用戶為超級用戶,來分析超級用戶的行為,發(fā)現(xiàn)該類用戶每天都產(chǎn)生了購買行為宣赔,且收藏功能和購物車的使用頻率較低预麸,并且購買行為在周末達到高峰,可以根據(jù)該用戶的活躍規(guī)律進行相關(guān)活動的推送儒将。

本文參考大白菜老師的文章吏祸,數(shù)據(jù)集來源[https://www.jianguoyun.com/p/DSACrTAQ8IeCBxiE_ZYD)

五. 結(jié)論與建議?

本文分析了淘寶用戶行為數(shù)據(jù)共300萬條,從四個不同角度提出業(yè)務(wù)問題钩蚊,使用用戶行為路徑和RFM模型分析數(shù)據(jù)給出如下結(jié)論和建議贡翘。?

?1.用戶行為轉(zhuǎn)化漏斗分析

用戶行為包括點擊、放進購物車砰逻、收藏以及購買鸣驱,由于收藏和加入購物車都為瀏覽和購買階段之間確定購買意向的用戶行為,且不分先后順序蝠咆,因此將其算作一個階段踊东,從瀏覽到有購買意向只有9.53%的轉(zhuǎn)化率,當然有一部分用戶是直接購買勺美,但也說明大多數(shù)用戶以瀏覽頁面為主而購買轉(zhuǎn)化較少递胧,此處為轉(zhuǎn)化漏斗中需要改善和提高的環(huán)節(jié)碑韵。

?針對這一環(huán)節(jié)改善轉(zhuǎn)化率的建議有:?

(1)優(yōu)化電商平臺的搜索匹配度和推薦策略赡茸,主動根據(jù)用戶喜好推薦相關(guān)的商品,優(yōu)化商品搜索的準確度和聚合能力祝闻,對搜索結(jié)果排序優(yōu)先級進行優(yōu)化占卧。?

(2)在商品詳情頁的展示上突出用戶關(guān)注的重點信息,精簡信息流的呈現(xiàn)方式联喘,減少用戶尋找信息的成本?

(3)優(yōu)化加入購物車和收藏按鍵的觸達华蜒,用戶在滑屏?xí)r也能方便觸達,增加功能使用的次數(shù)豁遭。?

? 2.研究用戶在不同時間尺度下的行為規(guī)律叭喜,找到用戶在不同時間周期下的活躍規(guī)律?

以一周為周期進行波動,一周中的高峰期在周末蓖谢,符合上班族作息時間中的空閑時期捂蕴。而平時一天中,在晚7點后出現(xiàn)高峰期闪幽。針對高峰期進行營銷活動收益最高啥辨,此時使用人數(shù)最多,活動容易觸達用戶盯腌,營銷活動的形式可以通過促銷溉知、拼團、直播等形式進行。?

?3.找到用戶對不同種類商品的偏好级乍,找到針對不同商品的營銷策略?

商品售賣主要依靠長尾商品的累積效應(yīng)舌劳,而非爆款商品的帶動。而瀏覽次數(shù)前列的商品甚至沒有進入銷量前10玫荣,說明這些吸引用戶更多注意力的商品沒有很好的轉(zhuǎn)化為實際銷量蒿囤。 針對瀏覽量高而銷量不高的這部分商品,需要提高的是用戶從點擊進入商品詳情頁到最終購買的體驗崇决。作為商家端可以從以下幾個方面提高銷售額:

?(1) 商品詳情頁的實際價格是否相比展示價格偏差過大材诽,有的商家為了吸引用戶點擊在商品展示頁投放的價格具有較強吸引力,但實際價格偏高恒傻,在用戶心中反而引起反感?

(2)詳情頁的信息流展示是否合理脸侥,是否將用戶最想看到的部分置于容易看到的位置,便于信息的獲取?

(3)優(yōu)化商品展示的形式盈厘,利用視頻等方式給用戶更直觀的感受睁枕,提高照片的美觀程度?

(4)評論區(qū)評價管理,尤其對于差評區(qū)的用戶反饋進行認真對待沸手,提高自身服務(wù)質(zhì)量?

?4.通過RFM模型找出最具價值的核心付費用戶群外遇,對這部分用戶的行為進行分析

?R和F評分都很高的用戶是體系中的最有價值用戶,需要重點關(guān)注契吉,并且活動投放時需謹慎對待跳仿,綜合評分大于4的用戶屬于活躍的成熟客戶,可以積極推送營銷信息捐晶,對于綜合評分為4~2的用戶菲语,可以通過推送新品通知、店鋪活動信息惑灵,對于評分小于2的用戶山上,運營活動可以重點針對這部分用戶,提高用戶使用產(chǎn)品的頻率英支,可以通過拼團打折佩憾、積分兌換等活動喚起用戶注意力。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末干花,一起剝皮案震驚了整個濱河市妄帘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌把敢,老刑警劉巖寄摆,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異修赞,居然都是意外死亡婶恼,警方通過查閱死者的電腦和手機桑阶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來勾邦,“玉大人蚣录,你說我怎么就攤上這事【炱” “怎么了萎河?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蕉饼。 經(jīng)常有香客問我虐杯,道長,這世上最難降的妖魔是什么昧港? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任擎椰,我火速辦了婚禮,結(jié)果婚禮上创肥,老公的妹妹穿的比我還像新娘达舒。我一直安慰自己,他們只是感情好叹侄,可當我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布巩搏。 她就那樣靜靜地躺著,像睡著了一般趾代。 火紅的嫁衣襯著肌膚如雪贯底。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天稽坤,我揣著相機與錄音丈甸,去河邊找鬼糯俗。 笑死尿褪,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的得湘。 我是一名探鬼主播杖玲,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼淘正!你這毒婦竟也來了摆马?” 一聲冷哼從身側(cè)響起昙楚,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤屋彪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后寺惫,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惩淳,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡蕉毯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年乓搬,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片代虾。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡进肯,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出棉磨,到底是詐尸還是另有隱情江掩,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布乘瓤,位于F島的核電站环形,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏衙傀。R本人自食惡果不足惜斟赚,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望差油。 院中可真熱鬧拗军,春花似錦、人聲如沸蓄喇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽妆偏。三九已至刃鳄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間钱骂,已是汗流浹背叔锐。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留见秽,地道東北人愉烙。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像解取,于是被迫代替她去往敵國和親步责。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,700評論 2 354