淘寶APP用戶行為數(shù)據(jù)分析
(一)數(shù)據(jù)理解
1.數(shù)據(jù)來源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1
本文從數(shù)據(jù)集中選取了2014年11月18日至2014年12月18日之間幢泼,共802758條行為數(shù)據(jù)夸楣,數(shù)據(jù)集中每一行代表一條用戶行為,共有6個(gè)字段。
2.列字段如下:
User_id 用戶ID
Item_id 商品ID
behavior_type
用戶行為類型(包含點(diǎn)擊,收藏,加購物車,購買4中行為,分別用1,2,3,4表示)
User_geohash 地理位置
Item_category 商品種類
Time 用戶行為發(fā)生時(shí)間
(二)提出問題
1刽漂、整體用戶的購物情況
pv(總訪問量)、日均訪問量冗懦、uv(用戶總數(shù))爽冕、有購買行為的用戶數(shù)量、用戶的購物情況披蕉、復(fù)購率分別是多少颈畸?
2、用戶行為轉(zhuǎn)化漏斗
點(diǎn)擊—加購物車—收藏—購買各環(huán)節(jié)轉(zhuǎn)化率如何没讲?購物車遺棄率是多少眯娱?
3、購買率高和購買率為 0 的人群有什么特征
4爬凑、基于時(shí)間維度了解用戶的行為習(xí)慣
5徙缴、基于RFM模型的用戶分析
(三)數(shù)據(jù)清洗
(三)數(shù)據(jù)清洗
1.缺失值處理
User_geohash字段表示地理位置信息,由于數(shù)據(jù)存在大量空值,且對數(shù)據(jù)分析意義不大于样,因此不對該列進(jìn)行處理(三)數(shù)據(jù)清洗
1.缺失值處理
User_geohash字段表示地理位置信息疏叨,由于數(shù)據(jù)存在大量空值,且對數(shù)據(jù)分析意義不大穿剖,因此不對該列進(jìn)行處理
2.數(shù)據(jù)一致化處理
字段time包含(年月日)和小時(shí)兩種屬性蚤蔓,為了方便分析,將該字段分成日期date和小時(shí)time 2列
由于behavior_type列的四種行為分別用1糊余,2秀又,3,4表示點(diǎn)擊贬芥,收藏吐辙,加購物車,購買四種行為蘸劈,為了方便查看數(shù)據(jù)昏苏,將1,2昵时,3捷雕,4替換為’pv’, ’fav’ ,’cart’ ,’buy’
查詢表結(jié)構(gòu)椒丧,發(fā)現(xiàn)date列不是日期類型壹甥,將其修改為date類型
(四)構(gòu)建模型和分析數(shù)據(jù)
1.總體用戶購物情況
(1)pv(總訪問量)
(2)日均訪問量
(3)uv(用戶總數(shù))
(4)有購買行為的用戶數(shù)量
(5)用戶的購物情況
(6)復(fù)購率:產(chǎn)生兩次或者兩次以上購買的用戶所占比列
2.用戶行為轉(zhuǎn)化漏斗
在購物環(huán)節(jié)中收藏和加購物車沒有先后之分,所以將這兩個(gè)環(huán)節(jié)放在一起作為購物環(huán)節(jié)的一步
3.購買率高和低的人群各有什么特征
購買率高的用戶特征:
? ? ? ?從結(jié)果可以看出壶熏,購買率高的用戶點(diǎn)擊率并不高句柠,他們一般點(diǎn)擊不超過5次就直接購買,由此可以推斷出這些用戶為理智型消費(fèi)者棒假,有明確的購物目標(biāo)溯职,很少會被商家廣告或者促銷吸引
購買率低的用戶特征:
? ? ? ?從結(jié)果可以看出,購買率低主要有2個(gè)因素帽哑,其一點(diǎn)擊次數(shù)少谜酒,可能原因是網(wǎng)購欲望不強(qiáng)烈,可以通過廣告等加以引導(dǎo)妻枕;其二是點(diǎn)擊收藏次數(shù)較多僻族,但是購買率低,這類用戶可能正在為促銷活動做準(zhǔn)備屡谐,價(jià)格敏感述么,購物難度較大
4.基于時(shí)間維度了解用戶的行為習(xí)慣
1.一周中用戶活躍時(shí)段分布
由于第一周和第五周數(shù)據(jù)不全。因此這兩周的數(shù)據(jù)不進(jìn)行分析
? ? ? ?從結(jié)果可以看出愕掏,每周用戶活躍穩(wěn)定度秘,每周五會有小幅降低,但是周末逐漸回升饵撑。其中周五用戶活躍度突增剑梳,這是有雙十二電商活動引起的
2.一天中用戶的活躍時(shí)段分布
? ? ? ?可以看出唆貌,每日0點(diǎn)到5點(diǎn)用戶活躍度快速降低,降到一天中的活躍量最低值垢乙,6點(diǎn)到10點(diǎn)用戶活躍度快速上升挠锥,10點(diǎn)到18點(diǎn)用戶活躍度較平穩(wěn),17點(diǎn)到23點(diǎn)用戶活躍度快速上升侨赡,達(dá)到一天中的最高值蓖租。
5.基于RFM模型找出最有價(jià)值客戶
RFM模型是衡量客戶價(jià)值和客戶創(chuàng)造力的重要工具和手段
R-Recency(最近一次購買時(shí)間)
F-Frequency(消費(fèi)頻率)
M-Money(消費(fèi)金額)
但由于沒有相關(guān)金額數(shù)據(jù),只能通過R羊壹,F(xiàn)對客戶價(jià)值打分
(1)R-Rcency
? ? ? ?統(tǒng)計(jì)客戶最近發(fā)生購買行為的日期距離2014-12-19間隔幾天蓖宦,再對間隔進(jìn)行排名,間隔越少油猫,客戶價(jià)值越大
(2)計(jì)算F-Frequency
先統(tǒng)計(jì)每位用戶的購買頻率稠茂,再對購買頻率進(jìn)行排名,頻率越大情妖,客戶價(jià)值越大睬关,排名就越靠前
(3)對用戶進(jìn)行評分
查詢有購買行為的用戶的數(shù)量
? ? ? ?對3326名有購買行為的用戶按照排名進(jìn)行分組,共劃分為四組毡证,對排在前四分之一的用戶打4分电爹,排在前四分之一到四分之二(即二分之一)的用戶打3分,排在前四分之二到前四分之三的用戶打2分料睛,剩余的用戶打1分丐箩,按照這個(gè)規(guī)則分別對用戶時(shí)間間隔排名打分和購買頻率排名打分,最后把兩個(gè)分?jǐn)?shù)合并在一起作為該名用戶的最終評分
? ? ? ?通過打分可以了解每位顧客的特性恤煞,從而實(shí)現(xiàn)差異化營銷屎勘。比如對于?user_value?=?44?的用戶,為重點(diǎn)用戶需要關(guān)注居扒;對于user_value?=?41?這類忠誠度高而購買能力不足的概漱,可以可以適當(dāng)給點(diǎn)折扣或捆綁銷售來增加用戶的購買頻率。對于?user_value?=?14?這類忠誠度不高而購買能力強(qiáng)的喜喂,需要關(guān)注他們的購物習(xí)性做精準(zhǔn)化營銷瓤摧。還可以通過每個(gè)月對用戶的評分變化,推測客戶消費(fèi)的異動狀況夜惭,對于即將流失的客戶姻灶,通過電話問候、贈送禮品诈茧、加大折扣力度等有效的方式挽回客戶产喉。
(五)結(jié)論及建議
1、總體轉(zhuǎn)化率只有 1%,用戶點(diǎn)擊后收藏和加購物車的轉(zhuǎn)化率在 5% 曾沈,需要提高用戶的購買意愿这嚣,可通過活動促銷、精準(zhǔn)營銷等方式塞俱。
2姐帚、購買率高且點(diǎn)擊量少的用戶屬于理智型購物者,有明確購物目標(biāo)障涯,受促銷和廣告影響少罐旗;而購買率低的用戶可以認(rèn)為是等待型或克制型用戶群體,下單欲望較少且自制力較強(qiáng)唯蝶,購物難度較大九秀。
3、大部分用戶的主要活躍時(shí)間在10點(diǎn)到23點(diǎn)粘我,在19點(diǎn)到23點(diǎn)達(dá)到一天的頂峰鼓蜒。每周五的活躍度有所下降,但周末開始回升征字《嫉可以根據(jù)用戶的活躍時(shí)間段精準(zhǔn)推送商家的折扣優(yōu)惠或促銷活動,提高購買率匙姜。
4畅厢、通過 R 和 F 的數(shù)據(jù)對用戶行為進(jìn)行打分,對每位用戶進(jìn)行精準(zhǔn)化營銷搁料,還可以通過對R 和 F 的數(shù)據(jù)監(jiān)測或详,推測客戶消費(fèi)的異動狀況,挽回流失客戶郭计。