一、用戶畫像基礎(chǔ)
1莉炉、什么是用戶畫像
用戶畫像钓账,即用戶信息標(biāo)簽化,通過收集用戶的社會屬性絮宁、行為方式梆暮、偏好特征等多維度數(shù)據(jù),運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)刻畫绍昂,并對數(shù)據(jù)進(jìn)行分析啦粹、統(tǒng)計(jì)、挖掘窘游,抽象出用戶的信息面貌唠椭。
2、用戶畫像的作用
相對于”靜止的“傳統(tǒng)統(tǒng)計(jì)類報(bào)表忍饰,用戶畫像使數(shù)據(jù)更加形象化贪嫂,并能針對用戶進(jìn)行個(gè)性化推薦、精準(zhǔn)營銷艾蓝、個(gè)性化服務(wù)等
3力崇、標(biāo)簽類型有哪些
統(tǒng)計(jì)類標(biāo)簽:指統(tǒng)計(jì)用戶相關(guān)數(shù)值,客觀描述用戶狀態(tài)的標(biāo)簽赢织×裂ィ可以從用戶的靜態(tài)屬性,比如出生日期于置、注冊數(shù)據(jù)茧吊、消費(fèi)數(shù)據(jù)等可以得到用戶的年齡、星座、活躍時(shí)長饱狂、活躍次數(shù)、消費(fèi)次數(shù)和金額等
規(guī)則類標(biāo)簽:一般指根據(jù)運(yùn)營需要宪彩,在業(yè)務(wù)層制定規(guī)則的標(biāo)簽休讳。這列標(biāo)簽會帶有人為主觀判斷因素,因此在開發(fā)前需要進(jìn)行數(shù)據(jù)摸底尿孔。例如用戶的活躍度俊柔、價(jià)值度等,這類標(biāo)簽需要通過指定的數(shù)據(jù)口徑計(jì)算后來定義
機(jī)器學(xué)習(xí)挖掘類標(biāo)簽:這類標(biāo)簽通過對用戶的行為和數(shù)據(jù)進(jìn)行預(yù)判活合,例如通過用戶的收藏雏婶、下單、評價(jià)等信息判斷對商品的喜愛程度
4白指、用戶畫像覆蓋的模塊
指標(biāo)體系:根據(jù)業(yè)務(wù)線梳理留晚,包括用戶屬性、用戶行為告嘲、用戶消費(fèi)错维、用戶風(fēng)控等維度的指標(biāo)體系
數(shù)據(jù)存儲:標(biāo)簽數(shù)據(jù)的存儲方式,包括mysql橄唬、hive赋焕、hbase、es等仰楚,不同的業(yè)務(wù)場景針對不同的存儲方式
標(biāo)簽開發(fā):重點(diǎn)模塊隆判,包含統(tǒng)計(jì)類、規(guī)則類僧界、挖掘類等標(biāo)簽的開發(fā)侨嘀,以及開發(fā)標(biāo)簽提供的服務(wù)
畫像產(chǎn)品化:為了更方便服務(wù)于業(yè)務(wù)方,需要將用戶畫像產(chǎn)品化捂襟,其中產(chǎn)品化的模塊包括標(biāo)簽視圖飒炎、標(biāo)簽查詢、用戶分群笆豁、透視分析等
用戶畫像應(yīng)用:用戶畫像應(yīng)用場景包含用戶特征分析郎汪、短信、郵件闯狱、push消息的精準(zhǔn)推送以及針對不用用戶的客服話術(shù)煞赢,高價(jià)值用戶等VIP服務(wù)
二、標(biāo)簽數(shù)據(jù)開發(fā)
1哄孤、標(biāo)簽存儲
介紹了不同應(yīng)用場景下的標(biāo)簽存儲方案
hive:存儲數(shù)倉底層寬表照筑,涉及大量的計(jì)算用戶標(biāo)簽的ETL任務(wù),并存儲著各種維度額用戶標(biāo)簽數(shù)據(jù)
mysql:用于存儲元數(shù)據(jù)和監(jiān)控預(yù)警數(shù)據(jù),例如錄入的用戶標(biāo)簽元數(shù)據(jù)(標(biāo)簽ID凝危,標(biāo)簽名波俄,標(biāo)簽主題,類別等)蛾默、數(shù)據(jù)同步任務(wù)和結(jié)果的監(jiān)控信息等
hbase:存儲hive計(jì)算的結(jié)果和實(shí)時(shí)寫入的數(shù)據(jù)懦铺,服務(wù)于線上業(yè)務(wù)的訪問
es:構(gòu)建hbase的二級索引,快速篩選符合條件的用戶進(jìn)行透視分析
2支鸡、標(biāo)簽開發(fā)
標(biāo)簽開發(fā)包括以下幾個(gè)內(nèi)容:
離線和實(shí)時(shí)用戶標(biāo)簽的開發(fā)
用戶特征庫開發(fā)
人群計(jì)算
打通數(shù)據(jù)服務(wù)層
a冬念、統(tǒng)計(jì)類標(biāo)簽開發(fā)
用戶相關(guān)的靜態(tài)屬性、客觀的消費(fèi)數(shù)據(jù)(購買次數(shù)牧挣、購買金額急前、近30天加入購物車次數(shù))、登錄天數(shù)(近30天的來訪記錄)等的統(tǒng)計(jì)類報(bào)表
b瀑构、規(guī)則類標(biāo)簽開發(fā)
在業(yè)務(wù)層制定規(guī)則的標(biāo)簽裆针,用兩個(gè)例子來說明:
- RFM:由3個(gè)基礎(chǔ)指標(biāo)組成,最近一次消費(fèi)(Recency)寺晌、消費(fèi)頻率(Frequency)据块、消費(fèi)金額(Money),這3個(gè)基礎(chǔ)指標(biāo)組成8個(gè)類型人群
計(jì)算過程中折剃,可以先計(jì)算整體數(shù)據(jù)后再運(yùn)用帕累托法則定義各個(gè)細(xì)分的等級另假,例如消費(fèi)頻率的等級劃分,計(jì)算出近一年用戶累計(jì)交易量在5次以上的達(dá)到80%怕犁,即可定義一年內(nèi)交易5次以上的為高頻次
-
用戶活躍度標(biāo)簽:根據(jù)用戶的活躍情況打上高活躍边篮、中活躍、低活躍奏甫、流失等標(biāo)簽
首先劃分出用戶的流失周期戈轿,在流失周期內(nèi)再進(jìn)一步劃分出用戶的高中低活躍度。劃分流失周期可以參考以下兩種方式
圈定部分首次訪問的用戶阵子,分析后續(xù)該批用戶隨著時(shí)間推移的訪問行為曲線圖思杯,即可判斷出曲線下降明顯的轉(zhuǎn)折點(diǎn)所對應(yīng)的天數(shù)為流失周期
統(tǒng)計(jì)用戶最后一次訪問與倒數(shù)第二次訪問之間的時(shí)間間隔,分析方式與上面類似
劃分出流失周期后挠进,可以再根據(jù)用戶在某個(gè)時(shí)間段內(nèi)的來訪人數(shù)占比或者某段時(shí)間內(nèi)的GMV占比劃分出對應(yīng)的高中低周期
c色乾、挖掘類標(biāo)簽
應(yīng)用算法挖掘用戶的相關(guān)特性,比如根據(jù)用戶行為判斷男女性別领突,判斷用戶購買偏好暖璧、預(yù)測用戶是否下單等
d、實(shí)時(shí)用戶標(biāo)簽開發(fā)
新用戶推送首單優(yōu)惠營銷活動君旦、根據(jù)訪問商品推送相關(guān)類目產(chǎn)品
e澎办、用戶特征庫開發(fā)
用戶特征庫就是用戶每一次的不同行為及該行為對應(yīng)的標(biāo)簽進(jìn)行詳細(xì)的記錄嘲碱,以便從用戶的行為特征中挖掘用戶的偏好,大多從埋點(diǎn)日志局蚀、訪問日志麦锯、訂單數(shù)據(jù)來對用戶不同行為的數(shù)據(jù)統(tǒng)計(jì)
3、權(quán)重計(jì)算
用戶標(biāo)簽也會有不同的權(quán)重琅绅,例如下單某商品的行為權(quán)重要比收藏商品扶欣、加購商品、搜索商品的權(quán)重高奉件,用戶的不同行為對應(yīng)到不同的標(biāo)簽有著不同的行為行為權(quán)重宵蛀,因此昆著,給用戶打標(biāo)簽的時(shí)候县貌,也需要結(jié)合不同的業(yè)務(wù)場景界定不同行為的權(quán)重
介紹兩種跟權(quán)重打分有關(guān)的內(nèi)容
-
TF-IDF是一種統(tǒng)計(jì)方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度凑懂。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加煤痕,但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降
TF-IDF實(shí)際上是:TF * IDF,TF詞頻(Term Frequency)接谨,IDF逆向文件頻率(Inverse Document Frequency)
TF:表示詞條t在文檔d中出現(xiàn)的頻率摆碉,計(jì)算公式:
i 表示文檔中的某個(gè)詞,j 表示某個(gè)文檔
IDF的主要思想是:如果包含詞條t的文檔越少扫夜,也就是n越小楞泼,IDF越大,則說明詞條t具有很好的類別區(qū)分能力笤闯,計(jì)算公式:
|D|:語料庫中的文件總數(shù)
:包含詞語的文件數(shù)目(即的文件數(shù)目)
通過TF-IDF算法計(jì)算得到的標(biāo)簽權(quán)重只是初步的結(jié)果堕阔,因?yàn)槭俏纯紤]業(yè)務(wù)場景的
-
時(shí)間衰減系數(shù)
當(dāng)用戶行為數(shù)據(jù)積累得足夠密集后,用戶打上相對應(yīng)的標(biāo)簽會表現(xiàn)出較高的穩(wěn)定颗味,但是這種穩(wěn)定性缺乏相對弱的適應(yīng)性超陆,因?yàn)檫@種穩(wěn)定的標(biāo)簽不能反映當(dāng)下用戶近期的行為變化,因此引入了時(shí)間衰變系數(shù)浦马,根據(jù)用戶發(fā)生時(shí)間的先后行為進(jìn)行權(quán)重的分配时呀。
時(shí)間衰減是指隨著時(shí)間的推移,用戶的歷史行為和當(dāng)前行為的相關(guān)性不斷減弱晶默,在建立與時(shí)間衰減的相關(guān)函數(shù)時(shí)退唠,可以參考牛頓冷卻定律數(shù)學(xué)模型。
可以參考的用戶權(quán)重打分公式:
<center>用戶標(biāo)簽權(quán)重=行為類型權(quán)重時(shí)間衰減用戶行為次數(shù)*TF-IDF計(jì)算標(biāo)簽權(quán)重</center>
?
4荤胁、標(biāo)簽相似度
標(biāo)簽相似度指的的用戶被打上A標(biāo)簽時(shí)會被同時(shí)打上B標(biāo)簽瞧预,此時(shí)可以說A屎债、B標(biāo)簽可能存在某種相關(guān)性(啤酒和尿不濕的相關(guān)性例子)
可以采用余弦定理來計(jì)算兩兩標(biāo)簽之間的相關(guān)性,余弦值的范圍是-1到1之間垢油,余弦值越接近1盆驹,表名兩個(gè)向量之間的相似性越大。
5滩愁、組合標(biāo)簽
將多種標(biāo)簽組合成一個(gè)人群標(biāo)簽躯喇,通過去es上查找符合標(biāo)簽的對應(yīng)RowKey,再去HBase中查詢出目標(biāo)用戶
三硝枉、用戶畫像產(chǎn)品化
用戶畫像系統(tǒng)搭建完成后廉丽,需要進(jìn)行產(chǎn)品化,以幫助業(yè)務(wù)人員進(jìn)行用戶分析妻味、營銷和服務(wù)正压。
用戶畫像產(chǎn)品化的幾個(gè)應(yīng)用場景:
1、經(jīng)營分析
商品分析:爆品分析
用戶分析:年齡责球、職業(yè)焦履、性別,精準(zhǔn)推薦
渠道分析:增長黑客理論(AARRR)模型雏逾,將產(chǎn)品的營收路徑拆分為激活-注冊-留存-下單-傳播嘉裤,新客獲客成本是比較高的,分析不同渠道在這些環(huán)節(jié)上的轉(zhuǎn)化率(轉(zhuǎn)化率的成本也要計(jì)算和評估)來使得渠道投放的策略更有針對性
漏斗分析:場景主要有產(chǎn)品流程關(guān)鍵路徑轉(zhuǎn)化分析(電商購買流程)栖博、業(yè)務(wù)價(jià)值路徑的轉(zhuǎn)化流程追蹤(常用的AARRR模型的價(jià)值轉(zhuǎn)化追蹤)
客服話術(shù)
2屑宠、精準(zhǔn)營銷
-
短信、郵件營銷
對一個(gè)用戶人群發(fā)送有針對性的文案進(jìn)行用戶營銷
-
效果分析
針對目標(biāo)人群精準(zhǔn)消息推送后帶來的流量提升仇让、營收提升分析
-
個(gè)性化推薦與服務(wù)
針對高質(zhì)量用戶提供專門的服務(wù)(淘寶的極速退款)典奉,KA用戶的VIP專人客服等,提升用戶體驗(yàn)
3妹孙、風(fēng)控
金融服務(wù)領(lǐng)域秋柄,識別多頭借貸用戶、針對用戶行為進(jìn)行的反欺詐蠢正、黑名單與白名單骇笔、準(zhǔn)入策略等
4、A/B測試
對同一個(gè)用戶人群中的不同用戶制定不同的營銷方式嚣崭,通過A/B test分析哪個(gè)方式可以帶來更高的轉(zhuǎn)化率或增長率笨触,再選擇好的營銷方式來正式上線運(yùn)營
5、用戶生命周期劃分和營銷
用戶生命周期是指從用戶使用到離開的一個(gè)發(fā)展過程雹舀,生命周期價(jià)值指的是這個(gè)發(fā)展過程中用戶為產(chǎn)品帶來的價(jià)值總和
用戶生命周期劃分:引入芦劣、成長、成熟说榆、衰退虚吟、流失寸认,用戶進(jìn)入產(chǎn)品后,并不一定會走完完整的周期串慰,每個(gè)階段都會為產(chǎn)品代碼不同的價(jià)值
通過對不同階段的用戶使用不同的觸達(dá)策略來提升轉(zhuǎn)化率