在前面兩篇的理論和操作中已經(jīng)說的比較明白聪黎,RFM用戶分層是根據(jù)用戶的R(最近消費)F(消費頻率)M(消費金額)三個維度來對用戶進行切片绝骚。
既然是模型就會有缺陷缚俏,或者不一定是缺陷只是模型表征為在某些場景下無法更加充分地實現(xiàn)業(yè)務需求茂腥。所以井联,這個時候就要對模型進行適當?shù)恼{(diào)整了。
指標L的引入
舉個栗子
對于同樣的兩個流失用戶A和B寥掐,用RFM模型衡量出來的價值幾乎相同靴寂,不同的是用戶A在2012年進入平臺,用戶B在2014年進入平臺召耘,這個時候兩個用戶的價值還相同嗎百炬?很明顯,A用戶高的價值是高于B用戶的污它,而且也更加容易召回剖踊。
所以庶弃,可以加入的指標是用戶生命周期L ,用來衡量不同用戶在平臺的時長,那加入的這個L怎么用呢德澈?
操作實現(xiàn)
依然是基于在tableau中的實現(xiàn)歇攻,此次的數(shù)據(jù)源是自帶的supermarket示例。
基礎(chǔ)指標創(chuàng)建
L參數(shù)梆造,依次創(chuàng)建L=2和L=3和L=4
L值
均值L
模型重建
有沒有發(fā)現(xiàn)這個分層公式和上一篇的什么不同缴守?
- 去掉了M指標,去掉M是為了在突出F后面會在可視化里做互補
- 弱化了F指標镇辉,F(xiàn)會重點體現(xiàn)在老客的分類上
是的屡穗,上一篇是中規(guī)中矩的分了8個維度層,而有的時候需要對模型進行精簡忽肛,突出業(yè)務場景的問題村砂,盡量降低其他因素的影響(當然了還有更多的時候是要分層分的更細==我去哭會)
可視化
一目了然有木有啊哈哈哈哈哈(氣泡的大小代表用戶的購買金額)
關(guān)于閾值
有沒有注意到,每個指標的分類過程中對比的閾值使用的是均值屹逛?這里可能會存在兩個問題
二分類邏輯:均值有的時候不是最好的閾值對照础废,在電商的邏輯中往往是‘二八原則’,所以在長尾用戶和高凈值大客的作用下罕模,我們會被均值會蒙蔽雙眼色迂。
計算偏移:最后的模型是建立在兩層計算上的,第一個是參數(shù)處理后的值手销,第二個是和均值進行對比。兩層流轉(zhuǎn)下图张,用戶的價值信息傳遞會發(fā)生不同程度的偏移锋拖。
怎么解決?
- 在分布不均勻的樣本中祸轮,可以使用中位數(shù)代替算數(shù)平均值進行分類或者使用分位數(shù)直接進行分層兽埃。
- 使用數(shù)據(jù)挖掘算法進行分類,會自動將有相同特征的用戶進行分類适袜,最常見的算法叫KMeans聚類算法纠拔。
此處留個坑播赁,下一篇寫聚類算法下的用戶分層建模。
參考:趙彥博的知乎回答
我的tableau public:yangliang的tableau public主頁