用戶畫像蔚舀,英文為Customer Profiling或Persona,核心在于標(biāo)簽化吃粒,目的在于得出結(jié)論潦俺,業(yè)務(wù)決策。
一、實(shí)踐經(jīng)驗(yàn)
管理層想要用戶畫像事示,個(gè)人感覺(jué)主要有兩方面的業(yè)務(wù)原因:
1早像、風(fēng)控,特別是基于歷史數(shù)據(jù)中肖爵,帶來(lái)最大盈利的用戶卢鹦,放款后發(fā)展越來(lái)越好的用戶的特點(diǎn),進(jìn)行數(shù)據(jù)挖掘劝堪。
2冀自、產(chǎn)品設(shè)計(jì),如何更加場(chǎng)景化秒啦,增加產(chǎn)品的吸引力熬粗。
其他諸如拒絕回?fù)啤⒕珳?zhǔn)營(yíng)銷等都是順手的事情了余境。
逼格很高荐糜,數(shù)據(jù)豐富,領(lǐng)導(dǎo)宏圖大志葛超,希望畫像越豐富、越細(xì)致越好延塑。工程浩大绣张,但實(shí)際業(yè)務(wù)人員卻覺(jué)得沒(méi)啥用,無(wú)法直接支持運(yùn)營(yíng)关带,又看得人頭暈?zāi)垦=暮瑴S為數(shù)據(jù)的簡(jiǎn)單提取和統(tǒng)計(jì)加工。這里總結(jié)一下失敗的原因宋雏,也算沒(méi)有白干芜飘。
1、回頭來(lái)看磨总,至少應(yīng)當(dāng)先做一些簡(jiǎn)單的嗦明、必須的數(shù)據(jù)項(xiàng),根據(jù)業(yè)務(wù)的需要再逐步增加蚪燕,節(jié)省物力人力娶牌,對(duì)于增加內(nèi)容也有的放矢(很可能是來(lái)自業(yè)務(wù)的實(shí)際需求)。
建議前期包括的數(shù)據(jù):人口基本屬性馆纳、歷史信用屬性诗良,我司歷史申請(qǐng)還款記錄,要以強(qiáng)相關(guān)信息鲁驶、定性數(shù)據(jù)(標(biāo)簽化鉴裹、抽象化)為主。目標(biāo)是協(xié)助業(yè)務(wù)篩選出感興趣的客戶,定量數(shù)據(jù)不利于業(yè)務(wù)直接適用径荔,也由此看出穆迪這類公司為什么會(huì)輸出企業(yè)評(píng)級(jí)而不是企業(yè)信用分督禽。
2、問(wèn)題定義與問(wèn)題不可解猖凛。
首先赂蠢,應(yīng)當(dāng)具體的場(chǎng)景具體去選擇合適的用戶標(biāo)簽,不存在一個(gè)通用的用戶畫像辨泳。先有業(yè)務(wù)場(chǎng)景虱岂,再有字段需求,如利用銀聯(lián)數(shù)據(jù)+自身數(shù)據(jù)+信用卡數(shù)據(jù)菠红,發(fā)現(xiàn)信用卡消費(fèi)超過(guò)其月收入的用戶第岖,推薦其進(jìn)行消費(fèi)分期。
其次试溯,如放款后的客戶蔑滓,多次續(xù)貸并且企業(yè)發(fā)展越來(lái)越好,個(gè)人認(rèn)為是比較難通過(guò)內(nèi)部的一些數(shù)據(jù)描繪出來(lái)的遇绞,本身就是一個(gè)無(wú)法轉(zhuǎn)換為數(shù)據(jù)問(wèn)題的業(yè)務(wù)問(wèn)題键袱,不可解。
最后摹闽,我們的用戶標(biāo)簽是很粗淺的蹄咖、稀疏的,最大的價(jià)值就是方便一點(diǎn)付鹿、集中一點(diǎn)澜汤,想要對(duì)業(yè)務(wù)有更大的價(jià)值,應(yīng)當(dāng)提取的是隱形的標(biāo)簽(業(yè)務(wù)無(wú)法直接獲取的)舵匾,比如用戶的貸款目的俊抵、用戶資金偏好(適用于授信后客戶拒絕接受場(chǎng)景)、產(chǎn)品的使用頻次等坐梯,當(dāng)然這需要使用一些模型(簡(jiǎn)單的規(guī)則模型也行)和算法得到徽诲。
二、案例研究
1吵血、電商案例
用戶樣本篩選馏段,目的是區(qū)隔用戶,可以將復(fù)雜的后臺(tái)數(shù)據(jù)(業(yè)務(wù)不可得或需消耗大量精力獲得)轉(zhuǎn)換為簡(jiǎn)單践瓷、可理解的業(yè)務(wù)標(biāo)簽(用戶描述)院喜。
用戶畫像的數(shù)據(jù)模型,可以概括為下面的公式:用戶標(biāo)識(shí)+ 時(shí)間 + 行為類型 +接觸點(diǎn)(網(wǎng)址+內(nèi)容)晕翠,某用戶因?yàn)樵谑裁磿r(shí)間喷舀、地點(diǎn)砍濒、做了什么事,打上XX標(biāo)簽(如母嬰硫麻、紅酒等)爸邢。
用戶標(biāo)簽的權(quán)重可能隨時(shí)間的增加而衰減,定義時(shí)間為衰減因子r拿愧,行為類型杠河、網(wǎng)址決定了權(quán)重,內(nèi)容決定了標(biāo)簽浇辜,進(jìn)一步轉(zhuǎn)換為公式:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×網(wǎng)址子權(quán)重券敌。
2、標(biāo)簽體系案例
構(gòu)建標(biāo)簽體系
主流的標(biāo)簽體系都是層次化的柳洋,首先標(biāo)簽分為幾個(gè)大類待诅,每個(gè)大類下進(jìn)行逐層細(xì)分。
基于原始數(shù)據(jù)首先構(gòu)建的是事實(shí)標(biāo)簽熊镣,事實(shí)標(biāo)簽可以從數(shù)據(jù)庫(kù)直接獲缺把恪(如注冊(cè)信息),或通過(guò)簡(jiǎn)單的統(tǒng)計(jì)得到绪囱。這類標(biāo)簽構(gòu)建難度低测蹲、實(shí)際含義明確,且部分標(biāo)簽可用作后續(xù)標(biāo)簽挖掘的基礎(chǔ)特征(如產(chǎn)品購(gòu)買次數(shù)可用來(lái)作為用戶購(gòu)物偏好的輸入特征數(shù)據(jù))鬼吵。
模型標(biāo)簽是標(biāo)簽體系的核心弛房,也是用戶畫像工作量最大的部分,大多數(shù)用戶標(biāo)簽的核心都是模型標(biāo)簽而柑,需要用到機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。
最后構(gòu)造的是高級(jí)標(biāo)簽荷逞,高級(jí)標(biāo)簽是基于事實(shí)標(biāo)簽和模型標(biāo)簽進(jìn)行統(tǒng)計(jì)建模得出的媒咳,它的構(gòu)造多與實(shí)際的業(yè)務(wù)指標(biāo)緊密聯(lián)系。只有完成基礎(chǔ)標(biāo)簽的構(gòu)建种远,才能夠構(gòu)造高級(jí)標(biāo)簽涩澡。構(gòu)建高級(jí)標(biāo)簽使用的模型,可以是簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)坠敷,也可以是復(fù)雜的機(jī)器學(xué)習(xí)模型妙同。
具體標(biāo)簽構(gòu)建
以三類標(biāo)簽為例,三類標(biāo)簽的特性膝迎、使用的技術(shù)均存在差異粥帚。人口屬性標(biāo)簽,比較穩(wěn)定限次,一旦建立很長(zhǎng)一段時(shí)間基本不用更新芒涡,標(biāo)簽體系也比較固定柴灯;興趣屬性標(biāo)簽,隨時(shí)間變化很快费尽,有很強(qiáng)的時(shí)效性赠群,標(biāo)簽體系也不固定;地理屬性標(biāo)簽旱幼,時(shí)效性跨度很大查描,如GPS軌跡標(biāo)簽需要做到實(shí)時(shí)更新,而常住地標(biāo)簽一般可以幾個(gè)月不用更新柏卤。
很多產(chǎn)品(如QQ冬三、facebook等)會(huì)引導(dǎo)用戶填寫基本信息,包括年齡闷旧、性別长豁、收入等人口屬性,但完整填寫個(gè)人信息的用戶只占很少一部分忙灼。一般會(huì)用填寫了信息的這部分用戶作為樣本匠襟,把用戶的行為數(shù)據(jù)作為特征訓(xùn)練模型,對(duì)無(wú)標(biāo)簽的用戶進(jìn)行人口屬性的預(yù)測(cè)该园。這種模型把用戶的標(biāo)簽傳給和他行為相似的用戶酸舍,可以認(rèn)為是對(duì)人群進(jìn)行了標(biāo)簽擴(kuò)散,因此常被稱為標(biāo)簽擴(kuò)散模型里初。
通過(guò)分析啃勉,我們發(fā)現(xiàn)男性和女性,對(duì)于影片的偏好是有差別的双妨,因此使用觀看的影片列表來(lái)預(yù)測(cè)用戶性別有一定的可行性淮阐。此外我們還可以考慮用戶的觀看時(shí)間、瀏覽器刁品、觀看時(shí)長(zhǎng)等泣特,為了簡(jiǎn)化,這里只使用用戶觀看的影片特征挑随。對(duì)于預(yù)測(cè)性別這樣的二分類模型状您,如果行為的區(qū)分度較好,一般準(zhǔn)確率和覆蓋率都可以達(dá)到70%左右兜挨。
興趣畫像是互聯(lián)網(wǎng)領(lǐng)域使用最廣泛的畫像膏孟,主要是從用戶海量行為日志中進(jìn)行核心信息的抽取、標(biāo)簽化和統(tǒng)計(jì)拌汇,因此在構(gòu)建用戶興趣畫像之前柒桑,需要先對(duì)用戶有行為的內(nèi)容進(jìn)行內(nèi)容建模。內(nèi)容建模需要注意粒度噪舀,過(guò)細(xì)的粒度會(huì)導(dǎo)致標(biāo)簽沒(méi)有泛化能力和使用價(jià)值幕垦,過(guò)粗的粒度會(huì)導(dǎo)致沒(méi)有區(qū)分度丢氢。
新聞數(shù)據(jù)本身是非結(jié)構(gòu)化的,使用文本主題聚類完成主題標(biāo)簽的構(gòu)建先改,形成對(duì)新聞內(nèi)容從粗到細(xì)的“分類-主題-關(guān)鍵詞”三層標(biāo)簽體系內(nèi)容建模(如LDA之類的)疚察。在完成內(nèi)容建模以后,我們就可以根據(jù)用戶點(diǎn)擊仇奶,計(jì)算用戶對(duì)分類貌嫡、主題、關(guān)鍵詞的興趣该溯,得到用戶興趣標(biāo)簽的權(quán)重岛抄。
用戶對(duì)每個(gè)詞的興趣計(jì)算公式:,表示詞在這篇新聞中的權(quán)重。該公式有兩個(gè)問(wèn)題:一個(gè)是用戶的興趣累加是線性的氯庆,數(shù)值會(huì)非常大蹭秋,老的興趣權(quán)重會(huì)特別高;一個(gè)是用戶的興趣有很強(qiáng)的時(shí)效性堤撵,昨天的點(diǎn)擊要比一個(gè)月之前的點(diǎn)擊重要的多仁讨,線性疊加無(wú)法突出近期興趣。
我們使用如下的方法對(duì)興趣得分進(jìn)行次數(shù)衰減和時(shí)間衰減实昨。次數(shù)衰減的公式:洞豁,時(shí)間衰減的公式:志电,根據(jù)用戶興趣變化的速度曙咽、用戶活躍度等因素,也可以對(duì)興趣進(jìn)行周級(jí)別溪北、月級(jí)別或小時(shí)級(jí)別的衰減。
地理位置畫像常駐地的挖掘夺脾,基于用戶IP地址的解析之拨,對(duì)用戶IP出現(xiàn)的城市進(jìn)行統(tǒng)計(jì)就可以得到常駐城市標(biāo)簽,不僅可以用來(lái)統(tǒng)計(jì)各個(gè)地域的用戶分布咧叭,還可以根據(jù)用戶在各個(gè)城市之間的出行軌跡識(shí)別出差人群蚀乔、旅游人群等。GPS數(shù)據(jù)一般從手機(jī)端收集菲茬,但很多手機(jī)APP沒(méi)有獲取用戶 GPS信息的權(quán)限吉挣。
用戶畫像效果評(píng)估
興趣畫像的人為評(píng)估比較困難派撕,常用評(píng)估方法是設(shè)計(jì)小流量的A/B-test進(jìn)行驗(yàn)證,可以篩選一部分標(biāo)簽用戶睬魂,給這部分用戶進(jìn)行和標(biāo)簽相關(guān)的推送终吼,看標(biāo)簽用戶對(duì)相關(guān)內(nèi)容是否有更好的反饋,例如如果這批用戶的點(diǎn)擊率和閱讀時(shí)長(zhǎng)明顯高于平均水平氯哮,就說(shuō)明標(biāo)簽是有效的际跪。
用戶畫像的評(píng)估指標(biāo)主要是指準(zhǔn)確率、覆蓋率喉钢、時(shí)效性指標(biāo)姆打。標(biāo)簽還需要有一定的可解釋性(便于理解)和可擴(kuò)展性(便于維護(hù),后續(xù)標(biāo)簽的添加)肠虽。
標(biāo)簽的準(zhǔn)確率指的是被打上正確標(biāo)簽的用戶比例幔戏,準(zhǔn)確率是用戶畫像最核心的指標(biāo),一個(gè)準(zhǔn)確率非常低的標(biāo)簽是沒(méi)有應(yīng)用價(jià)值的税课。評(píng)估一般有兩種方法:一種是在標(biāo)注數(shù)據(jù)集里留一部分測(cè)試數(shù)據(jù)闲延;另一種是在全量用戶中抽一批用戶,人工標(biāo)注評(píng)估準(zhǔn)確率伯复。由于初始的標(biāo)注數(shù)據(jù)集的分布和全量用戶分布相比可能有一定偏差慨代,故后一種方法的數(shù)據(jù)更可信。準(zhǔn)確率一般是對(duì)每個(gè)標(biāo)簽分別評(píng)估啸如,多個(gè)標(biāo)簽放在一起評(píng)估準(zhǔn)確率是沒(méi)有意義的侍匙。
標(biāo)簽的覆蓋率指的是被打上標(biāo)簽的用戶占全量用戶的比例,與準(zhǔn)確率是一對(duì)矛盾的指標(biāo)叮雳,可以拆解為兩個(gè)指標(biāo)來(lái)評(píng)估想暗,標(biāo)簽覆蓋的用戶比例(覆蓋的廣度)、覆蓋用戶的人均標(biāo)簽數(shù)(覆蓋的密度)帘不。覆蓋率既可以對(duì)單一標(biāo)簽計(jì)算说莫,也可以對(duì)某一類標(biāo)簽計(jì)算,還可以對(duì)全量標(biāo)簽計(jì)算寞焙,均有意義储狭。
用戶覆蓋比例:捣郊。人均標(biāo)簽數(shù):
時(shí)效性呛牲,如興趣標(biāo)簽刮萌、出現(xiàn)軌跡標(biāo)簽等,一周之前的就沒(méi)有意義了娘扩,如性別着茸、年齡等壮锻,可以有一年到幾年的有效期。對(duì)于不同的標(biāo)簽涮阔,需要建立合理的更新機(jī)制猜绣,以保證標(biāo)簽時(shí)間上的有效性。
用戶畫像的使用
一般需要一個(gè)可視化平臺(tái)澎语,對(duì)標(biāo)簽進(jìn)行查看和檢索途事。此外,我們還可以使用不同維度的標(biāo)簽擅羞,進(jìn)行高級(jí)的組合分析尸变,產(chǎn)出高質(zhì)量的分析報(bào)告。
3减俏、用戶實(shí)時(shí)風(fēng)格偏好建模
建模標(biāo)簽明確召烂,用戶偏好的商品風(fēng)格,建模流程如下圖:
標(biāo)簽產(chǎn)出的建模流程如下圖娃承,使用基于user-商品原始統(tǒng)計(jì)為基礎(chǔ)的topic model解決方案(PLSA奏夫、LDA、人工review topic下的詞)历筝。
在此基礎(chǔ)上酗昼,增加性別、年齡段梳猪、購(gòu)買力(收藏麻削、購(gòu)買、點(diǎn)擊商品的簡(jiǎn)單統(tǒng)計(jì)+協(xié)同過(guò)濾)等預(yù)測(cè)類標(biāo)簽春弥,增加維度進(jìn)行更加準(zhǔn)確的個(gè)性化推薦呛哟。
本案例作者也進(jìn)行了新品投放方面的應(yīng)用,值得借鑒匿沛,我的理解其實(shí)就正反兩面扫责,好的客戶找到對(duì)應(yīng)的特殊標(biāo)簽,分析來(lái)源渠道逃呼、廣告響應(yīng)等鳖孤,有了數(shù)據(jù)再進(jìn)一步迭代提高預(yù)測(cè)準(zhǔn)確度;壞的客戶就切斷渠道抡笼,做規(guī)則拒單苏揣。
4、消金逾期客戶畫像
基本相當(dāng)于數(shù)據(jù)分析蔫缸,從不同維度去觀察客戶的占比腿准、逾期率际起、首逾率拾碌、不良率吐葱。
以征信認(rèn)證逾期為例,可以看到分布及逾期情況是否與業(yè)務(wù)預(yù)期一致校翔,如存在差異則需及時(shí)調(diào)整貸前風(fēng)控策略弟跑。本平臺(tái)借款額度低、期限短防症,一般人不會(huì)為了這種貸款去打印人行征信孟辑,如果提供了人行征信,客戶多頭借貸蔫敲、中介包裝風(fēng)險(xiǎn)較高饲嗽,建議著重審核,數(shù)據(jù)表現(xiàn)也與業(yè)務(wù)理解一致奈嘿。
5貌虾、客戶畫像中常用的AI算法
主要是NLP,分詞裙犹、實(shí)體識(shí)別和詞性標(biāo)注同屬序列標(biāo)注問(wèn)題尽狠,是基礎(chǔ)工作。主題模型(Topic Model叶圃,LDA等袄膏,取代傳統(tǒng)的聚類方法)、TF-IDF掺冠、Word2Vec(Embedding方法沉馆,可為每個(gè)詞學(xué)習(xí)到一個(gè)稠密向量)等,得到了如標(biāo)簽(關(guān)鍵詞赫舒、分類)悍及、主題、嵌入向量(都可以理解為特征)接癌。如果把用戶對(duì)物品的行為心赶,消費(fèi)或者沒(méi)有消費(fèi)看成是一個(gè)分類問(wèn)題,用戶用實(shí)際行動(dòng)幫我們標(biāo)注了若干數(shù)據(jù)缺猛,那么挑選出他實(shí)際感興趣的特性就是特征選擇的問(wèn)題缨叫。
TF-IDF ,詞頻(Term Frequency)荔燎,逆文本頻率指數(shù)(Inverse Document Frequency)耻姥,TF表述的核心思想是,在1條文本中反復(fù)出現(xiàn)的詞更重要有咨。而IDF的思想是琐簇,在所有文本都出現(xiàn)的詞是不重要的,IDF用于修正TF所表示的計(jì)算結(jié)果。
TF-IDF用于生產(chǎn)用戶的偏好標(biāo)簽婉商,可計(jì)算得到某個(gè)詞語(yǔ)(標(biāo)簽)對(duì)用戶的權(quán)重似忧,并找到相似的用戶。同時(shí)可進(jìn)一步引入行為類型(訂單未支付丈秩、已支付未退款盯捌、已支付已退款等狀態(tài))、行為次數(shù)和時(shí)間衰減(牛頓冷卻定律)的權(quán)重蘑秽,調(diào)整標(biāo)簽權(quán)重饺著。
三、經(jīng)驗(yàn)與建議
想清楚客戶畫像的應(yīng)用場(chǎng)景(做好頂層設(shè)計(jì)肠牲,才能有效控制投入資源幼衰,否則是無(wú)底洞)、支撐客戶畫像的數(shù)據(jù)源(數(shù)據(jù)的可得性缀雳、數(shù)據(jù)的標(biāo)準(zhǔn)化塑顺、數(shù)據(jù)統(tǒng)計(jì)口徑的統(tǒng)一等)、效果評(píng)估與業(yè)務(wù)應(yīng)用價(jià)值的閉環(huán)俏险。
附严拒,參考資料:
1、【干貨】基于知識(shí)圖譜的用戶理解竖独,https://zhuanlan.zhihu.com/p/54834467
2裤唠、[干貨](méi)如何構(gòu)建用戶畫像,http://www.woshipm.com/pmd/107919.html
3莹痢、干貨請(qǐng)收好:終于有人把用戶畫像的流程种蘸、方法講明白了,https://zhuanlan.zhihu.com/p/52756026
4竞膳、Spark機(jī)器學(xué)習(xí)進(jìn)階實(shí)戰(zhàn)航瞭,馬海平著。
5坦辟、用戶畫像-實(shí)戰(zhàn)案例刊侯,https://zhuanlan.zhihu.com/p/36395328
6、構(gòu)建用戶畫像中所用到的AI算法锉走,https://mp.weixin.qq.com/s/2cxhcz9k6N3cTslVRScVlA
7滨彻、網(wǎng)貸用戶畫像及不良率分析,https://zhuanlan.zhihu.com/p/153338705