干貨請(qǐng)收好:終于有人把用戶畫像的流程、方法講明白了

文章發(fā)布于公號(hào)【數(shù)智物語】?(ID:decision_engine)捺疼,關(guān)注公號(hào)不錯(cuò)過每一篇干貨疏虫。

作者:馬海平 于俊 呂昕 向海

來源:大數(shù)據(jù)(ID:hzdashuju)

本文摘編自《Spark機(jī)器學(xué)習(xí)進(jìn)階實(shí)戰(zhàn)》

導(dǎo)讀:用戶畫像將產(chǎn)品設(shè)計(jì)的焦點(diǎn)放在目標(biāo)用戶的動(dòng)機(jī)和行為上,從而避免產(chǎn)品設(shè)計(jì)人員草率地代表用戶帅涂。產(chǎn)品設(shè)計(jì)人員經(jīng)常不自覺的把自己當(dāng)作用戶代表议薪,根據(jù)自己的需求設(shè)計(jì)產(chǎn)品,導(dǎo)致無法抓住實(shí)際用戶的需求媳友。往往對(duì)產(chǎn)品做了很多功能的升級(jí)斯议,用戶卻覺得體驗(yàn)變差了。

在大數(shù)據(jù)領(lǐng)域醇锚,用戶畫像的作用遠(yuǎn)不止于此哼御。用戶的行為數(shù)據(jù)無法直接用于數(shù)據(jù)分析和模型訓(xùn)練,我們也無法從用戶的行為日志中直接獲取有用的信息焊唬。而將用戶的行為數(shù)據(jù)標(biāo)簽化以后恋昼,我們對(duì)用戶就有了一個(gè)直觀的認(rèn)識(shí)。

同時(shí)計(jì)算機(jī)也能夠理解用戶赶促,將用戶的行為信息用于個(gè)性化推薦液肌、個(gè)性化搜索、廣告精準(zhǔn)投放和智能營銷等領(lǐng)域鸥滨。

01 概述

用戶畫像的核心工作就是給用戶打標(biāo)簽嗦哆,標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識(shí),如年齡婿滓、性別老速、地域、興趣等凸主。這些標(biāo)簽集合就能抽象出一個(gè)用戶的信息全貌橘券,如圖10-1所示是某個(gè)用戶的標(biāo)簽集合,每個(gè)標(biāo)簽分別描述了該用戶的一個(gè)維度,各個(gè)維度之間相互聯(lián)系旁舰,共同構(gòu)成對(duì)用戶的一個(gè)整體描述锋华。

▲圖10-1 用戶標(biāo)簽集合

02 用戶畫像流程

1. 整體流程

我們對(duì)構(gòu)建用戶畫像的方法進(jìn)行總結(jié)歸納,發(fā)現(xiàn)用戶畫像的構(gòu)建一般可以分為目標(biāo)分析鬓梅、體系構(gòu)建供置、畫像建立三步谨湘。

畫像構(gòu)建中用到的技術(shù)有數(shù)據(jù)統(tǒng)計(jì)绽快、機(jī)器學(xué)習(xí)和自然語言處理技術(shù)(NLP)等,如圖10-2所示紧阔。具體的畫像構(gòu)建方法會(huì)在本章后面的部分詳細(xì)介紹坊罢。

▲圖10-2 用戶畫像的構(gòu)建技術(shù)

2. 標(biāo)簽體系

目前主流的標(biāo)簽體系都是層次化的,如下圖10-3所示擅耽。首先標(biāo)簽分為幾個(gè)大類活孩,每個(gè)大類下進(jìn)行逐層細(xì)分。在構(gòu)建標(biāo)簽時(shí)乖仇,我們只需要構(gòu)建最下層的標(biāo)簽憾儒,就能夠映射到上面兩級(jí)標(biāo)簽。

上層標(biāo)簽都是抽象的標(biāo)簽集合乃沙,一般沒有實(shí)用意義起趾,只有統(tǒng)計(jì)意義。例如我們可以統(tǒng)計(jì)有人口屬性標(biāo)簽的用戶比例警儒,但用戶有人口屬性標(biāo)簽本身對(duì)廣告投放沒有任何意義训裆。

▲圖10-3 互聯(lián)網(wǎng)大數(shù)據(jù)領(lǐng)域常用標(biāo)簽體系

用于廣告投放和精準(zhǔn)營銷的一般是底層標(biāo)簽,對(duì)于底層標(biāo)簽有兩個(gè)要求:一個(gè)是每個(gè)標(biāo)簽只能表示一種含義蜀铲,避免標(biāo)簽之間的重復(fù)和沖突边琉,便于計(jì)算機(jī)處理;另一個(gè)是標(biāo)簽必須有一定的語義记劝,方便相關(guān)人員理解每個(gè)標(biāo)簽的含義变姨。

此外,標(biāo)簽的粒度也是需要注意的厌丑,標(biāo)簽粒度太粗會(huì)沒有區(qū)分度定欧,粒度過細(xì)會(huì)導(dǎo)致標(biāo)簽體系太過復(fù)雜而不具有通用性。

表10-1列舉了各個(gè)大類常見的底層標(biāo)簽蹄衷。

標(biāo)簽類別標(biāo)簽內(nèi)容

人口標(biāo)簽性別忧额、年齡、地域愧口、教育水平睦番、出生日期、職業(yè)、星座

興趣特征興趣愛好托嚣、使用APP/網(wǎng)站巩检、瀏覽/收藏內(nèi)容、互動(dòng)內(nèi)容示启、品牌偏好兢哭、產(chǎn)品偏好

社會(huì)特征婚姻狀況、家庭情況夫嗓、社交/信息渠道偏好

消費(fèi)特征收入狀況迟螺、購買力水平、已購商品舍咖、購買渠道偏好矩父、最后購買時(shí)間、購買頻次

▲表10-1:常見標(biāo)簽

最后介紹一下各類標(biāo)簽構(gòu)建的優(yōu)先級(jí)排霉。構(gòu)建的優(yōu)先級(jí)需要綜合考慮業(yè)務(wù)需求窍株、構(gòu)建難易程度等,業(yè)務(wù)需求各有不同攻柠,這里介紹的優(yōu)先級(jí)排序方法主要依據(jù)構(gòu)建的難易程度和各類標(biāo)簽的依存關(guān)系球订,優(yōu)先級(jí)如圖10-4所示。

▲圖10-4 各類標(biāo)簽的構(gòu)建優(yōu)先級(jí)

基于原始數(shù)據(jù)首先構(gòu)建的是事實(shí)標(biāo)簽瑰钮,事實(shí)標(biāo)簽可以從數(shù)據(jù)庫直接獲让疤病(如注冊(cè)信息),或通過簡(jiǎn)單的統(tǒng)計(jì)得到飞涂。這類標(biāo)簽構(gòu)建難度低旦部、實(shí)際含義明確,且部分標(biāo)簽可用作后續(xù)標(biāo)簽挖掘的基礎(chǔ)特征(如產(chǎn)品購買次數(shù)可用來作為用戶購物偏好的輸入特征數(shù)據(jù))较店。

事實(shí)標(biāo)簽的構(gòu)造過程士八,也是對(duì)數(shù)據(jù)加深理解的過程。對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的同時(shí)梁呈,不僅完成了數(shù)據(jù)的處理與加工婚度,也對(duì)數(shù)據(jù)的分布有了一定的了解,為高級(jí)標(biāo)簽的構(gòu)造做好了準(zhǔn)備官卡。

模型標(biāo)簽是標(biāo)簽體系的核心蝗茁,也是用戶畫像工作量最大的部分,大多數(shù)用戶標(biāo)簽的核心都是模型標(biāo)簽寻咒。模型標(biāo)簽的構(gòu)造大多需要用到機(jī)器學(xué)習(xí)和自然語言處理技術(shù)哮翘,我們下文中介紹的標(biāo)簽構(gòu)造方法主要指的是模型標(biāo)簽,具體的構(gòu)造算法會(huì)在本文第03章詳細(xì)介紹毛秘。

最后構(gòu)造的是高級(jí)標(biāo)簽饭寺,高級(jí)標(biāo)簽是基于事實(shí)標(biāo)簽和模型標(biāo)簽進(jìn)行統(tǒng)計(jì)建模得出的阻课,它的構(gòu)造多與實(shí)際的業(yè)務(wù)指標(biāo)緊密聯(lián)系。只有完成基礎(chǔ)標(biāo)簽的構(gòu)建艰匙,才能夠構(gòu)造高級(jí)標(biāo)簽限煞。構(gòu)建高級(jí)標(biāo)簽使用的模型,可以是簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)员凝,也可以是復(fù)雜的機(jī)器學(xué)習(xí)模型署驻。

03 構(gòu)建用戶畫像

我們把標(biāo)簽分為三類,這三類標(biāo)簽有較大的差異健霹,構(gòu)建時(shí)用到的技術(shù)差別也很大旺上。

第一類是人口屬性,這一類標(biāo)簽比較穩(wěn)定骤公,一旦建立很長(zhǎng)一段時(shí)間基本不用更新抚官,標(biāo)簽體系也比較固定扬跋;

第二類是興趣屬性阶捆,這類標(biāo)簽隨時(shí)間變化很快,標(biāo)簽有很強(qiáng)的時(shí)效性钦听,標(biāo)簽體系也不固定洒试;

第三類是地理屬性,這一類標(biāo)簽的時(shí)效性跨度很大朴上,如GPS軌跡標(biāo)簽需要做到實(shí)時(shí)更新垒棋,而常住地標(biāo)簽一般可以幾個(gè)月不用更新,挖掘的方法和前面兩類也大有不同痪宰,如圖10-5所示叼架。

▲圖10-5 三類標(biāo)簽屬性

1. 人口屬性畫像

人口屬性包括年齡、性別衣撬、學(xué)歷乖订、人生階段、收入水平具练、消費(fèi)水平乍构、所屬行業(yè)等。這些標(biāo)簽基本是穩(wěn)定的扛点,構(gòu)建一次可以很長(zhǎng)一段時(shí)間不用更新哥遮,標(biāo)簽的有效期都在一個(gè)月以上。同時(shí)標(biāo)簽體系的劃分也比較固定陵究,表10-2是MMA中國無線營銷聯(lián)盟對(duì)人口屬性的一個(gè)劃分眠饮。

大部分主流的人口屬性標(biāo)簽都和這個(gè)體系比較類似,有些在分段上有一些區(qū)別铜邮。

性別男

未知

年齡12以下

12-17

18-19

20-24

25-29

30-34

35-39

40-44

45-49

50-54

55-59

60-64

65及以上

未知

月收入3500元以下

3500-5000元

5000-8000元

8000-12500元

12500-25000元

25001-40000

40000元以上

未知

婚姻狀態(tài)未婚

已婚

離異

未知

從事行業(yè)廣告/營銷/公關(guān)

航天

農(nóng)林化工

汽車

計(jì)算機(jī)/互聯(lián)網(wǎng)

建筑

教育/學(xué)生

能源/采礦

金融/保險(xiǎn)/房地產(chǎn)

政府/軍事/房地產(chǎn)

服務(wù)業(yè)

傳媒/出版/娛樂

醫(yī)療/保險(xiǎn)服務(wù)

制藥

零售

電信/網(wǎng)絡(luò)

旅游/交通

其它

教育程度初中及以下

高中

中專

大專

本科

碩士

博士

▲表10-2? 人口標(biāo)簽

很多產(chǎn)品(如QQ仪召、facebook等)都會(huì)引導(dǎo)用戶填寫基本信息,這些信息就包括年齡、性別返咱、收入等大多數(shù)的人口屬性钥庇,但完整填寫個(gè)人信息的用戶只占很少一部分。而對(duì)于無社交屬性的產(chǎn)品(如輸入法咖摹、團(tuán)購APP评姨、視頻網(wǎng)站等)用戶信息的填充率非常低,有的甚至不足5%萤晴。

在這種情況下吐句,我們一般會(huì)用填寫了信息的這部分用戶作為樣本,把用戶的行為數(shù)據(jù)作為特征訓(xùn)練模型店读,對(duì)無標(biāo)簽的用戶進(jìn)行人口屬性的預(yù)測(cè)嗦枢。這種模型把用戶的標(biāo)簽傳給和他行為相似的用戶,可以認(rèn)為是對(duì)人群進(jìn)行了標(biāo)簽擴(kuò)散屯断,因此常被稱為標(biāo)簽擴(kuò)散模型文虏。

下面我們用視頻網(wǎng)站性別年齡畫像的例子來說明標(biāo)簽擴(kuò)散模型是如何構(gòu)建的。

一個(gè)視頻網(wǎng)站殖演,希望了解自己的用戶組成氧秘,于是對(duì)用戶的性別進(jìn)行畫像。通過數(shù)據(jù)統(tǒng)計(jì)趴久,有大約30%的用戶注冊(cè)時(shí)填寫了個(gè)人信息丸相,我們將這30%的用戶作為訓(xùn)練集,來構(gòu)建全量用戶的性別畫像彼棍,我們的數(shù)據(jù)如表10-3所示灭忠。

UidGenderWatched ?videos

525252MaleGame ?of throat

532626Runing ?men、最強(qiáng)大腦

526267瑯琊榜座硕、偽裝者

573373Female歡樂喜劇人

▲表10-3:視頻網(wǎng)站用戶數(shù)據(jù)

下面我們來構(gòu)建特征弛作。通過分析,我們發(fā)現(xiàn)男性和女性坎吻,對(duì)于影片的偏好是有差別的缆蝉,因此使用觀看的影片列表來預(yù)測(cè)用戶性別有一定的可行性。此外我們還可以考慮用戶的觀看時(shí)間瘦真、瀏覽器刊头、觀看時(shí)長(zhǎng)等,為了簡(jiǎn)化诸尽,這里我們只使用用戶觀看的影片特征原杂。

由于觀看影片特征是稀疏特征,我們可以使用調(diào)用MLlib您机,使用LR穿肄、線性SVM等模型進(jìn)行訓(xùn)練年局。考慮到注冊(cè)用戶填寫的用戶信息本身的準(zhǔn)確率不高咸产,我們可以從30%的樣本集中提取準(zhǔn)確率較高的部分(如用戶信息填寫較完備的)用于訓(xùn)練矢否,因此我們整體的訓(xùn)練流程如圖10-6所示。

對(duì)于預(yù)測(cè)性別這樣的二分類模型脑溢,如果行為的區(qū)分度較好僵朗,一般準(zhǔn)確率和覆蓋率都可以達(dá)到70%左右。

▲圖10-6 訓(xùn)練流程

對(duì)于人口屬性標(biāo)簽屑彻,只要有一定的樣本標(biāo)簽數(shù)據(jù)验庙,并找到能夠區(qū)分標(biāo)簽分類的用戶行為特征,就可以構(gòu)建標(biāo)簽擴(kuò)散模型社牲。其中使用的技術(shù)方法主要是機(jī)器學(xué)習(xí)中的分類技術(shù)粪薛,常用的模型有LR、FM搏恤、SVM违寿、GBDT等。

2. 興趣畫像

興趣畫像是互聯(lián)網(wǎng)領(lǐng)域使用最廣泛的畫像挑社,互聯(lián)網(wǎng)廣告陨界、個(gè)性化推薦、精準(zhǔn)營銷等各個(gè)領(lǐng)域最核心的標(biāo)簽都是興趣標(biāo)簽痛阻。興趣畫像主要是從用戶海量行為日志中進(jìn)行核心信息的抽取、標(biāo)簽化和統(tǒng)計(jì)腮敌,因此在構(gòu)建用戶興趣畫像之前需要先對(duì)用戶有行為的內(nèi)容進(jìn)行內(nèi)容建模阱当。

內(nèi)容建模需要注意粒度,過細(xì)的粒度會(huì)導(dǎo)致標(biāo)簽沒有泛化能力和使用價(jià)值糜工,過粗的粒度會(huì)導(dǎo)致沒有區(qū)分度弊添。

為了保證興趣畫像既有一定的準(zhǔn)確度又有較好的泛化性,我們會(huì)構(gòu)建層次化的興趣標(biāo)簽體系捌木,使用中同時(shí)用幾個(gè)粒度的標(biāo)簽去匹配油坝,既保證了標(biāo)簽的準(zhǔn)確性,又保證了標(biāo)簽的泛化性刨裆。下面我們用新聞的用戶興趣畫像舉例澈圈,介紹如何構(gòu)建層次化的興趣標(biāo)簽。

2.1 內(nèi)容建模

新聞數(shù)據(jù)本身是非結(jié)構(gòu)化的帆啃,首先需要人工構(gòu)建一個(gè)層次的標(biāo)簽體系瞬女。我們考慮如下圖10-7的一篇新聞,看看哪些內(nèi)容可以表示用戶的興趣努潘。

▲圖10-7 新聞例子

首先诽偷,這是一篇體育新聞坤学,體育這個(gè)新聞分類可以表示用戶興趣,但是這個(gè)標(biāo)簽太粗了报慕,用戶可能只對(duì)足球感興趣深浮,體育這個(gè)標(biāo)簽就顯得不夠準(zhǔn)確。

其次眠冈,我們可以使用新聞中的關(guān)鍵詞略号,尤其是里面的專有名詞(人名、機(jī)構(gòu)名)洋闽,如“桑切斯”玄柠、“阿森納”、“厄齊爾”诫舅,這些詞也表示了用戶的興趣羽利。關(guān)鍵詞的主要問題在于粒度太細(xì),如果一天的新聞里沒有這些關(guān)鍵詞出現(xiàn)刊懈,就無法給用戶推薦內(nèi)容这弧。

最后,我們希望有一個(gè)中間粒度的標(biāo)簽虚汛,既有一定的準(zhǔn)確度匾浪,又有一定的泛化能力。于是我們嘗試對(duì)關(guān)鍵詞進(jìn)行聚類卷哩,把一類關(guān)鍵詞當(dāng)成一個(gè)標(biāo)簽蛋辈,或者把一個(gè)分類下的新聞進(jìn)行拆分,生成像“足球”這種粒度介于關(guān)鍵詞和分類之間的主題標(biāo)簽将谊。我們可以使用文本主題聚類完成主題標(biāo)簽的構(gòu)建冷溶。

至此我們就完成了對(duì)新聞內(nèi)容從粗到細(xì)的“分類-主題-關(guān)鍵詞”三層標(biāo)簽體系內(nèi)容建模,新聞的三層標(biāo)簽如表10-4所示尊浓。

分類主題關(guān)鍵詞

使用算法文本分類逞频、SVM、LR栋齿、BayesPLSA苗胀、LDATf*idf、專門識(shí)別瓦堵、領(lǐng)域詞表

粒度粗中細(xì)

泛化性好中差

舉例體育基协、財(cái)經(jīng)、娛樂足球谷丸、理財(cái)梅西堡掏、川普、機(jī)器學(xué)習(xí)

量級(jí)10-30100-1000百萬

▲表10-4? 三層標(biāo)簽體系

既然主題的準(zhǔn)確率和覆蓋率都不錯(cuò)刨疼,我們只使用主題不就可以了嘛泉唁?為什么還要構(gòu)建分類和關(guān)鍵詞這兩層標(biāo)簽?zāi)囟炝洌窟@么做是為了給用戶進(jìn)行盡可能精確和全面的內(nèi)容推薦碎浇。

當(dāng)用戶的關(guān)鍵詞命中新聞時(shí)歼捏,顯然能夠給用戶更準(zhǔn)確的推薦咕幻,這時(shí)就不需要再使用主題標(biāo)簽耻卡;而對(duì)于比較小眾的主題(如體育類的冰上運(yùn)動(dòng)主題),若當(dāng)天沒有新聞覆蓋咒彤,我們就可以根據(jù)分類標(biāo)簽進(jìn)行推薦寞射。層次標(biāo)簽兼顧了對(duì)用戶興趣刻畫的覆蓋率和準(zhǔn)確性供鸠。

2.2 興趣衰減

在完成內(nèi)容建模以后劲藐,我們就可以根據(jù)用戶點(diǎn)擊八堡,計(jì)算用戶對(duì)分類、主題聘芜、關(guān)鍵詞的興趣兄渺,得到用戶興趣標(biāo)簽的權(quán)重。最簡(jiǎn)單的計(jì)數(shù)方法是用戶點(diǎn)擊一篇新聞汰现,就把用戶對(duì)該篇新聞的所有標(biāo)簽在用戶興趣上加一挂谍,用戶對(duì)每個(gè)詞的興趣計(jì)算就使用如下的公式:

其中:詞在這次瀏覽的新聞中出現(xiàn)C=1,否則C=0瞎饲,weight表示詞在這篇新聞中的權(quán)重口叙。

這樣做有兩個(gè)問題:一個(gè)是用戶的興趣累加是線性的,數(shù)值會(huì)非常大嗅战,老的興趣權(quán)重會(huì)特別高妄田;另一個(gè)是用戶的興趣有很強(qiáng)的時(shí)效性,昨天的點(diǎn)擊要比一個(gè)月之前的點(diǎn)擊重要的多仗哨,線性疊加無法突出近期興趣形庭。

為了解決這個(gè)問題,需要要對(duì)用戶興趣得分進(jìn)行衰減厌漂,我們使用如下的方法對(duì)興趣得分進(jìn)行次數(shù)衰減和時(shí)間衰減。?

次數(shù)衰減的公式如下:

其中斟珊,α是衰減因子苇倡,每次都對(duì)上一次的分?jǐn)?shù)做衰減,最終得分會(huì)收斂到一個(gè)穩(wěn)定值 囤踩,α取0.9時(shí)旨椒,得分會(huì)無限接近10。

時(shí)間衰減的公式如下:

它表示根據(jù)時(shí)間對(duì)興趣進(jìn)行衰減堵漱,這樣做可以保證時(shí)間較早的興趣會(huì)在一段時(shí)間以后變的非常弱综慎,同時(shí)近期的興趣會(huì)有更大的權(quán)重。根據(jù)用戶興趣變化的速度勤庐、用戶活躍度等因素示惊,也可以對(duì)興趣進(jìn)行周級(jí)別好港、月級(jí)別或小時(shí)級(jí)別的衰減。

3. 地理位置畫像

地理位置畫像一般分為兩部分:一部分是常駐地畫像米罚;一部分是GPS畫像钧汹。兩類畫像的差別很大,常駐地畫像比較容易構(gòu)造录择,且標(biāo)簽比較穩(wěn)定拔莱,GPS畫像需要實(shí)時(shí)更新。

常駐地包括國家隘竭、省份塘秦、城市三級(jí),一般只細(xì)化到城市粒度动看。常駐地的挖掘基于用戶的IP地址信息尊剔,對(duì)用戶的IP地址進(jìn)行解析,對(duì)應(yīng)到相應(yīng)的城市弧圆,對(duì)用戶IP出現(xiàn)的城市進(jìn)行統(tǒng)計(jì)就可以得到常駐城市標(biāo)簽赋兵。

用戶的常駐城市標(biāo)簽,不僅可以用來統(tǒng)計(jì)各個(gè)地域的用戶分布搔预,還可以根據(jù)用戶在各個(gè)城市之間的出行軌跡識(shí)別出差人群霹期、旅游人群等,如圖10-8所示是人群出行軌跡的一個(gè)示例拯田。

▲圖10-8 人群出行軌跡

GPS數(shù)據(jù)一般從手機(jī)端收集历造,但很多手機(jī)APP沒有獲取用戶 GPS信息的權(quán)限。能夠獲取用戶GPS信息的主要是百度地圖船庇、滴滴打車等出行導(dǎo)航類APP吭产,此外收集到的用戶GPS數(shù)據(jù)比較稀疏。

百度地圖使用該方法結(jié)合時(shí)間段數(shù)據(jù)鸭轮,構(gòu)建了用戶公司和家的GPS標(biāo)簽臣淤。此外百度地圖還基于GPS信息,統(tǒng)計(jì)各條路上的車流量窃爷,進(jìn)行路況分析邑蒋,如圖10-9是北京市的實(shí)時(shí)路況圖,紅色表示擁堵線路按厘。

▲圖10-9 北京的實(shí)時(shí)路況圖

04 用戶畫像評(píng)估和使用

人口屬性畫像的相關(guān)指標(biāo)比較容易評(píng)估医吊,而興趣畫像的標(biāo)簽比較模糊,興趣畫像的人為評(píng)估比較困難逮京,我們對(duì)于興趣畫像的常用評(píng)估方法是設(shè)計(jì)小流量的A/B-test進(jìn)行驗(yàn)證卿堂。

我們可以篩選一部分標(biāo)簽用戶,給這部分用戶進(jìn)行和標(biāo)簽相關(guān)的推送懒棉,看標(biāo)簽用戶對(duì)相關(guān)內(nèi)容是否有更好的反饋草描。

例如览绿,在新聞推薦中,我們給用戶構(gòu)建了興趣畫像陶珠,我們從體育類興趣用戶中選取一小批用戶挟裂,給他們推送體育類新聞,如果這批用戶的點(diǎn)擊率和閱讀時(shí)長(zhǎng)明顯高于平均水平揍诽,就說明標(biāo)簽是有效的诀蓉。

1. 效果評(píng)估

用戶畫像效果最直接的評(píng)估方法就是看其對(duì)實(shí)際業(yè)務(wù)的提升,如互聯(lián)網(wǎng)廣告投放中畫像效果主要看使用畫像以后點(diǎn)擊率和收入的提升暑脆,精準(zhǔn)營銷過程中主要看使用畫像后銷量的提升等渠啤。

但是如果把一個(gè)沒有經(jīng)過效果評(píng)估的模型直接用到線上,風(fēng)險(xiǎn)是很大的添吗,因此我們需要一些上線前可計(jì)算的指標(biāo)來衡量用戶畫像的質(zhì)量沥曹。

用戶畫像的評(píng)估指標(biāo)主要是指準(zhǔn)確率、覆蓋率碟联、時(shí)效性等指標(biāo)妓美。

1.1 準(zhǔn)確率

標(biāo)簽的準(zhǔn)確率指的是被打上正確標(biāo)簽的用戶比例,準(zhǔn)確率是用戶畫像最核心的指標(biāo)鲤孵,一個(gè)準(zhǔn)確率非常低的標(biāo)簽是沒有應(yīng)用價(jià)值的壶栋。準(zhǔn)確率的計(jì)算公式如下:

其中|?Utag |表示被打上標(biāo)簽的用戶數(shù),|?Utag=true |表示有標(biāo)簽用戶中被打?qū)?biāo)簽的用戶數(shù)普监。準(zhǔn)確率的評(píng)估一般有兩種方法:一種是在標(biāo)注數(shù)據(jù)集里留一部分測(cè)試數(shù)據(jù)用于計(jì)算模型的準(zhǔn)確率贵试;另一種是在全量用戶中抽一批用戶,進(jìn)行人工標(biāo)注凯正,評(píng)估準(zhǔn)確率毙玻。

由于初始的標(biāo)注數(shù)據(jù)集的分布和全量用戶分布相比可能有一定偏差,故后一種方法的數(shù)據(jù)更可信廊散。準(zhǔn)確率一般是對(duì)每個(gè)標(biāo)簽分別評(píng)估桑滩,多個(gè)標(biāo)簽放在一起評(píng)估準(zhǔn)確率是沒有意義的。

1.2 覆蓋率

標(biāo)簽的覆蓋率指的是被打上標(biāo)簽的用戶占全量用戶的比例允睹,我們希望標(biāo)簽的覆蓋率盡可能的高施符。但覆蓋率和準(zhǔn)確率是一對(duì)矛盾的指標(biāo),需要對(duì)二者進(jìn)行權(quán)衡擂找,一般的做法是在準(zhǔn)確率符合一定標(biāo)準(zhǔn)的情況下,盡可能的提升覆蓋率浩销。

我們希望覆蓋盡可能多的用戶贯涎,同時(shí)給每個(gè)用戶打上盡可能多的標(biāo)簽,因此標(biāo)簽整體的覆蓋率一般拆解為兩個(gè)指標(biāo)來評(píng)估慢洋。一個(gè)是標(biāo)簽覆蓋的用戶比例塘雳,另一個(gè)是覆蓋用戶的人均標(biāo)簽數(shù)陆盘,前一個(gè)指標(biāo)是覆蓋的廣度,后一個(gè)指標(biāo)表示覆蓋的密度败明。

用戶覆蓋比例的計(jì)算方法是:

其中| U |表示用戶的總數(shù)隘马,|?Utag?|表示被打上標(biāo)簽的用戶數(shù)。

人均標(biāo)簽數(shù)的計(jì)算方法是:

其中|?tagi?|表示每個(gè)用戶的標(biāo)簽數(shù)妻顶,|?Utag?|表示被打上標(biāo)簽的用戶數(shù)酸员。覆蓋率既可以對(duì)單一標(biāo)簽計(jì)算,也可以對(duì)某一類標(biāo)簽計(jì)算讳嘱,還可以對(duì)全量標(biāo)簽計(jì)算幔嗦,這些都是有統(tǒng)計(jì)意義的。

1.3 時(shí)效性

有些標(biāo)簽的時(shí)效性很強(qiáng)沥潭,如興趣標(biāo)簽邀泉、出現(xiàn)軌跡標(biāo)簽等,一周之前的就沒有意義了钝鸽;有些標(biāo)簽基本沒有時(shí)效性汇恤,如性別、年齡等拔恰,可以有一年到幾年的有效期因谎。對(duì)于不同的標(biāo)簽,需要建立合理的更新機(jī)制仁连,以保證標(biāo)簽時(shí)間上的有效性蓝角。

1.4 其他指標(biāo)

標(biāo)簽還需要有一定的可解釋性,便于理解饭冬;同時(shí)需要便于維護(hù)且有一定的可擴(kuò)展性使鹅,方便后續(xù)標(biāo)簽的添加。這些指標(biāo)難以給出量化的標(biāo)準(zhǔn)昌抠,但在構(gòu)架用戶畫像時(shí)也需要注意患朱。

2. 畫像使用

用戶畫像在構(gòu)建和評(píng)估之后,就可以在業(yè)務(wù)中應(yīng)用炊苫,一般需要一個(gè)可視化平臺(tái)裁厅,對(duì)標(biāo)簽進(jìn)行查看和檢索。畫像的可視化一般使用餅圖侨艾、柱狀圖等對(duì)標(biāo)簽的覆蓋人數(shù)执虹、覆蓋比例等指標(biāo)做形象的展示,如下圖10-10所示是用戶畫像的一個(gè)可視化界面唠梨。

▲圖10-10 用戶畫像的可視化界面

此外袋励,對(duì)于構(gòu)建的畫像,我們還可以使用不同維度的標(biāo)簽,進(jìn)行高級(jí)的組合分析茬故,產(chǎn)出高質(zhì)量的分析報(bào)告盖灸。在智能營銷、計(jì)算廣告磺芭、個(gè)性化推薦等領(lǐng)域用戶畫像都可以得到應(yīng)用赁炎,具體的應(yīng)用方法,與其應(yīng)用領(lǐng)域結(jié)合比較緊密钾腺,我們不再詳細(xì)介紹徙垫。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市垮庐,隨后出現(xiàn)的幾起案子松邪,更是在濱河造成了極大的恐慌,老刑警劉巖哨查,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件逗抑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡寒亥,警方通過查閱死者的電腦和手機(jī)邮府,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來溉奕,“玉大人褂傀,你說我怎么就攤上這事〖忧冢” “怎么了仙辟?”我有些...
    開封第一講書人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)鳄梅。 經(jīng)常有香客問我叠国,道長(zhǎng),這世上最難降的妖魔是什么戴尸? 我笑而不...
    開封第一講書人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任粟焊,我火速辦了婚禮,結(jié)果婚禮上孙蒙,老公的妹妹穿的比我還像新娘项棠。我一直安慰自己,他們只是感情好挎峦,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開白布香追。 她就那樣靜靜地躺著,像睡著了一般坦胶。 火紅的嫁衣襯著肌膚如雪翅阵。 梳的紋絲不亂的頭發(fā)上歪玲,一...
    開封第一講書人閱讀 51,155評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音掷匠,去河邊找鬼。 笑死岖圈,一個(gè)胖子當(dāng)著我的面吹牛讹语,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蜂科,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼顽决,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了导匣?” 一聲冷哼從身側(cè)響起才菠,我...
    開封第一講書人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贡定,沒想到半個(gè)月后赋访,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡缓待,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年蚓耽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片旋炒。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡步悠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出瘫镇,到底是詐尸還是另有隱情鼎兽,我是刑警寧澤,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布铣除,位于F島的核電站谚咬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏通孽。R本人自食惡果不足惜序宦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望背苦。 院中可真熱鬧互捌,春花似錦、人聲如沸行剂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厚宰。三九已至腌巾,卻和暖如春遂填,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背澈蝙。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來泰國打工吓坚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人灯荧。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓礁击,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親逗载。 傳聞我的和親對(duì)象是個(gè)殘疾皇子哆窿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 在本文中我會(huì)嘗試如何從0數(shù)據(jù)開始到獲取百萬頁面,進(jìn)行用戶數(shù)據(jù)分析厉斟、建模挚躯,再數(shù)據(jù)信息化、可視化擦秽,生成用戶畫像分析用戶...
    hirainchen閱讀 25,304評(píng)論 121 690
  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 31,928評(píng)論 2 89
  • 用戶畫像是一個(gè)挺新穎的詞号涯,最初它是大數(shù)據(jù)行業(yè)言必及之的時(shí)髦概念∧亢現(xiàn)在我們運(yùn)營談及用戶畫像,它也是和精準(zhǔn)營銷链快、精細(xì)化...
    言射手閱讀 2,786評(píng)論 0 29
  • 2018年10月27日 是非常令人難忘的一天007戰(zhàn)友在廈門要見面啦誉己!哈哈凌晨4:30就雞凍的起床了,平常都...
    阿木土土閱讀 356評(píng)論 2 6
  • 陸黛做了一個(gè)夢(mèng)域蜗,夢(mèng)中她躺在軟綿綿的云朵上晃晃悠悠地看著藍(lán)天巨双,一會(huì)兒飄到這里,一會(huì)兒飄到那里霉祸,她只覺得很安心筑累,很舒服...
    元詡閱讀 302評(píng)論 0 1