一颖御、什么是用戶畫像?
男,31歲潘拱,已婚,收入1萬以上拧略,愛美食芦岂,團購達人蔓榄,喜歡紅酒配香煙忘朝。
這樣一串描述即為用戶畫像的典型案例。如果用一句話來描述毛嫉,即:用戶信息標簽化袱饭。
如果用一幅圖來展現(xiàn)川无,即:
二、為什么需要用戶畫像
用戶畫像的核心工作是為用戶打標簽虑乖,打標簽的重要目的之一是為了讓人能夠理解并且方便計算機處理懦趋,如,可以做分類統(tǒng)計:喜歡紅酒的用戶有多少疹味?喜歡紅酒的人群中仅叫,男、女比例是多少糙捺?
也可以做數(shù)據(jù)挖掘工作:利用關(guān)聯(lián)規(guī)則計算诫咱,喜歡紅酒的人通常喜歡什么運動品牌?利用聚類算法分析洪灯,喜歡紅酒的人年齡段分布情況坎缭?
大數(shù)據(jù)處理,離不開計算機的運算签钩,標簽提供了一種便捷的方式掏呼,使得計算機能夠程序化處理與人相關(guān)的信息,甚至通過算法边臼、模型能夠“理解” 人哄尔。當(dāng)計算機具備這樣的能力后,無論是搜索引擎柠并、推薦引擎岭接、廣告投放等各種應(yīng)用領(lǐng)域,都將能進一步提升精準度臼予,提高信息獲取的效率鸣戴。
**三、如何構(gòu)建用戶畫像 **
一個標簽通常是人為規(guī)定的高度精煉的特征標識粘拾,如年齡段標簽:25~35歲窄锅,地域標簽:北京,標簽呈現(xiàn)出兩個重要特征:語義化缰雇,人能很方便地理解每個標簽含義入偷。這也使得用戶畫像模型具備實際意義追驴。能夠較好的滿足業(yè)務(wù)需求。如疏之,判斷用戶偏好殿雪。短文本,每個標簽通常只表示一種含義锋爪,標簽本身無需再做過多文本分析等預(yù)處理工作丙曙,這為利用機器提取標準化信息提供了便利。
人制定標簽規(guī)則其骄,并能夠通過標簽快速讀出其中的信息亏镰,機器方便做標簽提取、聚合分析拯爽。所以索抓,用戶畫像,即:用戶標簽某抓,向我們展示了一種樸素纸兔、簡潔的方法用于描述用戶信息。
3.1 數(shù)據(jù)源分析
構(gòu)建用戶畫像是為了還原用戶信息否副,因此數(shù)據(jù)來源于:所有用戶相關(guān)的數(shù)據(jù)汉矿。
對于用戶相關(guān)數(shù)據(jù)的分類,引入一種重要的分類思想:封閉性的分類方式备禀。如洲拇,世界上分為兩種人,一種是學(xué)英語的人曲尸,一種是不學(xué)英語的人赋续;客戶分三類,高價值客戶另患,中價值客戶纽乱,低價值客戶;產(chǎn)品生命周期分為昆箕,投入期鸦列、成長期、成熟期鹏倘、衰退期…所有的子分類將構(gòu)成了類目空間的全部集合薯嗤。
這樣的分類方式,有助于后續(xù)不斷枚舉并迭代補充遺漏的信息維度纤泵。不必擔(dān)心架構(gòu)上對每一層分類沒有考慮完整骆姐,造成維度遺漏留下擴展性隱患。另外,不同的分類方式根據(jù)應(yīng)用場景玻褪,業(yè)務(wù)需求的不同肉渴,也許各有道理,按需劃分即可归园。
本文將用戶數(shù)據(jù)劃分為靜態(tài)信息數(shù)據(jù)黄虱、動態(tài)信息數(shù)據(jù)兩大類。
靜態(tài)信息數(shù)據(jù)
用戶相對穩(wěn)定的信息庸诱,如圖所示,主要包括人口屬性晤揣、商業(yè)屬性等方面數(shù)據(jù)桥爽。這類信息,自成標簽昧识,如果企業(yè)有真實信息則無需過多建模預(yù)測钠四,更多的是數(shù)據(jù)清洗工作,因此這方面信息的數(shù)據(jù)建模不是本篇文章重點跪楞。
動態(tài)信息數(shù)據(jù)
用戶不斷變化的行為信息缀去,如果存在上帝,每一個人的行為都在時刻被上帝那雙無形的眼睛監(jiān)控著甸祭,廣義上講缕碎,一個用戶打開網(wǎng)頁,買了一個杯子池户;與該用戶傍晚溜了趟狗咏雌,白天取了一次錢,打了一個哈欠等等一樣都是上帝眼中的用戶行為校焦。當(dāng)行為集中到互聯(lián)網(wǎng)赊抖,乃至電商,用戶行為就會聚焦很多寨典,如上圖所示:瀏覽凡客首頁氛雪、瀏覽休閑鞋單品頁、搜索帆布鞋耸成、發(fā)表關(guān)于鞋品質(zhì)的微博报亩、贊“雙十一大促給力”的微博消息。等等均可看作互聯(lián)網(wǎng)用戶行為墓猎。
本篇文章以互聯(lián)網(wǎng)電商用戶捆昏,為主要分析對象,暫不考慮線下用戶行為數(shù)據(jù)(分析方法雷同毙沾,只是數(shù)據(jù)獲取途徑骗卜,用戶識別方式有些差異)。
在互聯(lián)網(wǎng)上,用戶行為寇仓,可以看作用戶動態(tài)信息的唯一數(shù)據(jù)來源举户。如何對用戶行為數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,分析出用戶標簽遍烦,將是本文著重介紹的內(nèi)容俭嘁。
3.2 目標分析
用戶畫像的目標是通過分析用戶行為,最終為每個用戶打上標簽服猪,以及該標簽的權(quán)重供填。如,紅酒 0.8罢猪、李寧 0.6近她。
標簽,表征了內(nèi)容膳帕,用戶對該內(nèi)容有興趣粘捎、偏好、需求等等危彩。
權(quán)重攒磨,表征了指數(shù),用戶的興趣汤徽、偏好指數(shù)娩缰,也可能表征用戶的需求度,可以簡單的理解為可信度泻骤,概率漆羔。
3.3 數(shù)據(jù)建模方法
下面內(nèi)容將詳細介紹,如何根據(jù)用戶行為狱掂,構(gòu)建模型產(chǎn)出標簽演痒、權(quán)重。一個事件模型包括:時間趋惨、地點鸟顺、人物三個要素。每一次用戶行為本質(zhì)上是一次隨機事件器虾,可以詳細描述為:什么用戶讯嫂,在什么時間,什么地點兆沙,做了什么事欧芽。
什么用戶 :關(guān)鍵在于對用戶的標識,用戶標識的目的是為了區(qū)分用戶葛圃、單點定位千扔。
以上列舉了互聯(lián)網(wǎng)主要的用戶標識方法憎妙,獲取方式由易到難。視企業(yè)的用戶粘性曲楚,可以獲取的標識信息有所差異厘唾。
什么時間 :時間包括兩個重要信息,時間戳+時間長度龙誊。時間戳抚垃,為了標識用戶行為的時間點,如趟大,1395121950(精度到秒)鹤树,1395121950.083612(精度到微秒),通常采用精度到秒的時間戳即可逊朽。因為微秒的時間戳精度并不可靠魂迄。瀏覽器時間精度,準確度最多也只能到毫秒惋耙。時間長度,為了標識用戶在某一頁面的停留時間熊昌。
什么地點 :用戶接觸點绽榛,Touch Point。對于每個用戶接觸點婿屹。潛在包含了兩層信息:網(wǎng)址 + 內(nèi)容灭美。網(wǎng)址:每一個url鏈接(頁面/屏幕),即定位了一個互聯(lián)網(wǎng)頁面地址昂利,或者某個產(chǎn)品的特定頁面届腐。可以是PC上某電商網(wǎng)站的頁面url蜂奸,也可以是手機上的微博犁苏,微信等應(yīng)用某個功能頁面,某款產(chǎn)品應(yīng)用的特定畫面扩所。如围详,長城紅酒單品頁,微信訂閱號頁面祖屏,某游戲的過關(guān)頁助赞。
內(nèi)容 :每個url網(wǎng)址(頁面/屏幕)中的內(nèi)容≡祝可以是單品的相關(guān)信息:類別雹食、品牌、描述期丰、屬性群叶、網(wǎng)站信息等等吃挑。如,紅酒盖呼,長城儒鹿,干紅,對于每個互聯(lián)網(wǎng)接觸點几晤,其中網(wǎng)址決定了權(quán)重约炎;內(nèi)容決定了標簽。
注:接觸點可以是網(wǎng)址蟹瘾,也可以是某個產(chǎn)品的特定功能界面圾浅。如,同樣一瓶礦泉水憾朴,超市賣1元狸捕,火車上賣3元,景區(qū)賣5元众雷。商品的售賣價值灸拍,不在于成本,更在于售賣地點砾省。標簽均是礦泉水鸡岗,但接觸點的不同體現(xiàn)出了權(quán)重差異。這里的權(quán)重可以理解為用戶對于礦泉水的需求程度不同编兄。即轩性,愿意支付的價值不同。
標簽 權(quán)重
礦泉水 1 // 超市
礦泉水 3 // 火車
礦泉水 5 // 景區(qū)
類似的狠鸳,用戶在京東商城瀏覽紅酒信息揣苏,與在品尚紅酒網(wǎng)瀏覽紅酒信息,表現(xiàn)出對紅酒喜好度也是有差異的件舵。這里的關(guān)注點是不同的網(wǎng)址卸察,存在權(quán)重差異,權(quán)重模型的構(gòu)建芦圾,需要根據(jù)各自的業(yè)務(wù)需求構(gòu)建蛾派。
所以,網(wǎng)址本身表征了用戶的標簽偏好權(quán)重个少。網(wǎng)址對應(yīng)的內(nèi)容體現(xiàn)了標簽信息洪乍。
什么事 :用戶行為類型,對于電商有如下典型行為:瀏覽夜焦、添加購物車壳澳、搜索、評論茫经、購買巷波、點擊贊萎津、收藏 等等。
不同的行為類型抹镊,對于接觸點的內(nèi)容產(chǎn)生的標簽信息锉屈,具有不同的權(quán)重。如垮耳,購買權(quán)重計為5颈渊,瀏覽計為1
紅酒 1 // 瀏覽紅酒
紅酒 5 // 購買紅酒
綜合上述分析,用戶畫像的數(shù)據(jù)模型终佛,可以概括為下面的公式:用戶標識 + 時間 + 行為類型 + 接觸點(網(wǎng)址+內(nèi)容)俊嗽,某用戶因為在什么時間、地點铃彰、做了什么事绍豁。所以會打上**標簽。
用戶標簽的權(quán)重可能隨時間的增加而衰減牙捉,因此定義時間為衰減因子r竹揍,行為類型、網(wǎng)址決定了權(quán)重邪铲,內(nèi)容決定了標簽鬼佣,進一步轉(zhuǎn)換為公式:
標簽權(quán)重=衰減因子×行為權(quán)重×網(wǎng)址子權(quán)重
如:用戶A,昨天在品尚紅酒網(wǎng)瀏覽一瓶價值238元的長城干紅葡萄酒信息霜浴。
標簽:紅酒,長城
時間:因為是昨天的行為蓝纲,假設(shè)衰減因子為:r=0.95
行為類型:瀏覽行為記為權(quán)重1
地點:品尚紅酒單品頁的網(wǎng)址子權(quán)重記為 0.9(相比京東紅酒單品頁的0.7)
假設(shè)用戶對紅酒出于真的喜歡阴孟,才會去專業(yè)的紅酒網(wǎng)選購,而不再綜合商城選購税迷。
則用戶偏好標簽是:紅酒永丝,權(quán)重是0.95*0.7 * 1=0.665,即箭养,用戶A:紅酒 0.665慕嚷、長城 0.665。
上述模型權(quán)重值的選取只是舉例參考毕泌,具體的權(quán)重值需要根據(jù)業(yè)務(wù)需求二次建模喝检,這里強調(diào)的是如何從整體思考,去構(gòu)建用戶畫像模型撼泛,進而能夠逐步細化模型挠说。
四、總結(jié) :
本文并未涉及具體算法愿题,更多的是闡述了一種分析思想损俭,在計劃構(gòu)建用戶畫像時蛙奖,能夠給您提供一個系統(tǒng)性、框架性的思維指導(dǎo)杆兵。
核心在于對用戶接觸點的理解雁仲,接觸點內(nèi)容直接決定了標簽信息。內(nèi)容地址琐脏、行為類型攒砖、時間衰減,決定了權(quán)重模型是關(guān)鍵骆膝,權(quán)重值本身的二次建模則是水到渠成的進階祭衩。模型舉例偏重電商,但其實阅签,可以根據(jù)產(chǎn)品的不同掐暮,重新定義接觸點。
比如影視產(chǎn)品政钟,我看了一部電影《英雄本色》路克,可能產(chǎn)生的標簽是:周潤發(fā) 0.6、槍戰(zhàn) 0.5养交、港臺 0.3精算。
最后,接觸點本身并不一定有內(nèi)容碎连,也可以泛化理解為某種閾值灰羽,某個行為超過多少次,達到多長時間等鱼辙。
比如游戲產(chǎn)品廉嚼,典型接觸點可能會是倒戏,關(guān)鍵任務(wù)杜跷,關(guān)鍵指數(shù)(分數(shù))等等葛闷。如淑趾,積分超過1萬分驳概,則標記為鉆石級用戶顺又。鉆石用戶 1.0蹂空。
大數(shù)據(jù)時代下的用戶洞察
大數(shù)據(jù)是物理世界在網(wǎng)絡(luò)世界的映射果录,是一場人類空前的網(wǎng)絡(luò)畫像運動弱恒。網(wǎng)絡(luò)世界與物理世界不是孤立的返弹,網(wǎng)絡(luò)世界是物理世界層次的反映义起。數(shù)據(jù)是無縫連接網(wǎng)絡(luò)世界與物理世界的DNA。發(fā)現(xiàn)數(shù)據(jù)DNA、重組數(shù)據(jù)DNA是人類不斷認識土陪、探索顷窒、實踐大數(shù)據(jù)的持續(xù)過程鞋吉。
網(wǎng)絡(luò)畫像分為行為畫像、健康畫像治筒、企業(yè)信用畫像耸袜、個人信用畫像友多、靜態(tài)產(chǎn)品畫像堤框、旋轉(zhuǎn)設(shè)備畫像、社會畫像和經(jīng)濟畫像等八類蜈抓。
未來启绰,人生的每個歷程無時無刻不由數(shù)據(jù)驅(qū)動沟使。
未來委可,設(shè)備全生命周期也將由數(shù)據(jù)驅(qū)動格带。
四大引擎
場景引擎:個性化的核心叽唱,判斷用戶處于哪個購物環(huán)節(jié)虎眨,有什么樣的購物目標镶摘;
規(guī)則引擎:業(yè)務(wù)的核心碌冶,結(jié)合用戶、場景涝缝、算法輸出數(shù)據(jù)和業(yè)務(wù)KPI扑庞,決定為用戶推薦哪些內(nèi)容;
算法引擎:計算用戶之間的相似度拒逮、商品之間的相似度罐氨、用戶對商品的評分、用戶分群滩援、熱門排行……
展示引擎:將推薦內(nèi)容以最佳的展示方式呈現(xiàn)在用戶面前栅隐。
推薦引擎的核心是將購物流程數(shù)據(jù)化,而其前提是將用戶數(shù)據(jù)化。如何將用戶數(shù)據(jù)化呢租悄?就是用戶畫像谨究。
用戶畫像的目標、方式恰矩、組織记盒、標準和驗證等幾個特點。
用戶側(cè)寫可能更加準確的描述“用戶畫像”這個詞外傅,因為我們是通過有限的信息來描述一個人纪吮,而非通過全息相機照相的模式來描述一個人。
從技術(shù)角度來看萎胰,人在網(wǎng)絡(luò)空間是一個比特流碾盟,人們認識人的方式發(fā)生重大改變,由物理空間的“相面”轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)空間比特流解析技竟,更重要的是教會機器按照人類交給他的規(guī)則從這些比特流進行自動識別冰肴。能夠從千萬計的用戶中找出金融詐騙者、恐怖分子等榔组。
如何實現(xiàn)這一過程熙尉?這就需要一種類似成像技術(shù)中的像素來對人的特征進行刻畫,這就是畫像中的標簽搓扯。
大數(shù)據(jù)用戶畫像其實就是對現(xiàn)實用戶做的一個數(shù)學(xué)模型检痰,在整個數(shù)學(xué)模型中,其核心是锨推,怎么描述業(yè)務(wù)知識體系铅歼,而這個業(yè)務(wù)知識體系就是本體論,本體論很復(fù)雜换可,我們找到了一個特別樸素的實現(xiàn)椎椰,就是標簽。建好模型以后沾鳄,要在業(yè)務(wù)的實踐中去檢驗慨飘,并且不斷完善,不斷豐富這個模型译荞,來達到利用比特流對人越來越精確的理解瓤的。用戶畫像不是一個數(shù)學(xué)游戲,不是一個技術(shù)問題磁椒,實際上是一個業(yè)務(wù)問題。因為最核心的是你去如何理解用戶玫芦,了解你的用戶浆熔。它是技術(shù)與業(yè)務(wù)最佳的結(jié)合點,也是一個現(xiàn)實跟數(shù)據(jù)的最佳實踐。
基于個人可以知道他所在的城市是在北京医增,男性慎皱,公司在百分點,喜歡的品類是男鞋叶骨、運動鞋茫多,喜歡的品牌有耐克、阿迪達斯等等忽刽。每一個標簽都有一個權(quán)重值天揖。可以看到跪帝,耐克的權(quán)重值比阿迪達斯更高一些今膊。
這幅圖是通過云圖的方式對百分點創(chuàng)始人/董事長兼CEO蘇萌進行的特征畫像。
以手機商品屬性為例,包括品牌抒倚、品類褐着、型號、上市時間衡便、價格献起、顏色、網(wǎng)絡(luò)镣陕、操作系統(tǒng)谴餐、分辨率、屏幕尺寸等等呆抑。
標簽管理體系具有如下特性岂嗓。
有多種標識方式對用戶進行識別,這就像社會生活中的身份證號碼一樣鹊碍,只不過換成了網(wǎng)絡(luò)空間的手機號厌殉、Cookie、IMEI侈咕、Email公罕、微博、微信賬號等耀销,在處理過程中楼眷,這些信息都是加密的,機器知道但人不知道。
百分點用戶畫像邏輯架構(gòu)如下圖所示罐柳,通過對電商掌腰、社區(qū)、移動應(yīng)用张吉、微博齿梁、微信等多種類別的數(shù)據(jù)源進行采集,然后對用戶進行畫像肮蛹,最終在個性化推薦勺择、用戶洞察、精準營銷等方面進行應(yīng)用蔗崎。百分點的數(shù)據(jù)源多且龐大酵幕,服務(wù)的客戶超過了1500多家,覆蓋行業(yè)超過了40多個缓苛。舉例來說芳撒,一個網(wǎng)民,他在訪問一個電商A未桥,同時又訪問了一個電商B笔刹,這兩個電商本身的知識體系是不一樣的。比如說這個用戶他訪問一雙鞋冬耿,他在電商A上的品類可能是鞋-男鞋-運動鞋舌菜,在網(wǎng)站B上可能是運動-戶外-男鞋,品類描述可能是不一樣的亦镶。所以百分點打造了這么一個系統(tǒng)日月,叫商品畫像系統(tǒng)。通過這個系統(tǒng)缤骨,所有的標簽就有了一個標簽規(guī)劃爱咬,之后就可以去構(gòu)建這個用戶在全網(wǎng)的用戶畫像標簽。用戶畫像只是一個起點绊起,而不是一個結(jié)束精拟。基于此虱歪,還可以打造一系列的服務(wù)蜂绎,比如精準營銷、個性化推薦等笋鄙。
下圖是用戶畫像的技術(shù)架構(gòu)圖师枣。
我們可以看到總共分為五層:
第一是數(shù)據(jù)源;
第二層是數(shù)據(jù)采集服務(wù)萧落,百分點有一堆數(shù)據(jù)采集服務(wù)践美,包括我們的數(shù)據(jù)探頭劳殖,能夠?qū)τ脩舻男袨檫M行一個實時采集;
第三層是數(shù)據(jù)預(yù)處理拨脉,主要是結(jié)構(gòu)化;
第四層是商品畫像宣增,這一塊都是我們的用戶畫像服務(wù)玫膀。我們可以看到用戶畫像是分兩大塊,實時處理更偏重于預(yù)測用戶畫像的需求爹脾,離線處理更偏重于用戶的長期偏好帖旨;
第五是統(tǒng)一的數(shù)據(jù)接口,還有就是集群灵妨,上面可以接入各種各樣的應(yīng)用解阅。
下圖是用戶標簽產(chǎn)出流程示例。
用戶在互聯(lián)網(wǎng)上的行為主要分為電商類泌霍、社交類和媒體類货抄。每種行為差異很大,電商類行為包括瀏覽朱转、搜索蟹地、添加購物車、收藏藤为、支付等怪与,而社交類則是點贊、轉(zhuǎn)發(fā)缅疟、評論等分别。
接著下一步需要對頁面標簽進行抽取,在做這件事情之前需要訓(xùn)練模型存淫,首先準備訓(xùn)練數(shù)據(jù)耘斩,通過標注和規(guī)則生成,再就是對于序列集做一個序列化處理纫雁。首先會得到一個弱模型煌往,最終得到一個強模型,然后把自己的參數(shù)都保留下來轧邪。這個時候我們會加一個決策刽脖,如果說效果不太好的話,我們會進行下一輪的優(yōu)化忌愚。當(dāng)這個模型設(shè)置之后曲管,我們就可以去做預(yù)測了。我們的預(yù)測總共分為四大塊硕糊,包括輸入院水、輸入預(yù)處理腊徙、預(yù)測和產(chǎn)出。也就是說用戶這個標簽已經(jīng)有了檬某,這個標簽對用戶的信譽度是1還是0撬腾?這個時候就到了用戶行為建模。用戶行為建模的背后思想主要可以認為有兩大塊恢恼,成本越高行為權(quán)重越高民傻,下單就比瀏覽更高一些,時間越近的行為權(quán)重越高场斑,比如我今天看了一個手機漓踢,一定比我一周前看了一次電腦權(quán)重要高一些。我們可以按場景去分漏隐,首先是產(chǎn)生需求喧半,再就是決策,然后是結(jié)束青责,百分點基于業(yè)務(wù)考慮挺据,實行標簽權(quán)重積累的機制。
這是我們的客戶某航空公司的案例脖隶,項目目的是挖掘高價值旅客吴菠,希望通過分析旅客出行偏好優(yōu)化運力資源。最終百分點幫他構(gòu)建了5個標簽大類浩村,75個標簽小類做葵,數(shù)萬個小標簽,以下是當(dāng)時的一些效果截圖心墅。
剛才講的都是百分點已經(jīng)做的事情酿矢,但是百分點做得還遠遠不夠。接下來可能會在四大方面深入思考和實踐:一是不同的場景怎燥,也就是說用戶在家里和在辦公環(huán)境下代表的偏好是不一樣的瘫筐;二是用戶心理學(xué)特征,比如當(dāng)一個用戶看一件女裝的時候铐姚,她這個時候是無聊去逛還是有目的的逛策肝,反映在標簽權(quán)重上是不一樣的;三是讓用戶主動反饋反感點隐绵,我們強調(diào)了許多之众,一般都是在強調(diào)用戶喜歡什么,但是用戶不喜歡什么依许,我們做得還不夠棺禾,我們應(yīng)該讓用戶主動告訴我們他不喜歡什么,比如他不喜歡吃蔥峭跳,他不喜歡吃羊肉串膘婶,這樣我們預(yù)測的時候會準得多缺前;四是用戶的興趣轉(zhuǎn)移快速捕獲,一開始我們使用的是一個半衰期的悬襟,而且按頻率細分衅码,我們是否可以按人去分?比如按訪次去分脊岳?比如針對品類手機這個標簽肆良,對于手機發(fā)燒友,可能過了一年他依然會對手機比較感興趣逸绎,但是對于像我這種,只有想購買的時候才去看夭谤,可能我兩天不看棺牧,就表示這個興趣已經(jīng)衰減為零了。