最近準(zhǔn)備研究下用戶畫像,先制定一個(gè)計(jì)劃玲销,在簡書上記錄下输拇,希望得到同道中人一起討論。
一贤斜、目的
用戶畫像的目的是通過分析用戶行為策吠,最終為每個(gè)用戶打上標(biāo)簽,以及該標(biāo)簽的權(quán)重瘩绒。
如:
用戶A的職業(yè)猴抹,標(biāo)簽為“程序員”,權(quán)重為0.8锁荔;標(biāo)簽為“用戶運(yùn)營”蟀给,權(quán)重為0.3。
用戶A的性別,“男”的權(quán)重為0.7跋理;“女”的權(quán)重為0.3拍霜。
用戶A的年齡,20歲以下的權(quán)重為0.6薪介;20-30歲的權(quán)重為0.3祠饺;30歲以上的權(quán)重為0.9。
標(biāo)簽:表征了內(nèi)容汁政,用戶屬于或者是對(duì)該內(nèi)容有興趣道偷、偏好、需求等等记劈。
權(quán)重:表征了指數(shù)勺鸦,用戶的興趣、偏好指數(shù)目木,也可能表征用戶的需求度换途,可以簡單的理解為可信度,概率刽射。
二军拟、數(shù)據(jù)源分析
構(gòu)建用戶畫像是為了還原用戶信息,因此數(shù)據(jù)來源于:所有用戶相關(guān)的數(shù)據(jù)誓禁。
對(duì)于用戶相關(guān)數(shù)據(jù)的分類懈息,引入一種重要的分類思想:封閉性的分類方式。
如:
世界上分為兩種人摹恰,互聯(lián)網(wǎng)行業(yè)和非互聯(lián)網(wǎng)行業(yè)辫继;
用戶分四種,核心用戶俗慈、儲(chǔ)備用戶姑宽、重點(diǎn)用戶和可挽回用戶;
用戶地域分四種類型闺阱,一線城市炮车、二線城市、三線城市和四線城市…
所有的子分類將構(gòu)成了類目空間的全部集合馏颂。
這樣的分類方式示血,有助于后續(xù)不斷枚舉并迭代補(bǔ)充遺漏的信息維度。不必?fù)?dān)心架構(gòu)上對(duì)每一層分類沒有考慮完整救拉,造成維度遺漏留下擴(kuò)展性隱患难审。另外,不同的分類方式根據(jù)應(yīng)用場景亿絮,業(yè)務(wù)需求的不同告喊,按需劃分即可麸拄。
三、數(shù)據(jù)建模
如何根據(jù)用戶行為黔姜,構(gòu)建模型產(chǎn)出標(biāo)簽拢切、權(quán)重。
一個(gè)事件模型包括:時(shí)間秆吵、地點(diǎn)淮椰、人物三個(gè)要素。每一次用戶行為本質(zhì)上是一次隨機(jī)事件纳寂,可以詳細(xì)描述為:什么用戶主穗,在什么時(shí)間,什么地點(diǎn)毙芜,對(duì)什么對(duì)象忽媒,做了什么事。
3.1腋粥、什么用戶
關(guān)鍵在于對(duì)用戶的標(biāo)識(shí)晦雨,用戶標(biāo)識(shí)的目的是為了區(qū)分用戶、單點(diǎn)定位隘冲。
以下列舉了互聯(lián)網(wǎng)主要的用戶標(biāo)識(shí)方法闹瞧,獲取方式由易到難。視企業(yè)的用戶粘性对嚼,可以獲取的標(biāo)識(shí)信息有所差異夹抗。
3.2、在什么時(shí)間
時(shí)間包括兩個(gè)重要信息纵竖,時(shí)間戳+時(shí)間長度。時(shí)間戳杏愤,為了標(biāo)識(shí)用戶行為的時(shí)間點(diǎn)靡砌,如,1395121950(精度到秒)珊楼。時(shí)間長度通殃,為了標(biāo)識(shí)用戶在某一頁面的停留時(shí)間。
3.3厕宗、什么地點(diǎn)
用戶接觸點(diǎn)画舌,Touch Point。對(duì)于每個(gè)用戶接觸點(diǎn)已慢。潛在包含了兩層信息:網(wǎng)址 + 內(nèi)容曲聂。
網(wǎng)址:每個(gè)url鏈接(頁面/屏幕),即定位了一個(gè)互聯(lián)網(wǎng)頁面地址佑惠,或者某個(gè)產(chǎn)品的特定頁面朋腋∑敫恚可以是PC上某電商網(wǎng)站的頁面url,也可以是手機(jī)APP上的內(nèi)容旭咽。如贞奋,一面的啟動(dòng)頁,一面的主題內(nèi)容頁穷绵。
內(nèi)容:每個(gè)url鏈接(頁面/屏幕)中的內(nèi)容轿塔。可以是某個(gè)內(nèi)容的相關(guān)信息:內(nèi)容平臺(tái)仲墨、內(nèi)容類別催训、標(biāo)題、描述等等宗收。
對(duì)于每個(gè)互聯(lián)網(wǎng)接觸點(diǎn)漫拭,其中網(wǎng)址決定了權(quán)重;內(nèi)容決定了標(biāo)簽混稽。
注:接觸點(diǎn)可以是網(wǎng)址采驻,也可以是某個(gè)APP的特定功能界面。如匈勋,同樣一瓶礦泉水礼旅,超市賣1元,火車上賣3元洽洁,景區(qū)賣5元痘系。商品的售賣價(jià)值,不在于成本饿自,更在于售賣地點(diǎn)汰翠。標(biāo)簽均是礦泉水,但接觸點(diǎn)的不同體現(xiàn)出了權(quán)重差異昭雌。這里的權(quán)重可以理解為用戶對(duì)于礦泉水的需求程度不同复唤。即,愿意支付的價(jià)值不同烛卧。
3.4佛纫、對(duì)什么對(duì)象
其實(shí)上面的用戶接觸點(diǎn)已經(jīng)說明了一種對(duì)象——內(nèi)容。我這邊之所以還單獨(dú)把對(duì)象拿出來作為一項(xiàng)总放,是因?yàn)檫@個(gè)對(duì)象有可能是我們自己造出來的呈宇,比如簡書中某個(gè)專題中的內(nèi)容肯定是一個(gè)對(duì)象,但是如果一個(gè)專題里面沒有內(nèi)容局雄,那么它也是一個(gè)對(duì)象甥啄,我們?yōu)檫@個(gè)對(duì)象設(shè)定的標(biāo)簽也可能是不一樣的,如果某個(gè)專題只有2個(gè)人哎榴,一男一女型豁,那么我們可能就會(huì)為這個(gè)我們?cè)斐鰜淼膶?duì)象打上一個(gè)“情侶”的標(biāo)簽僵蛛,如果是只有男人,我們可能就會(huì)打上“同志”的標(biāo)簽迎变。
3.5充尉、做了什么事
用戶行為類型,對(duì)于一個(gè)內(nèi)容為主的APP來說有如下典型行為:瀏覽衣形、點(diǎn)贊驼侠、評(píng)論、收藏等等谆吴。
不同的行為類型,對(duì)于接觸點(diǎn)的內(nèi)容產(chǎn)生的標(biāo)簽信息句狼,具有不同的權(quán)重笋熬。如,收藏權(quán)重計(jì)為5腻菇,瀏覽計(jì)為1胳螟。
3.6、總結(jié)
綜合上述分析筹吐,用戶畫像的數(shù)據(jù)模型糖耸,可以概括為下面的公式:
用戶標(biāo)識(shí) + 時(shí)間 + 行為類型 + 接觸點(diǎn)(網(wǎng)址+內(nèi)容)
某用戶因?yàn)樵谑裁磿r(shí)間、某個(gè)地點(diǎn)丘薛、對(duì)某個(gè)對(duì)象嘉竟,做了什么事。所以會(huì)打上XX標(biāo)簽洋侨。
用戶標(biāo)簽的權(quán)重可能隨時(shí)間的增加而衰減舍扰,因此定義時(shí)間為衰減因子r,行為類型凰兑、網(wǎng)址決定了權(quán)重妥粟,內(nèi)容決定了標(biāo)簽,進(jìn)一步轉(zhuǎn)換為公式:
標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×位置權(quán)重
當(dāng)然吏够,很多時(shí)候標(biāo)簽本身也是有權(quán)重的。
如:用戶A滩报,昨天在發(fā)現(xiàn)頻道瀏覽“2018年必看驚悚恐怖片之一:XXX電影”的主題內(nèi)容锅知。
我們?yōu)檫@個(gè)內(nèi)容打的標(biāo)簽為:恐怖 0.6,電影 0.8
時(shí)間:因?yàn)槭亲蛱斓男袨榕Ъ兀僭O(shè)衰減因子為:r=0.95
行為類型:瀏覽行為記為權(quán)重1
地點(diǎn):在發(fā)現(xiàn)頻道為 0.6(相比在我的-我創(chuàng)建的主題中的0.9)
則用戶偏好標(biāo)簽是:電影售睹,權(quán)重是0.95*0.6 * 1=0.57,即可训,用戶A:恐怖 0.57昌妹、電影 0.57捶枢。最后再乘以標(biāo)簽自己的權(quán)重。
上述模型權(quán)重值的選取只是舉例參考飞崖,具體的權(quán)重值需要根據(jù)業(yè)務(wù)需求二次建模烂叔,這里強(qiáng)調(diào)的是如何從整體思考,去構(gòu)建用戶畫像模型固歪,進(jìn)而能夠逐步細(xì)化模型蒜鸡。
四、計(jì)劃
根據(jù)上面的介紹牢裳,我們知道如果要為一個(gè)平臺(tái)做用戶畫像逢防,那么首先要做的就是根據(jù)自己的業(yè)務(wù)需求進(jìn)行建模。
4.1蒲讯、為數(shù)據(jù)建模
確定每個(gè)位置和行為的權(quán)重忘朝,以及造出的對(duì)象的權(quán)重。
對(duì)象(標(biāo)簽)判帮、位置(權(quán)重)局嘁、行為(權(quán)重)、時(shí)間衰減值等
4.2脊另、為文章內(nèi)容打上標(biāo)簽
這里需要的就是一些提取文章內(nèi)容的標(biāo)簽算法导狡,同時(shí)需要考慮內(nèi)容中標(biāo)簽的自己的權(quán)重值。
4.3偎痛、根據(jù)內(nèi)容與對(duì)象的標(biāo)簽和數(shù)據(jù)建模中定義的權(quán)重跑出用戶畫像
實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)
要想知道自己的數(shù)據(jù)建模是否合理旱捧,為文章內(nèi)容打標(biāo)簽的算法的正確性是怎么樣的。
實(shí)踐吧~
用戶畫像我將作為一個(gè)系列來記錄踩麦,歡迎前輩們多多指導(dǎo)