本文一共3245字槽奕,專業(yè)人士建議閱讀10-20分鐘据途,非專業(yè)認(rèn)識建議閱讀20-35分鐘
其它相關(guān)文章整理:https://zhuanlan.zhihu.com/p/51015148
0.序言:
緊接上一講《什么是推薦系統(tǒng)(個性化內(nèi)容分發(fā))》绞愚,這一講我們來聊聊用戶畫像這個話題,它也是個性化中非常重要的一環(huán)颖医。本文與上一篇文章類似位衩,前半部分基本以非技術(shù)論述為主,后半部分會夾雜一些技術(shù)相關(guān)的論述熔萧。
1.什么是用戶畫像:
1.1維基百科的定義 1.1.1 A user profile is a visual display of personal data associated with a specific user, or a customized desktop environment 1.1.2 用戶畫像就是與該用戶相關(guān)聯(lián)的數(shù)據(jù)的可視化的展現(xiàn)糖驴;一句話來總結(jié)就是:用戶信息標(biāo)簽化。
1.2偏技術(shù)的定義 1.2.1 用戶畫像可以簡單理解成是海量數(shù)據(jù)的標(biāo)簽佛致,根據(jù)用戶的目標(biāo)贮缕、行為和觀點(diǎn)的差異,將他們區(qū)分為不同的類型俺榆,然后每種類型中抽取出典型特征感昼,賦予名字、照片罐脊、一些人口統(tǒng)計(jì)學(xué)要素定嗓、場景等描述,形成了一個人物原型 (personas)萍桌。
1.3常見用戶畫像維度
1.4金融產(chǎn)品常見評級畫像的應(yīng)用
1.5群體維度常見的畫像–今日頭條
2.為什么要做用戶畫像:
2.1宏觀 – 構(gòu)建具象認(rèn)知宵溅,構(gòu)建戰(zhàn)略、戰(zhàn)術(shù)方向:為了在核心用戶上達(dá)成統(tǒng)一且具象的認(rèn)知上炎,方便在后續(xù)投入上有的放矢恃逻;根據(jù)用戶畫像的信息做產(chǎn)品設(shè)計(jì),必須要清楚知道用戶長什么樣子,有什么行為特征和屬性寇损,這樣才能為公司提出戰(zhàn)略和戰(zhàn)術(shù)層面的指導(dǎo)凸郑。
2.2宏觀 – 探索用戶足跡,用戶(市場 )導(dǎo)向:詳細(xì)了解我們的真實(shí)用戶是如何和產(chǎn)品及其相關(guān)內(nèi)容進(jìn)行互動等矛市;必須從業(yè)務(wù)場景出發(fā)线椰,解決實(shí)際的業(yè)務(wù)問題,之所以進(jìn)行用戶畫像要么是獲取新用戶尘盼,或者是提升用戶體驗(yàn)憨愉,或者是挽回流失用戶等,并最終為用戶設(shè)計(jì)產(chǎn)品卿捎。
2.3微觀 – 構(gòu)建底層數(shù)據(jù)基礎(chǔ)配紫,服務(wù)上層應(yīng)用:正如上篇文章所述,用戶畫像可以作為推薦系統(tǒng)(廣告午阵、搜索系統(tǒng))的重要一環(huán)而存在(標(biāo)簽相似/特征工程等)躺孝,并會對推薦效果產(chǎn)生較大的提升;而正如用戶畫像在金融中的應(yīng)用底桂,用戶畫像也可以作為風(fēng)控的一些規(guī)則/特征存在植袍,來量化信用等級
2.4微觀 – 方便信息的處理:有了標(biāo)簽后計(jì)算機(jī)可以方便地處理各個量化需求:
– 2.4.1 分類統(tǒng)計(jì):某視頻網(wǎng)站上喜歡看《歡樂頌2》的用戶有多少 ?男女比例各是多少?
– 2.4.2 數(shù)據(jù)挖掘: 喜歡買榴蓮的用戶通常喜歡什么服裝品牌籽懦,經(jīng)常買榴蓮又買辣椒的用戶年齡段分布如何 分享一張常見公司的廣告于个、商品投放后臺中畫像的應(yīng)用
總之用戶畫像(UserProfile),完美地抽象出一個用戶的信息全貌暮顺,可以看作企業(yè)應(yīng)用大數(shù)據(jù)的根基厅篓。需要做到的終極形態(tài)是不同用戶視角,打開同一個網(wǎng)站或者APP捶码,體驗(yàn)完全不同
3.如何構(gòu)建用戶畫像:
3.1目標(biāo): 構(gòu)建用戶靜態(tài)/動態(tài)數(shù)據(jù)
– 3.1.1 靜態(tài)數(shù)據(jù)-評估價值:用戶相對穩(wěn)定的信息羽氮,如圖所示,主要包括人口屬性惫恼、商業(yè)屬性等方面數(shù)據(jù)档押;這類信息,自成標(biāo)簽祈纯,如果企業(yè)有真實(shí)信息則無需過多建模預(yù)測令宿,更多的是數(shù)據(jù)清洗工作,如果某些靜態(tài)信息不準(zhǔn)或缺失則需要建模預(yù)測盆繁。
– 3.1.2 動態(tài)數(shù)據(jù)-循跡: 用戶不斷變化的行為信息掀淘,如果存在上帝旬蟋,每一個人的行為都在時刻被上帝那雙無形的眼睛監(jiān)控著油昂,廣義上講,一個用戶打開網(wǎng)頁,買了一個杯子冕碟;與該用戶傍晚溜了趟狗拦惋,白天取了一次錢,打了一個哈欠等等一樣都是上帝眼中的用戶行為安寺。當(dāng)行為集中到互聯(lián)網(wǎng)厕妖,乃至電商,用戶行為就會聚焦很多挑庶,如上圖所示:瀏覽凡客首頁言秸、瀏覽休閑鞋單品頁、搜索帆布鞋迎捺、發(fā)表關(guān)于鞋品質(zhì)的微博举畸、贊“雙十一大促”的微博消息。等等均可看作互聯(lián)網(wǎng)用戶行為凳枝。
3.2形態(tài): 標(biāo)簽與權(quán)重: 用戶畫像的最終形態(tài)是通過分析用戶行為抄沮,最終為每個用戶打上標(biāo)簽,以及該標(biāo)簽的權(quán)重岖瑰。如:NIKE 0.8叛买、iphone 0.6;
– 3.2.1 標(biāo)簽:表征了內(nèi)容蹋订,用戶對該內(nèi)容有興趣率挣、偏好、需求等等露戒。
– 3.2.2 權(quán)重:表征了指數(shù)难礼,用戶的興趣、偏好指數(shù)玫锋,也可能表征用戶的需求度蛾茉,可以簡單的理解為可信度,概率撩鹿。
3.3數(shù)據(jù)建模方法: 標(biāo)簽=用戶標(biāo)識 + 時間 + 行為類型 + 接觸點(diǎn)(網(wǎng)址+內(nèi)容)的聚合谦炬,某用戶因?yàn)樵谑裁磿r間、地點(diǎn)节沦、做了什么事键思,所以會打上**標(biāo)簽
– 3.3.1 事件模型: 主要通過收集用戶行為,并結(jié)合上下文構(gòu)建事件模型甫贯,主要為5w(who吼鳞、when、where叫搁、what赔桌、which);who:通過唯一的用戶標(biāo)識來鎖定某個人(用戶名供炎、手機(jī)號、qq疾党、微信音诫、cookie等);when:主要收集時間因素雪位;where:主要收集地理位置因素竭钝;what:主要收集交互的商品/內(nèi)容的標(biāo)識,最終標(biāo)簽基本出自于對what的具象或者抽象雹洗;which:標(biāo)識用戶什么行為香罐,比如點(diǎn)擊、瀏覽时肿、購買穴吹、觀看。
– 3.3.2 整體思考建模: 用戶標(biāo)簽的權(quán)重可能隨時間的增加而衰減嗜侮,因此定義時間為衰減因子r港令,行為類型、網(wǎng)址決定了權(quán)重锈颗,內(nèi)容決定了標(biāo)簽顷霹,進(jìn)一步轉(zhuǎn)換為公式:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重
– 3.3.3 舉個栗子: 如:用戶A,昨天在天貓nike官網(wǎng)瀏覽了一雙價值699元的nike運(yùn)動鞋击吱,前天在天貓超市購買了一個價值為50元的杯子淋淀。? ? 標(biāo)簽:nike,運(yùn)動鞋覆醇,口紅? ? 時間:因?yàn)槭亲蛱斓男袨槎浞祝僭O(shè)衰減因子為:r=0.9(不妨這里衰減簡單地選取為每天下降為前一天的0.9,具體衰減可以通過數(shù)據(jù)分析得到永脓,一般為指數(shù)級衰減)? ? 行為類型:瀏覽行為記為權(quán)重0.5袍辞,購買行為記為權(quán)重1? ? 地點(diǎn):nike官網(wǎng)權(quán)重為0.8,天貓超市權(quán)重為0.4(因?yàn)樘熵埑衅奉惛撼4荩詸?quán)重相對于nike專業(yè)運(yùn)動品牌商要小)
則用戶偏好標(biāo)簽是:杯子搅吁,權(quán)重是0.9 * 1*0.4=0.36;nike落午、運(yùn)動鞋谎懦,權(quán)重是0.9*0.9*0.5*0.8 =0.324 即,用戶A:杯子 0.36溃斋、nike 0.324界拦,運(yùn)動鞋:0.324。 上述模型權(quán)重值的選取只是舉例參考梗劫,具體的權(quán)重值需要根據(jù)業(yè)務(wù)需求二次建模享甸,具體的建模流程也需要進(jìn)一步梳理截碴,這里強(qiáng)調(diào)的是如何從整體思考,去構(gòu)建用戶畫像模型枪萄,進(jìn)而能夠逐步細(xì)化模型。
以上未涉及具體算法猫妙,更多的是闡述了一種分析思想瓷翻,在計(jì)劃構(gòu)建用戶畫像時,能夠給您提供一個系統(tǒng)性割坠、框架性的思維指導(dǎo)齐帚。核心在于對用戶接觸點(diǎn)的理解,接觸點(diǎn)內(nèi)容直接決定了標(biāo)簽信息彼哼。內(nèi)容地址对妄、行為類型、時間衰減敢朱,決定了權(quán)重模型是關(guān)鍵剪菱,權(quán)重值本身的二次建模則是水到渠成的進(jìn)階。模型舉例偏重電商拴签,但其實(shí)孝常,可以根據(jù)產(chǎn)品的不同,重新定義接觸點(diǎn)蚓哩。 最后构灸,接觸點(diǎn)本身并不一定有內(nèi)容,也可以泛化理解為某種閾值岸梨,某個行為超過多少次喜颁,達(dá)到多長時間等。
4.算法路線及常用算法模型:
5.算法處理到評估流程圖:
6.算法架構(gòu)圖:
7.標(biāo)簽層級:
8.下一講我們將介紹機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘相關(guān)的內(nèi)容曹阔,上個圖
想對推薦算法半开、用戶畫像有進(jìn)一步的了解的可以移步我的知乎live
《 推薦算法那點(diǎn)事》:知乎 Live - 全新的實(shí)時問答
《 推薦算法那點(diǎn)事(二):細(xì)節(jié) 》:知乎 Live - 全新的實(shí)時問答