1.為什么要做用戶畫像系統(tǒng)?
2.怎么設(shè)計(jì)用戶畫像的數(shù)據(jù)框架断箫?
2.2 用戶畫像的數(shù)據(jù)框架解讀
第一層:數(shù)據(jù)源拂酣,分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)。
對(duì)動(dòng)態(tài)數(shù)據(jù)來說仲义,
(1)不同行為的權(quán)重是不同的(Who/When/Where/How /What)婶熬。比如對(duì)于一畝田的集市業(yè)務(wù),對(duì)胡蘿卜這個(gè)產(chǎn)品點(diǎn)擊打電話>瀏覽的權(quán)重埃撵。
(2)不同的行為的權(quán)重衰減周期也是不同的赵颅,比如搜索胡蘿卜后打電話超過5次,那么胡蘿卜類的農(nóng)產(chǎn)品供應(yīng)推薦就應(yīng)該減少或降低暂刘。不過作為農(nóng)業(yè)更為復(fù)雜的一點(diǎn)是饺谬,不同的農(nóng)產(chǎn)品它自身也存在這“衰退”周期,比如大蔥是一年四季都有的產(chǎn)品谣拣,但是西瓜是夏天5-8月才會(huì)大量上市募寨。搜索大蔥的人#大蔥的購買意向是更持久的,搜索西瓜的人#西瓜的購買意向只能在上市周期內(nèi)推薦才更有效森缠。所以我們有專門管理數(shù)千種農(nóng)產(chǎn)品上下市時(shí)間的數(shù)據(jù)庫拔鹰。
(3)對(duì)歷史數(shù)據(jù)的使用要審慎。因?yàn)闅v史數(shù)據(jù)可能存在一些未知的統(tǒng)計(jì)或埋點(diǎn)錯(cuò)誤贵涵,需要交叉比對(duì)和有效性確認(rèn)列肢。
第二層:input層
這塊是離線處理層,對(duì)內(nèi)容進(jìn)行理解宾茂,索引化處理瓷马,形成分類標(biāo)簽、實(shí)體標(biāo)簽(有實(shí)際意義的詞)
對(duì)這一層的要求就是充足跨晴、過濾决采、字段標(biāo)準(zhǔn)化。
這里的數(shù)據(jù)轉(zhuǎn)換坟奥,我們業(yè)務(wù)采用了“處理但不歸類”的原則(其他的有“不處理不歸類”树瞭,“處理并歸類”)拇厢,輸出永久存儲(chǔ)文件,字段經(jīng)過標(biāo)準(zhǔn)化形成畫像規(guī)范晒喷。
第三層:預(yù)處理層
為計(jì)算層提供數(shù)據(jù)支持孝偎,我們把所有的事件(nearline層,更快的更新用戶畫像)
第四層:在線計(jì)算層
這一層是在線計(jì)算的凉敲,主要是理解用戶的請(qǐng)求衣盾,對(duì)內(nèi)容進(jìn)行篩選、排序爷抓。做數(shù)據(jù)源的關(guān)聯(lián)势决、聚合、權(quán)重計(jì)算(計(jì)算層不要調(diào)用自己這一次的輸出)
五蓝撇、output層
字段存儲(chǔ)的規(guī)范果复、字段存儲(chǔ)。
3. 在用戶畫像體系中渤昌,pm可以做的事情
一是在數(shù)據(jù)源上虽抄,把靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)做有效區(qū)分歸類。底層的數(shù)據(jù)分類独柑、標(biāo)簽分類要根據(jù)業(yè)務(wù)和公司需要進(jìn)行有效整理迈窟。
二是在nearline層(預(yù)處理層),把一些時(shí)效性要求比較強(qiáng)的數(shù)據(jù)提出預(yù)處理的規(guī)則忌栅。
三是在計(jì)算層:基于業(yè)務(wù)理解车酣,做數(shù)據(jù)的權(quán)重調(diào)整、聚合調(diào)整
四是在輸出層:做樣式的優(yōu)化,讓用戶界面更友好索绪,更容易實(shí)現(xiàn)項(xiàng)目的目標(biāo)