上一篇二哈介紹了用戶畫像的數(shù)據(jù)采集過程逻卖,這回我們來說說數(shù)據(jù)采集之后的處理形纺。
1薇缅、數(shù)據(jù)存儲(chǔ)&更新
1.1、存儲(chǔ):由于數(shù)據(jù)來源不同攒磨,日志格式也會(huì)不一樣泳桦,需要將不同日志存放在不同文件下,且由于不同業(yè)務(wù)方向不同娩缰,有可能之后需要原始日志灸撰,所以文件備份也要做好;(一定要有唯一標(biāo)識(shí)進(jìn)行不同日志之間的關(guān)聯(lián)拼坎,一般使用設(shè)備ID居多)
1.2浮毯、更新:不同數(shù)據(jù)更新的頻率也不太一樣,比如說產(chǎn)品屬性的數(shù)據(jù)(使用頻次泰鸡、喜好等)债蓝,因?yàn)闀r(shí)刻在變,可以做到日更或者小時(shí)更盛龄,但年齡饰迹、性別這種固定數(shù)據(jù),基本是固定的余舶,那么更新頻次肯定不用那么長啊鸭。
2、數(shù)據(jù)清洗
這個(gè)是非常重要的一環(huán)匿值,在我們收集上來的數(shù)據(jù)中赠制,一定會(huì)有許多的臟數(shù)據(jù),這些臟數(shù)據(jù)如果不清洗千扔,那么直接會(huì)導(dǎo)致之后偏好計(jì)算的不準(zhǔn)確憎妙,也就是標(biāo)簽輸出錯(cuò)誤,間接影響了推薦算法的準(zhǔn)確率曲楚,如果涉及到機(jī)器學(xué)習(xí)厘唾,樣本內(nèi)的錯(cuò)誤將會(huì)造成非常嚴(yán)重的后果。
舉一個(gè)簡單例子龙誊,就是在注冊時(shí)用戶填寫生日的時(shí)候抚垃,我們發(fā)現(xiàn)X年X月X日的用戶特別多,或是有3歲以下100歲以上等趟大,但在這個(gè)點(diǎn)的前后鹤树,數(shù)據(jù)都保持相同趨勢,那么這一定是個(gè)臟數(shù)據(jù)逊朽,很可能是注冊BUG或者是默認(rèn)值導(dǎo)致的結(jié)果罕伯,一定要剔除掉。(比如QQ上出生在1970叽讳,貌似是一個(gè)版本的默認(rèn)值)
所以我們在做數(shù)據(jù)清洗的時(shí)候主要有以下幾個(gè)注意事項(xiàng):
2.1追他、判斷臟數(shù)據(jù):可通過長期趨勢或者相鄰的數(shù)據(jù)來對(duì)比發(fā)現(xiàn)
2.2坟募、處理臟數(shù)據(jù):是用平均值替換還是為空處理,都需要按照具體業(yè)務(wù)來判定
3邑狸、字典輸出
輸出格式基本為key-value的格式
key:是一個(gè)個(gè)的字典參數(shù)懈糯,比如年齡、性別单雾、職業(yè)赚哗、使用時(shí)長、新聞或視頻偏好(可以拆細(xì)成內(nèi)容的不同種類偏好)等等
value:是一個(gè)個(gè)字典參數(shù)的值硅堆,比如年齡就是指單個(gè)年齡或者年齡段屿储,新聞偏好指對(duì)不同內(nèi)容種類的偏好程度
圖例如下:橫軸為key,縱軸為value
4硬萍、標(biāo)簽偏好計(jì)算
這里涉及機(jī)器學(xué)習(xí)算法扩所,只做簡要的說明。
4.1朴乖、有絕對(duì)指標(biāo):比如年齡祖屏、性別、職業(yè)买羞、使用時(shí)長袁勺、使用頻次等,直接可以選擇對(duì)應(yīng)的值
4.2畜普、無絕對(duì)指標(biāo):比如消費(fèi)能力期丰、運(yùn)動(dòng)習(xí)慣、韓劇偏好吃挑、搖滾音樂偏好等钝荡,是根據(jù)算法來得到的(有興趣的同學(xué)可以專門去研究下)
5、數(shù)據(jù)提取/校驗(yàn)
將字典做完舶衬,偏好值輸出完畢埠通,其實(shí)整個(gè)畫像就做好了,但是這個(gè)畫像準(zhǔn)不準(zhǔn)呢逛犹?這個(gè)就需要具體的業(yè)務(wù)具體的檢驗(yàn)了端辱。
首先,可以通過訪問redis或者數(shù)據(jù)庫拿到數(shù)據(jù)虽画,或者通過文件舞蔽、接口等形式將數(shù)據(jù)輸出給業(yè)務(wù)部門
業(yè)務(wù)部門拿到數(shù)據(jù)之后,進(jìn)行策略測試码撰,如果效果符合預(yù)期渗柿,則畫像較準(zhǔn),如果不符合預(yù)期脖岛,則需要重新調(diào)整畫像
用戶畫像其實(shí)是一個(gè)不斷迭代的過程做祝,因?yàn)樵跇I(yè)務(wù)的發(fā)展中砾省,拿到的數(shù)據(jù)會(huì)原來越多鸡岗,維度也會(huì)越來越細(xì)混槐,尤其是DAU千萬以上的產(chǎn)品,數(shù)據(jù)很容易就冗余轩性,后臺(tái)負(fù)責(zé)用戶畫像產(chǎn)品的同學(xué)声登,一定要及時(shí)同步前端業(yè)務(wù)同學(xué)的需求,不要想當(dāng)然揣苏,大而全的去做畫像這件事悯嗓,最好是根據(jù)具體業(yè)務(wù)具體輸出,所以經(jīng)常在大公司內(nèi)卸察,有好幾套不同的用戶畫像脯厨,這也是不同業(yè)務(wù)屬性來決定的。
本次用戶畫像中篇就說完了坑质,因?yàn)楸旧碇蛔鲞^部分的個(gè)性化推薦工作合武,所以并不是那么細(xì)膩,歡迎討論和交流涡扼。
二哈稼跳,互聯(lián)網(wǎng)產(chǎn)品狗,碼字很慢吃沪,性格尚可汤善,不喜可以噴,不定期更新中票彪。红淡。。