開篇之前站超,我們首先回顧一下背景:part1 在19年已經(jīng)寫了,最近打開博客發(fā)現(xiàn)part2遲遲沒有寫乖酬,時隔這么久死相,臨近十一終于有時間把第二部分完成了。
在得到item topic之后咬像,我們?nèi)绾谓o新用戶或者低活用戶推薦呢算撮。首先第一步就是用戶群體發(fā)掘。
用戶群體怎么定義呢县昂,這里的用戶群體肮柜,需要結(jié)合多個靜態(tài)特征去做聚合,比如年齡倒彰,性別审洞,地域,機型待讳,收入level等等预明,沒有固定的群組缩赛,也沒有好的或者壞的∽罚可以選擇其中一個或者多個靜態(tài)特征組成有區(qū)分度的群組。比如 年齡_性別_機型 組成群組的區(qū)分性辩昆。 男性阅酪,【18-24】,華為 是一個群里汁针, 女性术辐,【25-30】,vivo 是另一個群組施无。這樣的話用戶群體就已經(jīng)被定義了辉词。
用戶群體怎么挖掘topic呢。我們有的訓(xùn)練數(shù)據(jù)是什么呢猾骡?corpus是每一個用戶點擊的item序列瑞躺,那么基于最原始的用戶點擊item序列,就會得到user group的item的點擊序列兴想,再經(jīng)過topic mapping幢哨,我們就能夠得到 user group 對topic的點擊如下圖。
用戶group的興趣挖掘基本的物料產(chǎn)出后嫂便,這里需要用一些learning Algo 去得到每個群組最感興趣的topic 是那些捞镰,比如最簡單的就基于統(tǒng)計 group1里面的hot,當(dāng)然這樣會缺乏個性化毙替,不同群組之間會同時都會有那些熱門的topic岸售,所以我們會利用tf-idf 以及cf降權(quán)等統(tǒng)計方法短平快的拿到比較好的效果,當(dāng)然這里給大家留一些空間厂画,這里有沒有模型化的方法凸丸。
這里給出一些用戶群組的demo: 比如x手機 和y手機是兩個手機品牌這里數(shù)據(jù)脫敏。
x手機 60歲+ 的男性喜歡的 topic是? 國際新聞木羹,軍事甲雅,國際時政,歷史
x手機 60歲+ 的女性喜歡的是 明星娛樂坑填,央視主持人抛人,國際體育,女排
y手機脐瑰,60+ 的女性 喜歡的是明星娛樂妖枚,育兒,婆媳
好了這里就能明顯的發(fā)現(xiàn)x手機的用戶相對是關(guān)心 國家大事呀苍在,雖然男女不同绝页。明顯的對比是y手機 60+的女性喜歡的更多的是生活方面的東西這個區(qū)分度是令人驚喜的荠商。
這個上線后,對新用戶各指標3-5個點提升续誉, 低活用戶1-3個點提升莱没。還是很不錯的。