1. 推薦系統(tǒng)架構(gòu)
內(nèi)容來源:1)來源 2)打標(biāo)簽
在線分發(fā):召回-> 粗排 -> 精排 -> 重排 -> 規(guī)則 -> 分發(fā)
內(nèi)容來源
內(nèi)容源的收集與規(guī)范化
(站點(diǎn))-爬蟲->(內(nèi)容源總庫)-內(nèi)容理解->(內(nèi)容畫像)-人工審核->(推薦池)
內(nèi)容理解:分類颅痊、分詞钙姊、關(guān)鍵詞提取
接口:
http請求:Flask辛萍,fastAPI丈积,Django诫给,Tornado
rpc請求:Thrift
在線分發(fā)
召回:
協(xié)同杭措、雙塔柄沮、用戶畫像审孽、熱度召回等
召回階段的主要職責(zé)是:從千萬量級的候選物品里午阵,采取簡單模型將推薦物品候選集合快速篩減到千級別甚至百級別躺孝,這樣將候選集合數(shù)量降下來享扔,之后在排序階段就可以上一些復(fù)雜模型,細(xì)致地對候選集進(jìn)行個性化排序植袍。
排序:
對多個召回方法的結(jié)果進(jìn)行統(tǒng)一打分并排序惧眠,選出最優(yōu)Top K。篩選:CTR預(yù)估的rank模型于个,相當(dāng)于精排序:使用一個點(diǎn)擊率預(yù)估模型(輸入用戶特征氛魁,內(nèi)容特征,用戶內(nèi)容交叉特征等)對召回出來的內(nèi)容進(jìn)行排序
重排:
保證結(jié)果多樣性厅篓、實(shí)時調(diào)整
2. 算法模型
模型數(shù)據(jù)來源:從數(shù)據(jù)中心通過消息隊(duì)列取得數(shù)據(jù)日志
模型訓(xùn)練與更新
增量更新秀存,每隔一段時間全量更新一次
3. 協(xié)同
協(xié)同可以理解為相似,基于用戶的協(xié)同就是基于用戶的相似度羽氮,基于物品的協(xié)同就是基于物品的相似度或链。