論文Fresh Content Needs More Attention:Multi-funnel Fresh Content Recommendation
方案和系統(tǒng)都不復雜,但是很切合業(yè)務實際哨毁。
論文的貢獻主要再一下幾方面:
a.證明了冷啟動的價值嫁盲,包括:1.Corpus coverage is improved闹蒜。2.A larger corpus is discovered by the users野哭。3.Content providers are encouraged to upload more contents。4.More fresh content is consumed by the users with a minor impact on short-term user engagement眨唬。
b.提出新的冷啟動評估指標和評估方式。評估指標不在專注傳統(tǒng)的ctr好乐,而是提出三個新指標:1.Daily Unique Impressed Contents at ??(DUIC@K)匾竿。2.Fresh Content Dwell Time。3.Number of content receiving X (post bootstrapping) positive蔚万。評估方式方面岭妖,實驗組和對照組不應該相互干擾。實際上現(xiàn)在工業(yè)界很多公司的ab試驗系統(tǒng)再冷啟動方面都有數(shù)據(jù)泄露問題,實驗組推薦推薦鏈路上的上游數(shù)據(jù)會進入對照組的訓練數(shù)據(jù)昵慌,實際上是一中數(shù)據(jù)泄露假夺,會導致冷啟動方案的收益低估。
整體冷啟動的架構不復雜斋攀,整個推薦鏈條為:
? ? ? ? ? ? ? ? ? 新類容召回——內容過濾(graduation filter)——多臂老虎機預打分——精排
新類容召回包含兩個召回模型 已卷,一個只用meta feature的雙塔模型Low-funnel model,一個使用用戶最近點擊行為的實時雙塔召回模型Middle-funnel model淳蔼。線上按概率p隨機使用Low-funnel model召回侧蘸,1-p概率使用Middle-funnel model。
內容過濾(graduation filter) 按照次數(shù)過濾掉新內容召回的item鹉梨,超過n次展示的內容會被過濾讳癌,實際上就是冷啟動 cold-start階段的頻率控制,避免少數(shù)新內容占用過多曝光存皂。
多臂老虎機預打分采用的是Thompson Sampling晌坤。論文中沒有詳細說怎么做的。實際上可以采用linucb或者?Contextual?Thompson Sampling旦袋。預打分選取10個候選進精排骤菠。
精排部分,論文采用的是google 的主推薦rank 算法來確定top 1.