2008 - 《Video Suggestion and Discovery for YouTube》
1.推薦算法
2.實驗
1)數(shù)據(jù)準(zhǔn)備
- 相同區(qū)域的5.4m用戶的播放行為
- 完成率超過33%就認(rèn)為是真的喜歡這個視頻,總播放數(shù)29 million,4.2 million 視頻(只有正樣本)
- 前面46天作為訓(xùn)練集,剩下的作為測試集
- 如果用戶對一個視頻在訓(xùn)練集中沒有播放但是在測試集中有效播放了材部,我們就認(rèn)為是一次成功的推薦
- 去掉了那些不都在測試集和訓(xùn)練集中出現(xiàn)的用戶和視頻后還有1.1m用戶和1.3m的視頻,12.5m的播放
- 評價指標(biāo)主要是準(zhǔn)確率和召回率跷敬,通過Precision-Recall-Threshold curves和 top-rank quality assessment展現(xiàn)
2)可能存在的問題和解決方法
- Hindsight is not 20/20: 用戶沒觀看有可能就是沒看到茸炒,沒辦法
- 用戶觀看視頻個數(shù)可能差別很大伯铣,需要通過roc曲線來反應(yīng)拜隧,而不能只看p和r
- 推薦是在某一個時間點進(jìn)行的宿百,一些用戶實時興趣或者熱點事件評估中無法考慮到
-
新的視頻和新的用戶煮寡,去掉一些不在的視頻和用戶可以解決
3)算法比對圖
ROC
TOP1