作者以及單位
James Davidson(google)
解決問題
借鑒的場景:短視頻公司结笨。
用戶看短視頻(youtube)有三種目的:1.看特定的video;2.看特定topic的video;3.找感興趣的視頻肥缔。
解決第三種目的撒轮,存在的挑戰(zhàn)是:1.短視頻除了題目沒有什么有價值信息;2.視頻短醇锚,用戶行為就短哼御,噪聲多;3.視頻生存周期短焊唬。
文章主要介紹如何在YouTube主頁上給用戶提供的個性化推薦內(nèi)容恋昼,其目的是為了提高用戶使用網(wǎng)站的互動性以及娛樂性。
文章中所提到的算法會輸出用戶可能喜歡的視頻集合赶促,而不是給出一個具體的用戶喜歡某一視頻的概率(評價指標(biāo)可以參考)液肌。
研究對象
如何在YouTube主頁上給用戶提供的個性化推薦內(nèi)容,其目的是為了提高用戶使用網(wǎng)站的互動性以及娛樂性鸥滨。
對象是主頁嗦哆!
在主頁上推薦視頻和推薦一個視頻的相關(guān)視頻在需求上有一定的差異谤祖,主頁上的推薦對內(nèi)容的新鮮度,發(fā)散性以及用戶近期行為的相關(guān)性要求比較高老速。
研究方法
用戶行為包括explicit和implicit feedback粥喜。前者是指用戶評分、明確表示喜歡橘券、不喜歡等行為额湘,后者是瀏覽、觀看等行為旁舰。原始數(shù)據(jù)中還含有非常多的噪聲锋华,很多不可控因素會影響原始數(shù)據(jù)的質(zhì)量。
為了確定要推薦哪些視頻箭窜,文章給出了相關(guān)視頻的定義:視頻v的相關(guān)視頻是指可能在視頻v之后被用戶觀看的視頻供置。兩個視頻的相關(guān)性由關(guān)聯(lián)規(guī)則挖掘方法來確定。視頻i和j的相關(guān)性在文章中作者使用了簡單的co-view來計算:
這里的Cij是視頻i和j的co-view數(shù)(共同出現(xiàn)次數(shù))绽快,f(Vi,Vj)則是根據(jù)視頻Vi和Vj的觀看次數(shù)給出的一個折扣(最簡單的一個此類函數(shù)為f(vi,vj)=ci?cj)芥丧。利用這個相關(guān)系數(shù)可以選出與種子視頻Vi 最相關(guān)的N個視頻,這里作者還引入了一個minimum score threshold坊罢,用來去除N個視頻中并不十分確定的相關(guān)視頻续担。
所有推薦視頻的集合主要是根據(jù)用戶過去的行為決定,一個用戶可能會觀看活孩,喜歡多個視頻或者給他們進行打分物遇。根據(jù)這些視頻,我們可以找到所有距離為1的相關(guān)視頻憾儒,然后根據(jù)所有距離為1的相關(guān)視頻找到距離為2的相關(guān)視頻询兴。
創(chuàng)新點
從系統(tǒng)尋找相關(guān)視頻來說,新意不大起趾。
但創(chuàng)新點主要是ranking部分:在推薦中诗舰,距離為1的相關(guān)視頻就足夠提供很多推薦結(jié)果,但是他們可能會十分偏向于用戶某一個狹窄的興趣點训裆,所以我們需要增加距離使推薦結(jié)果有更多的新穎性眶根。
當(dāng)論文中得到所有的推薦視頻集合后,可以對他們進行一次排序打分边琉,根據(jù)視頻質(zhì)量(觀看次數(shù)属百、視頻評分、評論变姨、收視和上傳時間等)族扰;用戶特征(用戶觀看觀看次數(shù)和觀看時間等);多樣性:(視頻集合的類別中做一個平衡)。
通過對用戶的反饋進行分析渔呵,我們可以把用戶不感興趣的視頻原因從推薦初始集合中刪去怒竿,或者限制某一個看過的視頻生成的推薦視頻數(shù)量。
結(jié)論
涵蓋了最基本的推薦引擎樣例生成以及額外的排序過程厘肮,并且從系統(tǒng)上分析了如何通過Bigtable,MapReduce來搭建這一推薦系統(tǒng)睦番,值得深入學(xué)習(xí)类茂。
論文解讀:
https://zhuanlan.zhihu.com/p/26977788
https://blog.csdn.net/friyal/article/details/83589232