論文學習:Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph

論文《Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph》發(fā)表于2008年,是相對比較早的一篇有關(guān)于YouTube推薦系統(tǒng)的文章棒厘。

1.簡介

在最初的階段黄痪,YouTube認為應該給用戶推薦曾經(jīng)觀看過視頻的同類視頻,或者說擁有同一標簽的視頻。然而此時绩鸣,YouTube的視頻已是數(shù)千萬量級鼎文,主要困難在于,盡管可以通過基于計算機視覺的技術(shù)可靠地推斷出某些標簽贬墩,但尚不存在任何令人滿意的機制來對視頻中的大部分內(nèi)容進行標簽榴嗅;更為困難的是,YouTube視頻中存在的標簽通常很小陶舞,他們只捕獲一小部分內(nèi)容嗽测。解決該困難的核心方案有兩部分:一是基于用戶共同觀看記錄構(gòu)建的圖結(jié)構(gòu)(Video Co-View Graph); 二是基于此數(shù)據(jù)結(jié)構(gòu)的算法肿孵,被稱為吸附算法(Adsorption Algorithm)唠粥。

2.共視圖結(jié)構(gòu)

共視信息為視頻推薦提供了簡單的基礎(chǔ)⊥W觯可以如下構(gòu)建通常用作基于項目的協(xié)作過濾系統(tǒng)的基礎(chǔ)的簡單系統(tǒng)晤愧。假設用戶U觀看了兩個視頻J和K;從我們的共同觀看統(tǒng)計數(shù)據(jù)中雅宾,我們知道看到視頻J的許多其他用戶也看到了視頻L养涮,M,N眉抬;類似地贯吓,對于視頻K,我們知道許多其他用戶看到了視頻N蜀变,O悄谐,P,Q库北;因此爬舰,根據(jù)他對J和K的觀看们陆,我們可能推薦給U的視頻可以簡單地看作是兩個共同視圖集的集合:L,M情屹,N坪仇,O,P垃你,Q椅文。為了對推薦進行排名,我們可以查看一個視頻的瀏覽量(這將推薦流行視頻)惜颇、每個視頻的共同觀看次數(shù)(這將推薦流行視頻皆刺,考慮到用戶所看到的內(nèi)容),或者考慮每個視頻被推薦給U的次數(shù)(注意凌摄,視頻N被推薦了兩次)等因素給出一個打分函數(shù)羡蛾。

3.吸附算法

作者在本文中用大量篇幅講述了吸附算法(Adsorption Algorithm ),該算法的目的就是為了解決視頻標簽的擴散锨亏,當我們有一個小的labeled數(shù)據(jù)集和一個很大的unlabeled數(shù)據(jù)集時痴怨,可以通做Adsorption將label從小的數(shù)據(jù)集推廣到大數(shù)據(jù)集上。論文介紹了三個吸附算法屯伞,分別是通過均值的吸附腿箩,通過隨機游走的吸附和通過線性系統(tǒng)的吸附。
吸附算法是基于G圖的劣摇,而這個圖G=<V,E,\omega>就是視頻間的關(guān)聯(lián)度圖珠移,公式中V代表圖中的節(jié)點,也就是一個個視頻末融,注意節(jié)點會包含多個標簽钧惧。E代表節(jié)點間的連線,也就是視頻之間是關(guān)聯(lián)的勾习。而\omega代表邊的權(quán)重浓瞪,也就是視頻之間的關(guān)聯(lián)程度,文章中是用用戶共同觀看次數(shù)來表示這個權(quán)重巧婶,用戶共同看過這兩個視頻的次數(shù)越多乾颁,這個權(quán)重越大。如果沒有艺栈,則兩個視頻間沒有關(guān)聯(lián)英岭,也就是沒有邊。
均值吸附
均值吸附的算法流程如下:


圖中G表示視頻的關(guān)聯(lián)圖湿右,L表示所有視頻標簽的合集诅妹,而
V_L
表示所有有標簽視頻節(jié)點的合集。
L_u
代表節(jié)點u的標簽分布。整個流程很簡單吭狡,節(jié)點 v 的標簽的概率分布等
L_v
于點 u 和 v 之間的權(quán)重
\omega(u,v)
乘以點 u 的
L_u
, 通過這樣一個傳遞 , 將鄰居和自己的標簽進行了"平均" 尖殃。
隨機游走的吸附
隨機游走的吸附就是將上圖中
L_v=\sum_{u}{\omega(u,v)*L_u}
轉(zhuǎn)換成
L_v=\sum_{u}{\frac{\omega(u,v)}{\sum_{u}{\omega(u,v)}}}L_u
, 其中
\frac{\omega(u,v)}{\sum_{u}{\omega(u,v)}}
表示隨機遍歷中選擇節(jié)點u的概率划煮。該算法就是將每一個頂點v的標簽發(fā)到相關(guān)聯(lián)的鄰居上送丰,在每一次傳遞結(jié)束后,對頂點的標簽進行歸一化般此。
線性吸附
線性吸附就是將
\frac{\omega(u,v)}{\sum_{u}{\omega(u,v)}}
理解為線性組合中占的比例蚪战。

4.總結(jié)

本文發(fā)表的時間較早,詳細介紹了推薦系統(tǒng)中的吸附算法铐懊,主要解決的問題是如何有效的擴大視頻標簽,最后的實驗離線測試效果很好瞎疼,通過使用吸附算法科乎,能夠提高YouTube中建議的預期效率。

論文下載鏈接
學習參考鏈接

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末贼急,一起剝皮案震驚了整個濱河市茅茂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌太抓,老刑警劉巖空闲,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異走敌,居然都是意外死亡碴倾,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門掉丽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來跌榔,“玉大人,你說我怎么就攤上這事捶障∩耄” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵项炼,是天一觀的道長担平。 經(jīng)常有香客問我,道長锭部,這世上最難降的妖魔是什么暂论? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮空免,結(jié)果婚禮上空另,老公的妹妹穿的比我還像新娘。我一直安慰自己蹋砚,他們只是感情好扼菠,可當我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布摄杂。 她就那樣靜靜地躺著,像睡著了一般循榆。 火紅的嫁衣襯著肌膚如雪析恢。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天秧饮,我揣著相機與錄音映挂,去河邊找鬼。 笑死盗尸,一個胖子當著我的面吹牛柑船,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播泼各,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鞍时,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了扣蜻?” 一聲冷哼從身側(cè)響起逆巍,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎莽使,沒想到半個月后锐极,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡芳肌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年灵再,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片庇勃。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡檬嘀,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出责嚷,到底是詐尸還是另有隱情鸳兽,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布罕拂,位于F島的核電站揍异,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏爆班。R本人自食惡果不足惜衷掷,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望柿菩。 院中可真熱鬧戚嗅,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至躏尉,卻和暖如春蚯根,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胀糜。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工颅拦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人教藻。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓距帅,卻偏偏與公主長得像,于是被迫代替她去往敵國和親括堤。 傳聞我的和親對象是個殘疾皇子锥债,可洞房花燭夜當晚...
    茶點故事閱讀 44,700評論 2 354