推薦系統(tǒng)召回算法之——圖模型(Personal Rank)

目錄

1、Personal Rank 算法背景

2决侈、二分圖的概念

3词渤、文件解析原理及其物理意義

4牵舱、PR公式推導(dǎo)

5、python實(shí)現(xiàn)

6缺虐、總結(jié)


Personal Rank算法背景:

用戶(hù)行為很容易表示為圖

圖推薦在個(gè)性化推薦領(lǐng)域效果顯著芜壁,UI矩陣就是典型的二分圖。


二分圖:又稱(chēng)為二部圖高氮,是圖論中的一種特殊模型慧妄。設(shè)G=(V,E)是一個(gè)無(wú)向圖,如果頂點(diǎn)V可分割為兩個(gè)互不相交的子集(A,B)剪芍,并且圖中的每條邊(i,j)所關(guān)聯(lián)的兩個(gè)頂點(diǎn)i和j分別屬于這兩個(gè)不同的頂點(diǎn)集(i in A塞淹,i in B),則稱(chēng)圖G為一個(gè)二分圖紊浩。


下面舉例并從物理意義角度解析窖铡,二分圖算法是如何將UI矩陣表示為二分圖,計(jì)算出Item集合對(duì)固定user的重要程度排序?

UI矩陣的二分圖表示法

1坊谁、兩個(gè)頂點(diǎn)之間連通的路徑數(shù)费彼?

A到c:A->a->B->c;A->d->D->c兩條連通路徑口芍;

A到e:A->b->C->e一條連通路徑

故箍铲,A對(duì)物品c的偏好程度大于對(duì)物品e的偏好。

2鬓椭、兩個(gè)頂點(diǎn)之間的連通路徑長(zhǎng)度颠猴?

A->c兩條路徑4個(gè)頂點(diǎn),連通路徑長(zhǎng)度都是3小染;A->e也為3

3翘瓮、兩個(gè)頂點(diǎn)之間連通路徑經(jīng)過(guò)頂點(diǎn)的初度?

A到c:A->a->B->c:3+2+2+2裤翩;A->d->D->c:3+2+2+2

A到e:A->b->C->e:3+2+2+1

可見(jiàn)资盅,PR算法是將UI矩陣表示為二分圖存儲(chǔ)后,通過(guò)統(tǒng)計(jì)兩頂點(diǎn)連通路徑長(zhǎng)度踊赠、連通路徑數(shù)以及頂點(diǎn)初度信息來(lái)計(jì)算Item集合每個(gè)Item對(duì)固定user的重要程度的一種算法呵扛。


算法文字描述:對(duì)用戶(hù)A進(jìn)行個(gè)性化推薦,從用戶(hù)A結(jié)點(diǎn)開(kāi)始在用戶(hù)物品二分圖random walk 筐带,以alpha的概率從A的出邊中等概率選擇一條游走過(guò)去今穿,到達(dá)頂點(diǎn)后(例如a),有alpha的概率繼續(xù)從頂點(diǎn)a的出邊中等概率選擇一條繼續(xù)游走到下一個(gè)結(jié)點(diǎn)伦籍,或者(1-alpha)的概率回到起點(diǎn)A蓝晒,多次迭代腮出。直到所有的頂點(diǎn)對(duì)于用戶(hù)A的重要度收斂。(二分圖有且只有一個(gè)頂點(diǎn))

算法公式推導(dǎo)

PR公式(1)

按照上面UI矩陣的二分圖表示法結(jié)合算法文字描述拔创,以節(jié)點(diǎn)A和a來(lái)舉例解釋公式利诺。

PR(v):表示不同節(jié)點(diǎn)重要度。

以a為例剩燥,公式上部分表示節(jié)點(diǎn)a與之相連的節(jié)點(diǎn)A和B慢逾,分別從各自出邊等概率貢獻(xiàn)了1/3和1/2的重要度加和后乘以\alpha \alpha 取經(jīng)值為0-1之間(經(jīng)驗(yàn)值0.6)灭红。

以A為例侣滩,公式下部分表示與A相連的節(jié)點(diǎn)a,b,d,分別從各自的出邊等概率貢獻(xiàn)了1/2的重要度变擒,同時(shí)它們又是直接與A相連的節(jié)點(diǎn)君珠,從PR算法文字描述可知,都可以以1-\alpha 的概率回到A節(jié)點(diǎn)娇斑。

公式(1)的矩陣表達(dá)方式為:r = (1-\alpha )r_{0}+\alpha M^T r (2)

其中r是n維向量策添,每一個(gè)元素代表一個(gè)節(jié)點(diǎn)的PR重要度;r_{0} 也是n維向量毫缆,第i個(gè)位置為1唯竹,其余位置為0,我們就是要為第i個(gè)節(jié)點(diǎn)進(jìn)行推薦苦丁。其中M是n階轉(zhuǎn)移矩陣:

M_{ij} =? \frac{1}{\vert out(i) \vert } ? if (j\in out(i)) else 0

由(2)進(jìn)行恒等變形可得

(E-\alpha M^T? )r =(1-\alpha ) r_{0} (3)

r = (E-\alpha M^T? )^ -1 (1-\alpha )r_{0} (4) 浸颓,其中(E-\alpha M^T? )^-1就是所有節(jié)點(diǎn)的推薦結(jié)果,乘以r_{0} 就是取出矩陣的第i列旺拉。


Python實(shí)現(xiàn):https://github.com/SolodanceMagicq/RecommendSys/tree/master/PersonalRank


總結(jié):

1产上、personalrank二分圖算法,是一種無(wú)向圖蛾狗,有且只有一個(gè)root頂點(diǎn)晋涣。

2、算法核心思想是將UI矩陣以二分圖存儲(chǔ)沉桌,通過(guò)頂點(diǎn)按等概率隨機(jī)游走谢鹊,迭代計(jì)算關(guān)聯(lián)節(jié)點(diǎn)pr值的過(guò)程。首次迭代只計(jì)算推薦用戶(hù)(root頂點(diǎn))與其直接關(guān)聯(lián)的節(jié)點(diǎn)pr值蒲牧,然后每次基于上次節(jié)點(diǎn)進(jìn)一步迭代計(jì)算關(guān)聯(lián)節(jié)點(diǎn),直至收斂赌莺。

3冰抢、PersonalRank算法迭代的時(shí)間復(fù)雜度過(guò)高,須進(jìn)一步優(yōu)化艘狭,工業(yè)界一般會(huì)借助spark離線(xiàn)計(jì)算或mapreduce將多節(jié)點(diǎn)并行計(jì)算提高計(jì)算性能挎扰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末翠订,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子遵倦,更是在濱河造成了極大的恐慌尽超,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件梧躺,死亡現(xiàn)場(chǎng)離奇詭異似谁,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)掠哥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)巩踏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人续搀,你說(shuō)我怎么就攤上這事塞琼。” “怎么了禁舷?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵彪杉,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我牵咙,道長(zhǎng)派近,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任霜大,我火速辦了婚禮构哺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘战坤。我一直安慰自己曙强,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開(kāi)白布途茫。 她就那樣靜靜地躺著碟嘴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪囊卜。 梳的紋絲不亂的頭發(fā)上娜扇,一...
    開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音栅组,去河邊找鬼雀瓢。 笑死,一個(gè)胖子當(dāng)著我的面吹牛玉掸,可吹牛的內(nèi)容都是我干的刃麸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼司浪,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼泊业!你這毒婦竟也來(lái)了把沼?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤吁伺,失蹤者是張志新(化名)和其女友劉穎饮睬,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體篮奄,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡捆愁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了宦搬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牙瓢。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖间校,靈堂內(nèi)的尸體忽然破棺而出矾克,到底是詐尸還是另有隱情,我是刑警寧澤憔足,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布胁附,位于F島的核電站,受9級(jí)特大地震影響滓彰,放射性物質(zhì)發(fā)生泄漏控妻。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一揭绑、第九天 我趴在偏房一處隱蔽的房頂上張望弓候。 院中可真熱鬧,春花似錦他匪、人聲如沸菇存。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)依鸥。三九已至,卻和暖如春悼沈,著一層夾襖步出監(jiān)牢的瞬間贱迟,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工絮供, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留衣吠,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓壤靶,卻偏偏與公主長(zhǎng)得像缚俏,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354