目錄
什么是PageRank算法
算法原理(1)
算法原理(2)
看論文推薦
PageRank.png
1. 什么是PageRank算法
PageRank是Google提出的算法汽绢,用于衡量特定網(wǎng)頁相對于搜索引擎索引中的其他網(wǎng)頁而言的重要程度侧戴。
- 是Google創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1997年創(chuàng)造的
- PageRank實現(xiàn)了將鏈接價值概念作為排名因素酗宋。
2. 算法原理(1)
思考超鏈接在互聯(lián)網(wǎng)中的作用?
- 入鏈 ====給蜕猫?的投票
PageRank讓鏈接來“投票“回右,到一個頁面的超鏈接相當于對該頁投一票。 - 入鏈數(shù)量
如果一個頁面節(jié)點接收到的其他網(wǎng)頁指向的入鏈數(shù)量越多渺氧,那么這個頁面越重要蹬屹。 - 入鏈質(zhì)量
指向頁面A的入鏈質(zhì)量不同慨默,質(zhì)量高的頁面會通過鏈接向其他頁面?zhèn)鬟f更多的權重。所以越是質(zhì)量高的頁面指向頁面A潮太,則頁面A越重要
圖1.png
此時:
- 所有的人的入鏈價值都是1
- 站在A的角度:需要將自己的PR值分給B,D
- 站在B的角度:收到來自A,C,D的PR值
- PR需要迭代計算消别,直到PR值會趨于穩(wěn)定
圖2.png
算法原理(2)
初始值
Google的每個頁面設置相同的頁面價值台谢,即PR值
pagerank算法給每個頁面的PR初始值為1寻狂。迭代計算(收斂)
Google不斷的重復計算每個頁面的PageRank。那么經(jīng)過不斷的重復計算朋沮,這些頁面的PR值會趨向于穩(wěn)定蛇券,也就是收斂的狀態(tài)缀壤。在具體企業(yè)應用中怎么樣確定收斂標準?
- 每個頁面的PR值和上一次計算的PR相等
- 設定一個差值指標0.0001)纠亚。當所有頁面和上一次計算的PR差值平均小于該標準時塘慕,則收斂。
- 設定一個百分比(99%)蒂胞,當99%的頁面和上一次計算的PR相等
- 站在互聯(lián)網(wǎng)的角度:
- 只出图呢,不入:PR會為0(垃圾網(wǎng)站)
- 只入,不出:PR會很高(大網(wǎng)站蛤织,不會隨便做出量)
- 直接訪問網(wǎng)頁
- 修正PageRank計算公式:增加阻尼系數(shù)
- 在簡單公式的基礎上增加了阻尼系數(shù)(damping factor)d
- 一般取值d=0.85。
- 完整PageRank計算公式
公式
d:阻尼系數(shù)
M(i):指向i的頁面集合
L(j):頁面的出鏈數(shù)
PR(pj):j頁面的PR值
n:所有頁面數(shù)