Pagerank算法

一. Pagerank介紹
PageRank算法以前就是Google的網(wǎng)頁(yè)排序算法。PageRank算法娃豹,對(duì)每個(gè)目標(biāo)網(wǎng)頁(yè)進(jìn)行附上權(quán)值讨勤,權(quán)值大的就靠前顯示,權(quán)值小的就靠后顯示析苫。PageRank算法就是給每個(gè)網(wǎng)頁(yè)附加權(quán)值的兜叨。PageRank算法借鑒學(xué)術(shù)界論文重要性的評(píng)估方法:誰被引用的次數(shù)多,誰就越重要衩侥。
注:PageRank算法不單單是按照“被索引數(shù)”來給網(wǎng)頁(yè)付權(quán)值的国旷,用PR值表示每個(gè)網(wǎng)頁(yè)被PageRank算法附加的權(quán)值。

二. PageRank算法的核心細(xì)想
(1)如果一個(gè)網(wǎng)頁(yè)被很多其他網(wǎng)頁(yè)鏈接到的話,說明這個(gè)網(wǎng)頁(yè)比較重要茫死,也就是PageRank值會(huì)相對(duì)較高
(2)如果一個(gè)PageRank值很高的網(wǎng)頁(yè)鏈接到一個(gè)其他的網(wǎng)頁(yè)跪但,那么被鏈接到的網(wǎng)頁(yè)的PageRank值會(huì)相應(yīng)地因此而提高

三. 基本概念
(1)出鏈

如果在網(wǎng)頁(yè)A中附加了網(wǎng)頁(yè)B的超鏈接B-Link,用戶瀏覽網(wǎng)頁(yè)A時(shí)可以點(diǎn)擊B-Link然后進(jìn)入網(wǎng)頁(yè)B峦萎。上面這種A附有B-Link這種情況表示A出鏈B屡久。可知爱榔,網(wǎng)頁(yè)A也可以出鏈C被环,如果A中也附件了網(wǎng)頁(yè)C的超鏈接C-Link。

(2)入鏈

上面通過點(diǎn)擊網(wǎng)頁(yè)A中B-Link進(jìn)入B详幽,表示由A入鏈B筛欢。如果用戶自己在瀏覽器輸入欄輸入網(wǎng)頁(yè)B的URL,然后進(jìn)入B唇聘,表示用戶通過輸入U(xiǎn)RL入鏈B

(3)無出鏈

如果網(wǎng)頁(yè)A中沒有附加其他網(wǎng)頁(yè)的超鏈接版姑,則表示A無出鏈

(4)只對(duì)自己出鏈

如果網(wǎng)頁(yè)A中沒有附件其他網(wǎng)頁(yè)的超鏈接,而只有他自己的超鏈接A-Link雳灾,則表示A只對(duì)自己出鏈

(5)PR值

一個(gè)網(wǎng)頁(yè)的PR值漠酿,概率上理解就是此網(wǎng)頁(yè)被訪問的概率,PR值越高其排名越高谎亩。

四. 幾種網(wǎng)頁(yè)出入鏈關(guān)系
case1:網(wǎng)頁(yè)都有出入鏈

case1

此種情況下的網(wǎng)頁(yè)A的PR值計(jì)算公式為:

case2:存在沒有出鏈的網(wǎng)頁(yè)


case2

網(wǎng)頁(yè)C是沒有出鏈炒嘲。因?yàn)镃沒有出鏈,所以對(duì)A,B,D網(wǎng)頁(yè)沒有PR值的貢獻(xiàn)匈庭。PageRank算法的策略:從數(shù)學(xué)上考慮夫凸,為了滿足Markov鏈,設(shè)定C對(duì)A,B,C,D都有出鏈(也對(duì)他自己也出鏈~)阱持。你也可以理解為:沒有出鏈的網(wǎng)頁(yè)夭拌,我們強(qiáng)制讓他對(duì)所有的網(wǎng)頁(yè)都有出鏈,即讓他對(duì)所有網(wǎng)頁(yè)都有PR值貢獻(xiàn)衷咽。
此種情況PR(A)的計(jì)算公式:


case3:存在只對(duì)自己出鏈的網(wǎng)頁(yè)


case3

C是只對(duì)自己出鏈的網(wǎng)頁(yè)鸽扁。

此時(shí)訪問C時(shí),不會(huì)傻乎乎的停留在C頁(yè)面镶骗,一直點(diǎn)擊C-Link循環(huán)進(jìn)入C桶现,即C網(wǎng)頁(yè)只對(duì)自己的網(wǎng)頁(yè)P(yáng)R值有貢獻(xiàn)。正常的做法是鼎姊,進(jìn)入C后骡和,存在這種情況:在地址輸入欄輸入A/B/C/D的URL地址,然后跳轉(zhuǎn)到A/B/C/D進(jìn)行瀏覽相寇,這就是PageRank算法解決這種情況的策略:設(shè)定存在一定概率為α慰于,用戶在地址欄輸入A/B/C/D地址,然后從C跳轉(zhuǎn)到A/B/C/D進(jìn)行瀏覽唤衫。
此時(shí)PR(A)的計(jì)算公式為:


五. 算法公式
一般情況下婆赠,一個(gè)網(wǎng)頁(yè)的PR值計(jì)算公式為:


注:Mpi是有出鏈到pi的所有網(wǎng)頁(yè)集合,L(pj)是有網(wǎng)頁(yè)pj的出鏈總數(shù)佳励,N是網(wǎng)頁(yè)總數(shù)休里,α一般取值為0.85

所有網(wǎng)頁(yè)P(yáng)R值一直迭代計(jì)算,停止直到下面兩種情況之一發(fā)生:每個(gè)網(wǎng)頁(yè)的PR值前后誤差小于自定義誤差閾值植兰,或者迭代次數(shù)超過了自定義的迭代次數(shù)閾值

六. PageRank算法的缺點(diǎn)
這是一個(gè)天才的算法份帐,原理簡(jiǎn)單但效果驚人。然而楣导,PageRank算法還是有一些弊端废境。

第一,沒有區(qū)分站內(nèi)導(dǎo)航鏈接筒繁。很多網(wǎng)站的首頁(yè)都有很多對(duì)站內(nèi)其他頁(yè)面的鏈接噩凹,稱為站內(nèi)導(dǎo)航鏈接。這些鏈接與不同網(wǎng)站之間的鏈接相比毡咏,肯定是后者更能體現(xiàn)PageRank值的傳遞關(guān)系驮宴。

第二,沒有過濾廣告鏈接和功能鏈接(例如常見的“分享到微博”)呕缭。這些鏈接通常沒有什么實(shí)際價(jià)值堵泽,前者鏈接到廣告頁(yè)面修己,后者常常鏈接到某個(gè)社交網(wǎng)站首頁(yè)。

第三迎罗,對(duì)新網(wǎng)頁(yè)不友好睬愤。一個(gè)新網(wǎng)頁(yè)的一般入鏈相對(duì)較少,即使它的內(nèi)容的質(zhì)量很高纹安,要成為一個(gè)高PR值的頁(yè)面仍需要很長(zhǎng)時(shí)間的推廣尤辱。

針對(duì)PageRank算法的缺點(diǎn),有人提出了TrustRank算法厢岂。其最初來自于2004年斯坦福大學(xué)和雅虎的一項(xiàng)聯(lián)合研究光督,用來檢測(cè)垃圾網(wǎng)站。TrustRank算法的工作原理:先人工去識(shí)別高質(zhì)量的頁(yè)面(即“種子”頁(yè)面)塔粒,那么由“種子”頁(yè)面指向的頁(yè)面也可能是高質(zhì)量頁(yè)面结借,即其TR值也高,與“種子”頁(yè)面的鏈接越遠(yuǎn)窗怒,頁(yè)面的TR值越低映跟。“種子”頁(yè)面可選出鏈數(shù)較多的網(wǎng)頁(yè)扬虚,也可選PR值較高的網(wǎng)站努隙。

TrustRank算法給出每個(gè)網(wǎng)頁(yè)的TR值。將PR值與TR值結(jié)合起來辜昵,可以更準(zhǔn)確地判斷網(wǎng)頁(yè)的重要性荸镊。

補(bǔ)充:
谷歌用PR值來劃分網(wǎng)頁(yè)的等級(jí),有0~10級(jí)堪置,一般4級(jí)以上的都是比較好的網(wǎng)頁(yè)了躬存。谷歌自己PR值為9,百度也是9舀锨,博客園的PR值則為6岭洲。

如今PR值雖不如以前重要了(沒有區(qū)分頁(yè)面內(nèi)的導(dǎo)航鏈接、廣告鏈接和功能鏈接導(dǎo)致PR值本身能夠反映出的網(wǎng)頁(yè)價(jià)值不精確坎匿,并且對(duì)新網(wǎng)頁(yè)不友好)盾剩,但是流量交易里PR值還是個(gè)很重要的參考因素。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末替蔬,一起剝皮案震驚了整個(gè)濱河市告私,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌承桥,老刑警劉巖驻粟,帶你破解...
    沈念sama閱讀 221,406評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異凶异,居然都是意外死亡蜀撑,警方通過查閱死者的電腦和手機(jī)挤巡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來屯掖,“玉大人玄柏,你說我怎么就攤上這事襟衰√” “怎么了?”我有些...
    開封第一講書人閱讀 167,815評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵瀑晒,是天一觀的道長(zhǎng)绍坝。 經(jīng)常有香客問我,道長(zhǎng)苔悦,這世上最難降的妖魔是什么轩褐? 我笑而不...
    開封第一講書人閱讀 59,537評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮玖详,結(jié)果婚禮上把介,老公的妹妹穿的比我還像新娘。我一直安慰自己蟋座,他們只是感情好拗踢,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,536評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著向臀,像睡著了一般巢墅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上券膀,一...
    開封第一講書人閱讀 52,184評(píng)論 1 308
  • 那天君纫,我揣著相機(jī)與錄音,去河邊找鬼芹彬。 笑死蓄髓,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的舒帮。 我是一名探鬼主播会喝,決...
    沈念sama閱讀 40,776評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼会前!你這毒婦竟也來了好乐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,668評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤瓦宜,失蹤者是張志新(化名)和其女友劉穎蔚万,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體临庇,經(jīng)...
    沈念sama閱讀 46,212評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡反璃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,299評(píng)論 3 340
  • 正文 我和宋清朗相戀三年昵慌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片淮蜈。...
    茶點(diǎn)故事閱讀 40,438評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斋攀,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出梧田,到底是詐尸還是另有隱情淳蔼,我是刑警寧澤,帶...
    沈念sama閱讀 36,128評(píng)論 5 349
  • 正文 年R本政府宣布裁眯,位于F島的核電站鹉梨,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏穿稳。R本人自食惡果不足惜存皂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,807評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望逢艘。 院中可真熱鬧旦袋,春花似錦、人聲如沸它改。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,279評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)搔课。三九已至胰柑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間爬泥,已是汗流浹背柬讨。 一陣腳步聲響...
    開封第一講書人閱讀 33,395評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留袍啡,地道東北人踩官。 一個(gè)月前我還...
    沈念sama閱讀 48,827評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像境输,于是被迫代替她去往敵國(guó)和親蔗牡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,446評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容