PageRank算法是圖的鏈接分享的代表性算法惰聂,屬于圖數據上的無監(jiān)督學習方法。
PageRank可以定義在任意有向圖上咱筛,后來被應用到社會影響力分析搓幌、文本摘要等多個問題。
是在有向圖上定義一個隨機游走模型迅箩,即一階馬爾可夫鏈溉愁,描述隨機游走者沿著有向圖隨機訪問各個結點的行為。
在一定條件下饲趋,極限情況訪問每個結點的概率收斂到平穩(wěn)分布拐揭,這時各個結點的平穩(wěn)概率值就是其PageRank值,表示結點的重要度奕塑。
PageRank是遞歸定義的投队,PageRank的計算可以通過迭代算法進行。
一爵川、PageRank定義
1、基本想法
歷史上息楔,PageRank算法作為計算機互聯(lián)網網頁重要度的算法被提出寝贡。PageRank是定義在網頁集合上的一個函數,它對每個網頁給出一個正實數值依,表示網頁的重要程度圃泡,整體構成一個向量。
PageRank值越高愿险,網頁就越重要颇蜡,在互聯(lián)網搜索的排序中可能就被排在前面价说。
PageRank表示這個馬爾可夫鏈的平穩(wěn)分布。
每個網頁的PageRank值就是平穩(wěn)概率风秤。
例如:
PageRank的計算可以在互聯(lián)網的有向圖上進行鳖目,通常是一個迭代過程。
先假設一個初始分布缤弦,通過迭代领迈,不對計算所有網頁的PageRank值,直到收斂為止碍沐。
2狸捅、有向圖和隨機游走模型
(1)有向圖
定義
(2)隨機游走模型
注意轉移矩陣具有性質:
在有向圖上的最忌游走形成馬爾可夫鏈。也就是說累提,隨機游走者每經一個單位時間轉移一個狀態(tài)尘喝。
在下圖的有向圖上可以定義隨機游走模型:
3、PageRank的基本定義
PageRank的基本定義
定理
4斋陪、PageRank的一般定義
二朽褪、PageRank的計算
1、迭代算法
PageRank的迭代算法
2鳍贾、冪法
冪法是一個常用的PageRank計算方法鞍匾,通過近似計算矩陣的主特征值和主特征訓練求得有向圖的一般PageRank。
冪法主要用于近似計算矩陣的主特征值和主特征向量骑科。
- 主特征值是指絕對值最大的特征值橡淑。
- 主特征向量是其對應的特征向量。
注意:特征向量不是唯一的咆爽,只是其方向是確定的梁棠,乘上任意系數還是特征向量。
假設要求n階矩陣A的主特征值和主特征向量斗埂,采用下面的步驟:
計算一般PageRank的冪法
3符糊、代數算法
代數算法通過一般轉移矩陣的逆矩陣計算求有向圖的一般PageRank