TextRank 算法可以脫離語(yǔ)料庫(kù)的背景,僅對(duì)單篇文檔進(jìn)行分析就可以提取該文檔的關(guān)鍵詞狂鞋。
PageRank 算法
TextRank 算法基于 PageRank 算法的割疾。PageRank 算法是一種網(wǎng)頁(yè)排名算法湃累,其基本思想有兩條:
- 鏈接數(shù)量:一個(gè)網(wǎng)頁(yè)被越多的其他網(wǎng)頁(yè)鏈接侧纯,說(shuō)明這個(gè)網(wǎng)頁(yè)越重要新锈。
- 鏈接質(zhì)量:一個(gè)網(wǎng)頁(yè)被一個(gè)越高權(quán)值的網(wǎng)頁(yè)鏈接,也能表明這個(gè)網(wǎng)頁(yè)越重要眶熬。
image.png
d 表示阻尼系數(shù)妹笆,為了解決沒(méi)有入鏈網(wǎng)頁(yè)的得分。在 0.85 的阻尼系數(shù)下娜氏,大約 100 多次迭代 PR 值就能收斂到一個(gè)穩(wěn)定的值拳缠,而當(dāng)阻尼系數(shù)接近 1 時(shí),需要的迭代次數(shù)會(huì)陡然增加很多贸弥,且排序不穩(wěn)定窟坐。
鏈接網(wǎng)頁(yè)的初始分?jǐn)?shù)如何確定:算法開(kāi)始時(shí)會(huì)將所有網(wǎng)頁(yè)的得分初始化為 1,然后通過(guò)多次迭代來(lái)對(duì)每個(gè)網(wǎng)頁(yè)的分?jǐn)?shù)進(jìn)行收斂绵疲。收斂時(shí)的得分就是網(wǎng)頁(yè)最終得分哲鸳。若不能收斂,也可以通過(guò)設(shè)定最大迭代次數(shù)來(lái)對(duì)計(jì)算進(jìn)行控制最岗,計(jì)算停止時(shí)的分?jǐn)?shù)就是網(wǎng)頁(yè)的得分帕胆。
TextRank 算法
image.png