textRank是由PageRank啟發(fā)來的唧取,PageRank主要用于對(duì)在線搜索結(jié)果中的網(wǎng)頁進(jìn)行排序嵌纲。
抽取式摘要主要分為:
PageRank
PageRank
Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票焕檬,Google根據(jù)投票來源(甚至來源的來源岩灭,即鏈接到A頁面的頁面)和投票目標(biāo)的等級(jí)來決定新的等級(jí)瞄摊。簡(jiǎn)單的說,一個(gè)高等級(jí)的頁面可以使其他低等級(jí)頁面的等級(jí)提升裸删。
具體說來就是滴铅,PageRank有兩個(gè)基本思想反镇,也可以說是假設(shè),即數(shù)量假設(shè):一個(gè)網(wǎng)頁被越多的其他頁面鏈接平痰,就越重)擅笔;質(zhì)量假設(shè):一個(gè)網(wǎng)頁越是被高質(zhì)量的網(wǎng)頁鏈接碰辅,就越重要车摄。
其中d是阻尼系數(shù)祟牲,通常設(shè)置為0.85,In(Vi)是指向網(wǎng)頁i的鏈接榛搔, Out(Vj)是指出頁面i看的網(wǎng)頁集合诺凡。
TextRank
兩種算法的相似之處:
1.用句子代替網(wǎng)頁
2.任意兩個(gè)句子的相似性等價(jià)于網(wǎng)頁轉(zhuǎn)換概率
3.相似性得分存儲(chǔ)在一個(gè)方形矩陣中,類似于PageRank的矩陣M
TextRank 算法是一種用于文本的基于圖的排序算法药薯。
其基本思想通過把文本分割成若干組成單元(單詞绑洛、句子)并建立圖模型, 利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序, 僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取、文摘童本。
和 LDA、HMM 等模型不同, TextRank不需要事先對(duì)多篇文檔進(jìn)行學(xué)習(xí)訓(xùn)練, 因其簡(jiǎn)潔有效而得到廣泛應(yīng)用脸候。
TextRank 一般模型可以表示為一個(gè)有向有權(quán)圖 G =(V, E), 由點(diǎn)集合 V和邊集合 E 組成, E 是V ×V的子集穷娱。圖中任兩點(diǎn) Vi , Vj 之間邊的權(quán)重為 wji , 對(duì)于一個(gè)給定的點(diǎn) Vi, In(Vi) 為 指 向 該 點(diǎn) 的 點(diǎn) 集 合 , Out(Vi) 為點(diǎn) Vi 指向的點(diǎn)集合。點(diǎn) Vi 的得分定義如下: