TextRank

textRank是由PageRank啟發(fā)來的唧取,PageRank主要用于對(duì)在線搜索結(jié)果中的網(wǎng)頁進(jìn)行排序嵌纲。
抽取式摘要主要分為:

抽取摘要分類.png

PageRank

PageRank
Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票焕檬,Google根據(jù)投票來源(甚至來源的來源岩灭,即鏈接到A頁面的頁面)和投票目標(biāo)的等級(jí)來決定新的等級(jí)瞄摊。簡(jiǎn)單的說,一個(gè)高等級(jí)的頁面可以使其他低等級(jí)頁面的等級(jí)提升裸删。
具體說來就是滴铅,PageRank有兩個(gè)基本思想反镇,也可以說是假設(shè),即數(shù)量假設(shè):一個(gè)網(wǎng)頁被越多的其他頁面鏈接平痰,就越重)擅笔;質(zhì)量假設(shè):一個(gè)網(wǎng)頁越是被高質(zhì)量的網(wǎng)頁鏈接碰辅,就越重要车摄。

pagerank公式.png

其中d是阻尼系數(shù)祟牲,通常設(shè)置為0.85,In(Vi)是指向網(wǎng)頁i的鏈接榛搔, Out(Vj)是指出頁面i看的網(wǎng)頁集合诺凡。


TextRank

兩種算法的相似之處:
1.用句子代替網(wǎng)頁
2.任意兩個(gè)句子的相似性等價(jià)于網(wǎng)頁轉(zhuǎn)換概率
3.相似性得分存儲(chǔ)在一個(gè)方形矩陣中,類似于PageRank的矩陣M

TextRank 算法是一種用于文本的基于圖的排序算法药薯。
其基本思想通過把文本分割成若干組成單元(單詞绑洛、句子)并建立圖模型, 利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序, 僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取、文摘童本。
和 LDA、HMM 等模型不同, TextRank不需要事先對(duì)多篇文檔進(jìn)行學(xué)習(xí)訓(xùn)練, 因其簡(jiǎn)潔有效而得到廣泛應(yīng)用脸候。

TextRank公式.png

TextRank 一般模型可以表示為一個(gè)有向有權(quán)圖 G =(V, E), 由點(diǎn)集合 V和邊集合 E 組成, E 是V ×V的子集穷娱。圖中任兩點(diǎn) Vi , Vj 之間邊的權(quán)重為 wji , 對(duì)于一個(gè)給定的點(diǎn) Vi, In(Vi) 為 指 向 該 點(diǎn) 的 點(diǎn) 集 合 , Out(Vi) 為點(diǎn) Vi 指向的點(diǎn)集合。點(diǎn) Vi 的得分定義如下:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末运沦,一起剝皮案震驚了整個(gè)濱河市泵额,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌携添,老刑警劉巖嫁盲,帶你破解...
    沈念sama閱讀 216,744評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異烈掠,居然都是意外死亡羞秤,警方通過查閱死者的電腦和手機(jī)缸托,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瘾蛋,“玉大人俐镐,你說我怎么就攤上這事〔负撸” “怎么了佩抹?”我有些...
    開封第一講書人閱讀 163,105評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)取董。 經(jīng)常有香客問我棍苹,道長(zhǎng),這世上最難降的妖魔是什么茵汰? 我笑而不...
    開封第一講書人閱讀 58,242評(píng)論 1 292
  • 正文 為了忘掉前任廊勃,我火速辦了婚禮,結(jié)果婚禮上经窖,老公的妹妹穿的比我還像新娘坡垫。我一直安慰自己,他們只是感情好画侣,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,269評(píng)論 6 389
  • 文/花漫 我一把揭開白布冰悠。 她就那樣靜靜地躺著,像睡著了一般配乱。 火紅的嫁衣襯著肌膚如雪溉卓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,215評(píng)論 1 299
  • 那天搬泥,我揣著相機(jī)與錄音桑寨,去河邊找鬼。 笑死忿檩,一個(gè)胖子當(dāng)著我的面吹牛尉尾,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播燥透,決...
    沈念sama閱讀 40,096評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼沙咏,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了班套?” 一聲冷哼從身側(cè)響起肢藐,我...
    開封第一講書人閱讀 38,939評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吱韭,沒想到半個(gè)月后吆豹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,354評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,573評(píng)論 2 333
  • 正文 我和宋清朗相戀三年痘煤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凑阶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,745評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡速勇,死狀恐怖晌砾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情烦磁,我是刑警寧澤养匈,帶...
    沈念sama閱讀 35,448評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站都伪,受9級(jí)特大地震影響呕乎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜陨晶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,048評(píng)論 3 327
  • 文/蒙蒙 一猬仁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧先誉,春花似錦湿刽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至铃芦,卻和暖如春雅镊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背刃滓。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工仁烹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人咧虎。 一個(gè)月前我還...
    沈念sama閱讀 47,776評(píng)論 2 369
  • 正文 我出身青樓卓缰,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親老客。 傳聞我的和親對(duì)象是個(gè)殘疾皇子僚饭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,652評(píng)論 2 354