文本關(guān)鍵詞提取算法-TextRank

TextRank是一種用來做關(guān)鍵詞提取的算法,也可以用于提取短語和自動摘要尽纽。因為TextRank是基于PageRank的畅蹂,所以首先簡要介紹下PageRank算法。

1.PageRank算法

PageRank設(shè)計之初是用于Google的網(wǎng)頁排名的旬迹,以該公司創(chuàng)辦人拉里·佩奇(Larry Page)之姓來命名火惊。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性,在搜索引擎優(yōu)化操作中是經(jīng)常被用來評估網(wǎng)頁優(yōu)化的成效因素之一奔垦。PageRank通過互聯(lián)網(wǎng)中的超鏈接關(guān)系來確定一個網(wǎng)頁的排名屹耐,其公式是通過一種投票的思想來設(shè)計的:如果我們要計算網(wǎng)頁A的PageRank值(以下簡稱PR值),那么我們需要知道有哪些網(wǎng)頁鏈接到網(wǎng)頁A椿猎,也就是要首先得到網(wǎng)頁A的入鏈惶岭,然后通過入鏈給網(wǎng)頁A的投票來計算網(wǎng)頁A的PR值寿弱。這樣設(shè)計可以保證達(dá)到這樣一個效果:當(dāng)某些高質(zhì)量的網(wǎng)頁指向網(wǎng)頁A的時候,那么網(wǎng)頁A的PR值會因為這些高質(zhì)量的投票而變大按灶,而網(wǎng)頁A被較少網(wǎng)頁指向或被一些PR值較低的網(wǎng)頁指向的時候,A的PR值也不會很大脖捻,這樣可以合理地反映一個網(wǎng)頁的質(zhì)量水平。那么根據(jù)以上思想兆衅,佩奇設(shè)計了下面的公式:



該公式中地沮,Vi表示某個網(wǎng)頁,Vj表示鏈接到Vi的網(wǎng)頁(即Vi的入鏈)羡亩,S(Vi)表示網(wǎng)頁Vi的PR值摩疑,In(Vi)表示網(wǎng)頁Vi的所有入鏈的集合,Out(Vj)是網(wǎng)頁j中的鏈接存在的鏈接指向的網(wǎng)頁的集合。|Out(Vj)|是集合中元素的個數(shù)畏铆。雷袋,d表示阻尼系數(shù),是用來克服這個公式中“d *”后面的部分的固有缺陷用的:如果僅僅有求和的部分辞居,那么該公式將無法處理沒有入鏈的網(wǎng)頁的PR值楷怒,因為這時,根據(jù)該公式這些網(wǎng)頁的PR值為0瓦灶,但實(shí)際情況卻不是這樣鸠删,所有加入了一個阻尼系數(shù)來確保每個網(wǎng)頁都有一個大于0的PR值,根據(jù)實(shí)驗的結(jié)果贼陶,在0.85的阻尼系數(shù)下刃泡,大約100多次迭代PR值就能收斂到一個穩(wěn)定的值,而當(dāng)阻尼系數(shù)接近1時碉怔,需要的迭代次數(shù)會陡然增加很多烘贴,且排序不穩(wěn)定。公式中S(Vj)前面的分?jǐn)?shù)指的是Vj所有出鏈指向的網(wǎng)頁應(yīng)該平分Vj的PR值撮胧,這樣才算是把自己的票分給了自己鏈接到的網(wǎng)頁桨踪。

2.TextRank算法提取關(guān)鍵詞

TextRank是由PageRank改進(jìn)而來,其公式有頗多相似之處芹啥,這里給出TextRank的公式

可以看出锻离,該公式僅僅比PageRank多了一個權(quán)重項Wji,用來表示兩個節(jié)點(diǎn)之間的邊連接有不同的重要程度叁征。TextRank用于關(guān)鍵詞提取的算法如下:
1)把給定的文本T按照完整句子進(jìn)行分割纳账,即

2)對于每個句子

逛薇,進(jìn)行分詞和詞性標(biāo)注處理捺疼,并過濾掉停用詞,只保留指定詞性的單詞永罚,如名詞啤呼、動詞卧秘、形容詞,即

官扣,其中 ti,j 是保留后的候選關(guān)鍵詞翅敌。

3)構(gòu)建候選關(guān)鍵詞圖G = (V,E),其中V為節(jié)點(diǎn)集惕蹄,由(2)生成的候選關(guān)鍵詞組成蚯涮,然后采用共現(xiàn)關(guān)系(co-occurrence)構(gòu)造任兩點(diǎn)之間的邊,兩個節(jié)點(diǎn)之間存在邊僅當(dāng)它們對應(yīng)的詞匯在長度為K的窗口中共現(xiàn)卖陵,K表示窗口大小遭顶,即最多共現(xiàn)K個單詞。

4)根據(jù)上面公式泪蔫,迭代傳播各節(jié)點(diǎn)的權(quán)重棒旗,直至收斂。

5)對節(jié)點(diǎn)權(quán)重進(jìn)行倒序排序撩荣,從而得到最重要的T個單詞铣揉,作為候選關(guān)鍵詞。

6)由5得到最重要的T個單詞餐曹,在原始文本中進(jìn)行標(biāo)記逛拱,若形成相鄰詞組,則組合成多詞關(guān)鍵詞台猴。

3.TextRank算法提取關(guān)鍵詞短語

提取關(guān)鍵詞短語的方法基于關(guān)鍵詞提取橘券,可以簡單認(rèn)為:如果提取出的若干關(guān)鍵詞在文本中相鄰,那么構(gòu)成一個被提取的關(guān)鍵短語卿吐。

4.TextRank生成摘要

提取關(guān)鍵詞短語的方法基于關(guān)鍵詞提取旁舰,可以簡單認(rèn)為:如果提取出的若干關(guān)鍵詞在文本中相鄰,那么構(gòu)成一個被提取的關(guān)鍵短語嗡官。

2.3TextRank生成摘要

將文本中的每個句子分別看做一個節(jié)點(diǎn)箭窜,如果兩個句子有相似性,那么認(rèn)為這兩個句子對應(yīng)的節(jié)點(diǎn)之間存在一條無向有權(quán)邊衍腥』怯#考察句子相似度的方法是下面這個公式:

公式中,Si,Sj分別表示兩個句子婆咸,Wk表示句子中的詞竹捉,那么分子部分的意思是同時出現(xiàn)在兩個句子中的同一個詞的個數(shù),分母是對句子中詞的個數(shù)求對數(shù)之和尚骄。分母這樣設(shè)計可以遏制較長的句子在相似度計算上的優(yōu)勢块差。

我們可以根據(jù)以上相似度公式循環(huán)計算任意兩個節(jié)點(diǎn)之間的相似度,根據(jù)閾值去掉兩個節(jié)點(diǎn)之間相似度較低的邊連接,構(gòu)建出節(jié)點(diǎn)連接圖憨闰,然后計算TextRank值状蜗,最后對所有TextRank值排序,選出TextRank值最高的幾個節(jié)點(diǎn)對應(yīng)的句子作為摘要鹉动。

參考 http://blog.csdn.net/u013041398/article/details/52473994

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末轧坎,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子泽示,更是在濱河造成了極大的恐慌缸血,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件械筛,死亡現(xiàn)場離奇詭異属百,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)变姨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門族扰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人定欧,你說我怎么就攤上這事渔呵。” “怎么了砍鸠?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵扩氢,是天一觀的道長。 經(jīng)常有香客問我爷辱,道長录豺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任饭弓,我火速辦了婚禮双饥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘弟断。我一直安慰自己咏花,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布阀趴。 她就那樣靜靜地躺著昏翰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪刘急。 梳的紋絲不亂的頭發(fā)上棚菊,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機(jī)與錄音叔汁,去河邊找鬼统求。 笑死检碗,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的球订。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼瑰钮,長吁一口氣:“原來是場噩夢啊……” “哼冒滩!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起浪谴,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤开睡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后苟耻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體篇恒,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年凶杖,在試婚紗的時候發(fā)現(xiàn)自己被綠了胁艰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡智蝠,死狀恐怖腾么,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情杈湾,我是刑警寧澤解虱,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站漆撞,受9級特大地震影響殴泰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜浮驳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一悍汛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧至会,春花似錦员凝、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至瓶蚂,卻和暖如春糖埋,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背窃这。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工瞳别, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓祟敛,卻偏偏與公主長得像疤坝,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子馆铁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容