TextRank自動(dòng)摘要提取

? ? 所謂自動(dòng)摘要丈积,就是從文章中自動(dòng)抽取關(guān)鍵句筐骇。何謂關(guān)鍵句?人類的理解是能夠概括文章中心的句子江滨,機(jī)器的理解只能模擬人類的理解铛纬,即擬定一個(gè)權(quán)重的評分標(biāo)準(zhǔn),給每個(gè)句子打分唬滑,之后給出排名靠前的幾個(gè)句子告唆。

1.TextRank公式

? ? TextRank的打分思想依然是從PageRank的迭代思想衍生過來的,如下公式所示:

? ? 等式左邊表示一個(gè)句子的權(quán)重(WS是weight_sum的縮寫)间雀,右側(cè)的求和表示每個(gè)相鄰句子對本句子的貢獻(xiàn)程度悔详,一般認(rèn)為一篇文檔中全部句子都是相鄰的。求和的分母wji表示兩個(gè)句子的相似程度惹挟,分母又是一個(gè)weight_sum茄螃,而WS(Vj)代表上次迭代j的權(quán)重,整個(gè)公式是一個(gè)迭代的過程连锯。

2.相似程度的計(jì)算

? ? 而相似程度wji的計(jì)算使用BM25归苍,BM25算法是一種常見用來做相關(guān)度打分的公式用狱,思路比較簡單,主要就是計(jì)算一個(gè)query里面所有詞和文檔的相關(guān)度拼弃,然后再把分?jǐn)?shù)做累加操作夏伊,而每個(gè)詞的相關(guān)度分?jǐn)?shù)主要還是受到tf/idf的影響。公式如下:


? ? fi是詞在文檔中的出現(xiàn)次數(shù)吻氧,dl是文檔長度溺忧,avgdl是文檔平均長度,可以看出如果其他因素一樣盯孙,dl越大鲁森,相關(guān)度越低,這個(gè)也符合結(jié)論振惰。至于會(huì)除以一個(gè)avgdl歌溉,我想是拿本篇文檔長度和整體文檔長度水平做比較,以免單獨(dú)取dl值時(shí)過大骑晶。


? ? N是文檔總數(shù)痛垛,n(qi)是包含該詞的文檔數(shù),0.5是調(diào)教系數(shù)桶蛔,避免n(qi)為0的情況匙头,從這個(gè)公式可以看出N越大,n(qi)越小的羽圃,idf值越大乾胶,這也符合了"詞的重要程度和其出現(xiàn)在總文檔集合里的頻率成反比"的思想,取個(gè)log是為了讓idf的值受N和n(qi)的影響更加平滑朽寞。

影響B(tài)M25公式的因數(shù)有:

1 idf识窿,idf越高分?jǐn)?shù)越高

2 tf,tf越高分?jǐn)?shù)越高

3 dl/avgdl如果該文檔長度在文檔水平中越高則分?jǐn)?shù)越低脑融。

4 k1喻频,b為分?jǐn)?shù)的調(diào)節(jié)因子,其中k1肘迎,b都是調(diào)節(jié)因子甥温,一般k1=2, b=0.75


3.引用

1.https://my.oschina.net/letiantian/blog/351154

2.http://www.hankcs.com/nlp/textrank-algorithm-java-implementation-of-automatic-abstract.html

3.http://www.cnblogs.com/hdflzh/p/4034602.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市妓布,隨后出現(xiàn)的幾起案子姻蚓,更是在濱河造成了極大的恐慌,老刑警劉巖匣沼,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件狰挡,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)加叁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門倦沧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人它匕,你說我怎么就攤上這事展融。” “怎么了豫柬?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵告希,是天一觀的道長。 經(jīng)常有香客問我轮傍,道長暂雹,這世上最難降的妖魔是什么首装? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任创夜,我火速辦了婚禮,結(jié)果婚禮上仙逻,老公的妹妹穿的比我還像新娘驰吓。我一直安慰自己,他們只是感情好系奉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布檬贰。 她就那樣靜靜地躺著,像睡著了一般缺亮。 火紅的嫁衣襯著肌膚如雪翁涤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天萌踱,我揣著相機(jī)與錄音葵礼,去河邊找鬼。 笑死并鸵,一個(gè)胖子當(dāng)著我的面吹牛鸳粉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播园担,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼届谈,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了弯汰?” 一聲冷哼從身側(cè)響起艰山,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎咏闪,沒想到半個(gè)月后曙搬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年织鲸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了舔腾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡搂擦,死狀恐怖稳诚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情瀑踢,我是刑警寧澤扳还,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布胸哥,位于F島的核電站购岗,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蜒谤。R本人自食惡果不足惜棘劣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一俏让、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧茬暇,春花似錦首昔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至巧骚,卻和暖如春赊颠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背劈彪。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工竣蹦, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人粉臊。 一個(gè)月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓草添,卻偏偏與公主長得像,于是被迫代替她去往敵國和親扼仲。 傳聞我的和親對象是個(gè)殘疾皇子远寸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語言人機(jī)對話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)。這篇文章屠凶,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評論 2 64
  • 這個(gè)系列的第六個(gè)主題驰后,主要談一些搜索引擎相關(guān)的常見技術(shù)。 1995年是搜索引擎商業(yè)公司發(fā)展的重要起點(diǎn)矗愧,《淺談推薦系...
    我偏笑_NSNirvana閱讀 6,619評論 3 24
  • 原理 BM25算法灶芝,通常用來作搜索相關(guān)性平分郑原。一句話概況其主要思想:對Query進(jìn)行語素解析,生成語素qi夜涕;然后犯犁,...
    Jlan閱讀 67,221評論 5 42
  • 已被查封房產(chǎn)被抵押 黑龍江省慶安縣居民李某成因鐘某彬欠款不還,申請法院強(qiáng)制執(zhí)行女器。2015年11月13日酸役,慶安縣人民...
    房天使閱讀 310評論 0 0
  • 剛才客戶那邊一個(gè)管理員加我QQ,看到他的簽名驾胆,覺得很甜蜜涣澡,可能是90后小伙伴吧
    jam_sun閱讀 486評論 0 51