? ? 所謂自動(dòng)摘要丈积,就是從文章中自動(dòng)抽取關(guān)鍵句筐骇。何謂關(guān)鍵句?人類的理解是能夠概括文章中心的句子江滨,機(jī)器的理解只能模擬人類的理解铛纬,即擬定一個(gè)權(quán)重的評分標(biāo)準(zhǔn),給每個(gè)句子打分唬滑,之后給出排名靠前的幾個(gè)句子告唆。
1.TextRank公式
? ? TextRank的打分思想依然是從PageRank的迭代思想衍生過來的,如下公式所示:
? ? 等式左邊表示一個(gè)句子的權(quán)重(WS是weight_sum的縮寫)间雀,右側(cè)的求和表示每個(gè)相鄰句子對本句子的貢獻(xiàn)程度悔详,一般認(rèn)為一篇文檔中全部句子都是相鄰的。求和的分母wji表示兩個(gè)句子的相似程度惹挟,分母又是一個(gè)weight_sum茄螃,而WS(Vj)代表上次迭代j的權(quán)重,整個(gè)公式是一個(gè)迭代的過程连锯。
2.相似程度的計(jì)算
? ? 而相似程度wji的計(jì)算使用BM25归苍,BM25算法是一種常見用來做相關(guān)度打分的公式用狱,思路比較簡單,主要就是計(jì)算一個(gè)query里面所有詞和文檔的相關(guān)度拼弃,然后再把分?jǐn)?shù)做累加操作夏伊,而每個(gè)詞的相關(guān)度分?jǐn)?shù)主要還是受到tf/idf的影響。公式如下:
? ? fi是詞在文檔中的出現(xiàn)次數(shù)吻氧,dl是文檔長度溺忧,avgdl是文檔平均長度,可以看出如果其他因素一樣盯孙,dl越大鲁森,相關(guān)度越低,這個(gè)也符合結(jié)論振惰。至于會(huì)除以一個(gè)avgdl歌溉,我想是拿本篇文檔長度和整體文檔長度水平做比較,以免單獨(dú)取dl值時(shí)過大骑晶。
? ? N是文檔總數(shù)痛垛,n(qi)是包含該詞的文檔數(shù),0.5是調(diào)教系數(shù)桶蛔,避免n(qi)為0的情況匙头,從這個(gè)公式可以看出N越大,n(qi)越小的羽圃,idf值越大乾胶,這也符合了"詞的重要程度和其出現(xiàn)在總文檔集合里的頻率成反比"的思想,取個(gè)log是為了讓idf的值受N和n(qi)的影響更加平滑朽寞。
影響B(tài)M25公式的因數(shù)有:
1 idf识窿,idf越高分?jǐn)?shù)越高
2 tf,tf越高分?jǐn)?shù)越高
3 dl/avgdl如果該文檔長度在文檔水平中越高則分?jǐn)?shù)越低脑融。
4 k1喻频,b為分?jǐn)?shù)的調(diào)節(jié)因子,其中k1肘迎,b都是調(diào)節(jié)因子甥温,一般k1=2, b=0.75
3.引用
1.https://my.oschina.net/letiantian/blog/351154
2.http://www.hankcs.com/nlp/textrank-algorithm-java-implementation-of-automatic-abstract.html