TextRank算法提取文本摘要

原理

所謂自動摘要姓迅，就是從文章中自動抽取關(guān)鍵句葡公。何謂關(guān)鍵句糯彬？人類的理解是能夠概括文章中心的句子芳绩，機(jī)器的理解只能模擬人類的理解，即擬定一個(gè)權(quán)重的評分標(biāo)準(zhǔn)昆箕，給每個(gè)句子打分鸦列，之后給出排名靠前的幾個(gè)句子。
TextRank的打分思想依然是從PageRank的迭代思想衍生過來的鹏倘，如下公式所示：

等式左邊表示一個(gè)句子的權(quán)重（WS是weight_sum的縮寫）薯嗤，右側(cè)的求和表示每個(gè)相鄰句子對本句子的貢獻(xiàn)程度。與提取關(guān)鍵字的時(shí)候不同纤泵，一般認(rèn)為全部句子都是相鄰的骆姐，不再提取窗口。
求和的分子wji表示兩個(gè)句子的相似程度捏题，相似程度wji的計(jì)算玻褪，推薦使用BM25算法。分母又是一個(gè)weight_sum涉馅，而WS(Vj)代表上次迭代j的權(quán)重。整個(gè)公式是一個(gè)迭代的過程黄虱。

代碼實(shí)現(xiàn)

text = '''
自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向稚矿。
它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。
自然語言處理是一門融語言學(xué)捻浦、計(jì)算機(jī)科學(xué)晤揣、數(shù)學(xué)于一體的科學(xué)。
因此朱灿，這一領(lǐng)域的研究將涉及自然語言昧识，即人們?nèi)粘Ｊ褂玫恼Z言，
所以它與語言學(xué)的研究有著密切的聯(lián)系盗扒，但又有重要的區(qū)別跪楞。
自然語言處理并不是一般地研究自然語言缀去，
而在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng)，
特別是其中的軟件系統(tǒng)甸祭。因而它是計(jì)算機(jī)科學(xué)的一部分缕碎。
'''


import jieba
from utils import utils
from snownlp import seg


class TextRank(object):

    def __init__(self, docs):
        self.docs = docs
        self.bm25 = BM25(docs)
        self.D = len(docs)
        self.d = 0.85
        self.weight = []
        self.weight_sum = []
        self.vertex = []
        self.max_iter = 200
        self.min_diff = 0.001
        self.top = []

    def text_rank(self):
        for cnt, doc in enumerate(self.docs):
            scores = self.bm25.simall(doc)
            self.weight.append(scores)
            self.weight_sum.append(sum(scores)-scores[cnt])
            self.vertex.append(1.0)
        for _ in range(self.max_iter):
            m = []
            max_diff = 0
            for i in range(self.D):
                m.append(1-self.d)
                for j in range(self.D):
                    if j == i or self.weight_sum[j] == 0:
                        continue
                    # TextRank的公式
                    m[-1] += (self.d*self.weight[j][i]
                              / self.weight_sum[j]*self.vertex[j])
                if abs(m[-1] - self.vertex[i]) > max_diff:
                    max_diff = abs(m[-1] - self.vertex[i])
            self.vertex = m
            if max_diff <= self.min_diff:
                break
        self.top = list(enumerate(self.vertex))
        self.top = sorted(self.top, key=lambda x: x[1], reverse=True)

    def top_index(self, limit):
        return list(map(lambda x: x[0], self.top))[:limit]

    def top(self, limit):
        return list(map(lambda x: self.docs[x[0]], self.top))

if __name__ == '__main__':
    sents = utils.get_sentences(text)
    doc = []
    for sent in sents:
        words = seg.seg(sent)
        # words = list(jieba.cut(sent))
        words = utils.filter_stop(words)
        doc.append(words)
    print(doc)
 
    rank = TextRank(doc)
    rank.text_rank()
    for index in rank.top_index(3):
        print(sents[index])

self.weight
每一句與其它句的相似度

[[10.011936342719583, 0.0, 0.9413276860939246, 0, 2.5208967587765487, -0.42128772462816594, 0, 0, -0.41117681923708993, 0.0, 0, 1.7776032315706807], [0.0, 7.362470286473312, -0.1203528298812426, 0, 0.3208550531092889, -0.42128772462816594, 0.8638723295025715, 0, 0.16249889568919007, 1.1941879837414735, 0, 0.42128772462816594], [1.071635908557153, -0.2234656626288532, 7.174478670010185, 0, -0.6108314377461014, -0.8425754492563319, 0, 0, -0.8223536384741799, -0.258091618961588, 0, 3.1339187385131955], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1.256853150903099, 0.23476226867251077, -0.32977059288034255, 0, 3.7397693866902904, -0.42128772462816594, 0.8638723295025715, 0, 0.16249889568919007, -0.258091618961588, 0, 0], [-0.197031608341979, -0.2234656626288532, -0.32977059288034255, 0, -0.3054157188730507, 2.3454371414406934, 0, 0, -0.41117681923708993, -0.258091618961588, 0, 0], [0, 0.45822793130136397, 0, 0, 0.6262707719823396, 0, 3.630597195571431, 0, 0.57367571492628, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 3.1672694847490694, 0, 0, 0, 0], [-0.394063216683958, 0.011296606043657564, -0.6595411857606851, 0, 0.015439334236238222, -0.8425754492563319, 0.8638723295025715, 0, 1.5886339237482168, -0.516183237923176, 0, 0], [0.0, 1.0339739436867168, -0.1203528298812426, 0, -0.3054157188730507, -0.42128772462816594, 0, 0, -0.41117681923708993, 5.778308586740918, 1.730455352739724, 0.42128772462816594], [0, 0, 0, 0, 0, 0, 0, 0, 0, 1.1941879837414735, 6.642686196030381, 0], [0.8313653667915449, 0.2234656626288532, 1.271098278974267, 0, 0, 0, 0, 0, 0, 0.258091618961588, 0, 1.7776032315706807]]

self.weight_sum
每一句與其它句相似度和

[4.407363132575895, 2.421061432161282, 1.4482368400032932, 0, 1.5088367082972747, -1.7249520209229035, 1.658174418209983, 0.0, -1.5217548198416835, 1.9274839284350573, 1.1941879837414735, 2.584020927356253]

(j, m)
第一次迭代中前兩句的權(quán)重變化

1 [0.15000000000000002]
2 [0.7789651644764877]
4 [1.4870107550912874]
5 [1.584101494462158]
6 [1.584101494462158]
8 [1.8042116789767775]
9 [1.8042116789767775]
10 [1.8042116789767775]
11 [2.0776849137681874]
0 [2.0776849137681874, 0.15000000000000002]
2 [2.0776849137681874, 0.018843404622897686]
4 [2.0776849137681874, 0.15109623706944147]
5 [2.0776849137681874, 0.261212814765845]
6 [2.0776849137681874, 0.4961059221065203]
8 [2.0776849137681874, 0.4897960257868833]
9 [2.0776849137681874, 0.9457675849621023]
10 [2.0776849137681874, 0.9457675849621023]
11 [2.0776849137681874, 1.0192754312893615]

每次迭代過程中m值(即每一句的權(quán)重)的變化
迭代200次，前五次和最后五次m值的變化池户，可以看到最后m值已收斂

[2.0776849137681874, 1.0192754312893615, 0.999457826141497, 0.15000000000000002, 0.7185396874241888, -0.5261633807600671, 0.4574244460937142, 0.15000000000000002, 0.05200189320790127, 1.6227868709805937, 0.9131124846903355, 2.66587982716429]
[1.9767903479098448, 1.0990295797831187, 1.3128224919934568, 0.15000000000000002, 0.7652761963157931, -1.111371191008174, 0.7837318722726239, 0.15000000000000002, -0.6395683714253901, 1.2720237049753234, 1.3883689212368555, 3.1528964479465524]
[2.131123478696624, 0.9565423086380485, 1.1548328753945554, 0.15000000000000002, 0.6827525917271398, -1.5413388479058974, 1.1643685871601586, 0.15000000000000002, -0.7329978403690465, 1.4226914336015335, 1.1206971700887252, 3.6413282429681653]
[2.0445854067537668, 1.1136053809668183, 1.2961406802982383, 0.15000000000000002, 0.8363765234805878, -1.507050641192699, 1.12607464161547, 0.15000000000000002, -0.6871676552565422, 1.1312077269369323, 1.2356735948433215, 3.4105543415541146]
[2.192542113515565, 0.9600086901987991, 1.1866885268412732, 0.15000000000000002, 0.7930661765454192, -1.553868352553225, 1.2263591164249343, 0.15000000000000002, -0.6769452402058755, 1.2490292917375383, 1.0132387392037487, 3.6098809382918335]
...
[3.0660780434944765, 0.4978862574608699, 1.8170234457076675, 0.15000000000000002, 1.2100915598373658, -1.7210905907446725, 1.273125426875697, 0.15000000000000002, -0.7943466908131793, -0.05874055540868156, 0.10506476396899506, 4.604908339621487]
[3.0670178684613028, 0.49797632644810413, 1.8169978091525545, 0.15000000000000002, 1.2097806282899073, -1.7214471894836905, 1.2732051380734033, 0.15000000000000002, -0.7946293748838906, -0.06010081416007357, 0.10517434880999071, 4.606025259292418]
[3.0669901938072566, 0.4973816702146632, 1.81759950114689, 0.15000000000000002, 1.2104144540568738, -1.721330726750902, 1.2732175406130832, 0.15000000000000002, -0.7945170165565797, -0.05995284501299358, 0.10413631837439419, 4.60606091010734]
[3.0678632028596278, 0.4974716987107603, 1.817569225028541, 0.15000000000000002, 1.2101189112709647, -1.721663112850048, 1.2732914272902789, 0.15000000000000002, -0.7947807217322551, -0.06121755331865397, 0.1042492354778799, 4.607097687262931]
[3.067828117464969, 0.49691854169441674, 1.8181282756563857, 0.15000000000000002, 1.2107106526021962, -1.7215513928316113, 1.2733021487789122, 0.15000000000000002, -0.7946735518644014, -0.06106655593120924, 0.1032841207803389, 4.607119643650029]

摘要（前三句）
用jieba分詞的結(jié)果

因而它是計(jì)算機(jī)科學(xué)的一部分
自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向
自然語言處理是一門融語言學(xué)咏雌、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)

詳細(xì)代碼

https://github.com/jllan/jannlp/blob/master/summary/textrank.py

參考

http://www.hankcs.com/nlp/textrank-algorithm-java-implementation-of-automatic-abstract.html
http://www.isnowfy.com/automatic-summarization/
http://www.cnblogs.com/clover-siyecao/p/5726480.html

最后編輯于：2017.12.08 01:44:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末校焦，一起剝皮案震驚了整個(gè)濱河市赊抖，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌寨典，老刑警劉巖氛雪，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異凝赛，居然都是意外死亡注暗，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門墓猎，熙熙樓的掌柜王于貴愁眉苦臉地迎上來捆昏，“玉大人，你說我怎么就攤上這事毙沾∑罚” “怎么了？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵左胞，是天一觀的道長寇仓。經(jīng)常有香客問我，道長烤宙，這世上最難降的妖魔是什么遍烦？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮躺枕，結(jié)果婚禮上服猪，老公的妹妹穿的比我還像新娘。我一直安慰自己拐云，他們只是感情好罢猪，可當(dāng)我...
茶點(diǎn)故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著叉瘩，像睡著了一般膳帕。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上薇缅，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天危彩，我揣著相機(jī)與錄音攒磨，去河邊找鬼。笑死恬砂，一個(gè)胖子當(dāng)著我的面吹牛咧纠，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播泻骤，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼漆羔，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了狱掂？” 一聲冷哼從身側(cè)響起演痒，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎趋惨，沒想到半個(gè)月后鸟顺，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡器虾，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年讯嫂，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兆沙。...
茶點(diǎn)故事閱讀 39,919評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡欧芽，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出葛圃，到底是詐尸還是另有隱情千扔，我是刑警寧澤，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布库正，位于F島的核電站曲楚，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏褥符。R本人自食惡果不足惜龙誊，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望喷楣。院中可真熱鬧趟大，春花似錦、人聲如沸抡蛙。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案魂迄，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽粗截。三九已至，卻和暖如春捣炬，著一層夾襖步出監(jiān)牢的瞬間熊昌，已是汗流浹背绽榛。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留婿屹，地道東北人灭美。一個(gè)月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像昂利，于是被迫代替她去往敵國和親届腐。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,864評論 2贊 354

TextRank算法提取文本摘要

原理

代碼實(shí)現(xiàn)

詳細(xì)代碼

參考

推薦閱讀更多精彩內(nèi)容