自動(dòng)文摘評(píng)測方法簡介

引言

? 自動(dòng)文摘技術(shù)結(jié)合了自然語言理解和自然語言生成技術(shù)辜羊，因此對(duì)文摘系統(tǒng)的評(píng)測也是對(duì)自然語言處理系統(tǒng)的評(píng)測徘钥。自動(dòng)文摘技術(shù)用于自動(dòng)從一篇或多篇文章中提取滿足用戶或應(yīng)用需求的內(nèi)容掌动，加以組織后生成一篇內(nèi)容完整、形式嚴(yán)謹(jǐn)?shù)淖詣?dòng)文摘妇蛀。它可以幫助人們?cè)诤Ａ啃畔⒅袦?zhǔn)確针饥、高效地尋找自己需要的信息，發(fā)展至今浪秘，已經(jīng)得到了廣泛的應(yīng)用蒋情。

? 自動(dòng)文摘評(píng)測方法廣義上分為兩大類：內(nèi)部評(píng)測（Intrinsic）與外部評(píng)測（Extrinsic）方法。內(nèi)部評(píng)測是直接對(duì)摘要的質(zhì)量進(jìn)行評(píng)估進(jìn)而評(píng)測一個(gè)獨(dú)立文摘系統(tǒng)的性能耸携；外部評(píng)測則是間接評(píng)估摘要質(zhì)量棵癣，是將摘要應(yīng)用到一個(gè)特定任務(wù)中，以評(píng)測文摘系統(tǒng)的性能夺衍。內(nèi)部評(píng)測主要評(píng)估摘要內(nèi)容本身狈谊，其標(biāo)準(zhǔn)有摘要包含的信息量完整性與語義上的連貫性等；外部評(píng)測主要評(píng)估摘要在完成與所指定主題信息的相關(guān)性沟沙，內(nèi)容的可讀性河劝、可理解性，及評(píng)測該摘要對(duì)任務(wù)的有效性等矛紫。

內(nèi)部評(píng)測

? 內(nèi)部評(píng)測的摘要完整性評(píng)測一般有兩種方法：手動(dòng)評(píng)估和自動(dòng)評(píng)估赎瞎，手動(dòng)是以原文為參考，原文經(jīng)過加工颊咬、標(biāo)注务甥，為評(píng)價(jià)提供判定依據(jù)；自動(dòng)是將專家根據(jù)原文生成的文摘作為標(biāo)準(zhǔn)文摘喳篇，來判斷生成的自動(dòng)文摘中所包含標(biāo)準(zhǔn)文摘中的信息程度缓呛。

? 自動(dòng)評(píng)估的方法主要有兩種：聯(lián)合選擇方法（co-selection）和基于內(nèi)容的相似度方法（content-based similarity）。聯(lián)合選擇方法有精準(zhǔn)精準(zhǔn)度與召回率測量方法杭隙、RU（Relative Utility方法哟绊、Kappa方法等；基于內(nèi)容相似度的方法有n-gram共現(xiàn)方法、基于最長公共子串的方法票髓，基于Pyramid方法進(jìn)行自動(dòng)評(píng)測摘要的方法等攀涵。

內(nèi)部評(píng)測標(biāo)準(zhǔn)：

信息量（informativeness）：是否包含、包含多少原文的重點(diǎn)內(nèi)容洽沟，可以用相似度評(píng)估以故。
連貫性（coherence）：評(píng)估系統(tǒng)的摘要內(nèi)容是否以有效的方式表達(dá)和組織。
可讀性（readability）：摘要能否讓人讀懂裆操，與連貫性相近怒详。
長度（length）：決策長度對(duì)性能的影響。
冗余度（redundancy）：摘要內(nèi)容信息是否重復(fù)是否保證摘要的簡介性踪区，改進(jìn)的方法有：MMR昆烁、CSIS等。

文摘評(píng)測發(fā)展過程：

內(nèi)部評(píng)測.PNG

外部評(píng)測

? 外部評(píng)測相對(duì)內(nèi)部評(píng)測克服了主觀性等缺點(diǎn)缎岗，外部評(píng)測又可稱為基于特定任務(wù)的文摘評(píng)測方法：即為文摘系統(tǒng)提供一個(gè)應(yīng)用環(huán)境静尼，評(píng)測用系統(tǒng)摘要替代原文在完成特定任務(wù)時(shí)的性能，根據(jù)任務(wù)的反饋情況來改進(jìn)摘要的生成以提高文摘系統(tǒng)的性能传泊。外部評(píng)測的任務(wù)由很多種鼠渺，例如：信息檢索任務(wù)、分類任務(wù)眷细、問答任務(wù)等拦盹。

自動(dòng)文摘評(píng)價(jià)相關(guān)理論

向量空間模型和余弦相似度

sim.png

國外研究

基于準(zhǔn)確率和回召率的方法

? 由人工生成一篇標(biāo)準(zhǔn)文摘，計(jì)算自動(dòng)文摘中包含了標(biāo)準(zhǔn)文摘的多少句子荠瘪，以此作為依據(jù)來評(píng)價(jià)自動(dòng)文摘的質(zhì)量夯巷。如果標(biāo)準(zhǔn)文摘的長度為n個(gè)句子，自動(dòng)長度的文摘為k個(gè)句子哀墓，并且有p個(gè)標(biāo)準(zhǔn)文摘包含在自動(dòng)文摘中趁餐，則準(zhǔn)確率定義為：Precision=p/k；召回率定義為：Recall=p/n麸祷。

? F-Measure是一個(gè)對(duì)文摘的準(zhǔn)確率和召回率綜合考察的指標(biāo)澎怒，定義為：
$F-Measure=(2×P×R)/(P+R)$
? p:準(zhǔn)確率，R：召回率

? 文摘的準(zhǔn)確率和召回率是兩個(gè)相互關(guān)聯(lián)的指標(biāo)阶牍。通常喷面，系統(tǒng)的文摘召回率不會(huì)隨著準(zhǔn)確率提高而提高，反而可能會(huì)下降走孽。因此只用其中任何一個(gè)指標(biāo)來評(píng)價(jià)都未必理想惧辈。

? 基于準(zhǔn)確率和回召率方法只考察了句子是否相同，而忽視了句子內(nèi)容本身的相似性磕瓷。因此對(duì)于文摘局不同盒齿，而內(nèi)容非常相似的兩篇文摘會(huì)給出完全不同的評(píng)價(jià)結(jié)果。

基于內(nèi)容相似度判別的方法

? 此前方法對(duì)文摘的評(píng)價(jià)都停留在句子的粒度上困食，并不能正確反映自動(dòng)文摘包含原文章信息的程度边翁。基于相似度的評(píng)價(jià)方法是對(duì)文摘內(nèi)容完整性的一種評(píng)價(jià)硕盹，相比直接對(duì)文摘句進(jìn)行打分的方法更準(zhǔn)確符匾。2002年，英國謝菲爾德大學(xué)Saggio等人提出了三種基于文摘內(nèi)容相似度的自動(dòng)評(píng)價(jià)方法瘩例，分別是基于余弦相似度（Cosine）啊胶、單元覆蓋（Word Overlap）和最長公共子串（LCS）方法。

主流評(píng)價(jià)方法

SEE

? 美國南加州大學(xué)開發(fā)了一個(gè)單文檔文摘評(píng)價(jià)系統(tǒng)SEE（Summary Evaluation Environment）垛贤。該系統(tǒng)首先根據(jù)評(píng)價(jià)的粒度將自動(dòng)文摘和標(biāo)準(zhǔn)文摘打散成一系列單元（句子焰坪、分局等），通過計(jì)算機(jī)自動(dòng)文摘單元對(duì)標(biāo)準(zhǔn)文摘單元的覆蓋程度聘惦，來評(píng)價(jià)自動(dòng)文摘的質(zhì)量某饰。

ROUGE

? 2004年，Chin-Yew Lin等人參考了機(jī)器翻譯的自動(dòng)評(píng)價(jià)方法BLEU，提出了ROUGE（Recall-Oriented Understudy for Gisting Evaluation）評(píng)價(jià)方法露乏。該方法首先由多個(gè)專家分別生成人工文摘碧浊，構(gòu)成標(biāo)準(zhǔn)答案，構(gòu)成標(biāo)準(zhǔn)文摘集瘟仿。然后將系統(tǒng)生成的自動(dòng)文摘與人工生成的標(biāo)準(zhǔn)文摘對(duì)比箱锐，通過統(tǒng)計(jì)二者之間重疊的基本單元（n-gram、次序列劳较、詞對(duì)）的數(shù)目驹止，來評(píng)價(jià)文摘的質(zhì)量。

ROUGE主要包括一下四種評(píng)價(jià)標(biāo)準(zhǔn)：

ROUGE-N 基于n-gram共現(xiàn)統(tǒng)計(jì)观蜗。
ROUGE-L 基于最長公共子串臊恋。
ROUGE-S 基于順序詞對(duì)統(tǒng)計(jì)。
ROUGE-W 在ROUGE-L的基礎(chǔ) 上墓捻，考慮串的連續(xù)匹配抖仅。

研究表明：

ROUGE-2，ROUGE-L砖第，ROUGE-W和ROUGE-S用于單文檔文摘評(píng)價(jià)效果很好
ROUGE-1撤卢，ROUGE-L，ROUGE-W梧兼，在評(píng)價(jià)短文摘時(shí)結(jié)果令人滿意
通過使用標(biāo)準(zhǔn)文摘集而非單個(gè)標(biāo)準(zhǔn)文摘可以提高評(píng)價(jià)結(jié)果的一致性

Pyramid

? 首先將文摘句人工劃分為若干個(gè)文摘內(nèi)容單元（Summarization Content Unit放吩，SCU），每個(gè)表示一個(gè)核心概念羽杰。一個(gè)SCU被越多的標(biāo)準(zhǔn)文摘包含就越重要渡紫。將所有的SCU按照重要程度排序，同等重要的SCU排列在同一行考赛，由上向下重要程度逐行遞減惕澎，構(gòu)成所謂的“Pyramid”。

? 通過計(jì)算文摘包含的SCU的數(shù)量和重要程度來判斷自動(dòng)文摘的質(zhì)量颜骤。初步研究表明唧喉，Pyramid與人工評(píng)價(jià)有較好的一致性但是，由于各個(gè)語義單元的大小不固定复哆，且同一語義的表述方式多種多樣欣喧，致使自動(dòng)生成這些語義單元存在很大困難腌零。而且人工標(biāo)注成本高，不利于大規(guī)模地對(duì)多個(gè)系統(tǒng)進(jìn)行評(píng)價(jià)。睦授。

BE

? 為了解決Pyramid方法的問題院崇，Chin-Yew Lin等人又在2005年提出了BE(Basic Elements)方法。首先由機(jī)器自動(dòng)生成標(biāo)準(zhǔn)文摘的較小的n元語法單元，然后對(duì)它們進(jìn)行合并久免，實(shí)現(xiàn)自底向上的構(gòu)造語義單元浅辙。這樣便可以實(shí)現(xiàn)單元的自動(dòng)識(shí)別，而且在一定程度上降低了匹配表示相同概念的不同語義單元的難度阎姥，這些基本單元被稱為BE记舆。

? 具體方法是構(gòu)造一個(gè)句法分析器，然后生成一棵分析樹呼巴，并定義一系列剪枝規(guī)則從分析樹中抽取有效的BE泽腮。但是目前BE的定義、打分策略以及匹配方法等問題還沒有得到很好的解決衣赶，有待通過研究得以解決诊赊。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市府瞄，隨后出現(xiàn)的幾起案子碧磅，更是在濱河造成了極大的恐慌，老刑警劉巖遵馆，帶你破解...
沈念sama閱讀 222,681評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件鲸郊，死亡現(xiàn)場離奇詭異，居然都是意外死亡团搞，警方通過查閱死者的電腦和手機(jī)严望，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,205評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來逻恐，“玉大人像吻，你說我怎么就攤上這事「绰。” “怎么了拨匆？”我有些...
開封第一講書人閱讀 169,421評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長挽拂。經(jīng)常有香客問我惭每，道長，這世上最難降的妖魔是什么亏栈？我笑而不...
開封第一講書人閱讀 60,114評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任台腥，我火速辦了婚禮，結(jié)果婚禮上绒北，老公的妹妹穿的比我還像新娘黎侈。我一直安慰自己，他們只是感情好闷游，可當(dāng)我...
茶點(diǎn)故事閱讀 69,116評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布峻汉。她就那樣靜靜地躺著贴汪，像睡著了一般。火紅的嫁衣襯著肌膚如雪休吠。梳的紋絲不亂的頭發(fā)上扳埂，一...
開封第一講書人閱讀 52,713評(píng)論 1贊 312
城市分裂傳說
那天，我揣著相機(jī)與錄音瘤礁，去河邊找鬼阳懂。笑死，一個(gè)胖子當(dāng)著我的面吹牛柜思，可吹牛的內(nèi)容都是我干的希太。我是一名探鬼主播，決...
沈念sama閱讀 41,170評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼酝蜒，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼誊辉！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起亡脑，我...
開封第一講書人閱讀 40,116評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤堕澄，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后霉咨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蛙紫，經(jīng)...
沈念sama閱讀 46,651評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,714評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年途戒，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了坑傅。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,865評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡喷斋，死狀恐怖唁毒，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情星爪，我是刑警寧澤浆西，帶...
沈念sama閱讀 36,527評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站顽腾，受9級(jí)特大地震影響近零，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抄肖，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,211評(píng)論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一久信、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧漓摩，春花似錦裙士、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,699評(píng)論 0贊 25
一樁弒父案潮售，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至锅风，卻和暖如春酥诽，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背皱埠。一陣腳步聲響...
開封第一講書人閱讀 33,814評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工肮帐，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人边器。一個(gè)月前我還...
沈念sama閱讀 49,299評(píng)論 3贊 379
代替公主和親
正文我出身青樓训枢，卻偏偏與公主長得像，于是被迫代替她去往敵國和親忘巧。傳聞我的和親對(duì)象是個(gè)殘疾皇子恒界，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,870評(píng)論 2贊 361

自動(dòng)文摘評(píng)測方法簡介

自動(dòng)文摘評(píng)測方法簡介

引言

內(nèi)部評(píng)測

外部評(píng)測

相關(guān)性評(píng)估任務(wù)

自動(dòng)文摘評(píng)價(jià)相關(guān)理論

向量空間模型和余弦相似度

相關(guān)分析理論

線性相關(guān)分析

等級(jí)相關(guān)分析

Kappa分析

國外研究

基于準(zhǔn)確率和回召率的方法

基于內(nèi)容相似度判別的方法

主流評(píng)價(jià)方法

SEE

ROUGE

Pyramid

BE

推薦閱讀更多精彩內(nèi)容