引言
? 自動(dòng)文摘技術(shù)結(jié)合了自然語言理解和自然語言生成技術(shù)辜羊,因此對(duì)文摘系統(tǒng)的評(píng)測也是對(duì)自然語言處理系統(tǒng)的評(píng)測徘钥。自動(dòng)文摘技術(shù)用于自動(dòng)從一篇或多篇文章中提取滿足用戶或應(yīng)用需求的內(nèi)容掌动,加以組織后生成一篇內(nèi)容完整、形式嚴(yán)謹(jǐn)?shù)淖詣?dòng)文摘妇蛀。它可以幫助人們?cè)诤A啃畔⒅袦?zhǔn)確针饥、高效地尋找自己需要的信息,發(fā)展至今浪秘,已經(jīng)得到了廣泛的應(yīng)用蒋情。
? 自動(dòng)文摘評(píng)測方法廣義上分為兩大類:內(nèi)部評(píng)測(Intrinsic)與外部評(píng)測(Extrinsic)方法。內(nèi)部評(píng)測是直接對(duì)摘要的質(zhì)量進(jìn)行評(píng)估進(jìn)而評(píng)測一個(gè)獨(dú)立文摘系統(tǒng)的性能耸携;外部評(píng)測則是間接評(píng)估摘要質(zhì)量棵癣,是將摘要應(yīng)用到一個(gè)特定任務(wù)中,以評(píng)測文摘系統(tǒng)的性能夺衍。內(nèi)部評(píng)測主要評(píng)估摘要內(nèi)容本身狈谊,其標(biāo)準(zhǔn)有摘要包含的信息量完整性與語義上的連貫性等;外部評(píng)測主要評(píng)估摘要在完成與所指定主題信息的相關(guān)性沟沙,內(nèi)容的可讀性河劝、可理解性,及評(píng)測該摘要對(duì)任務(wù)的有效性等矛紫。
內(nèi)部評(píng)測
? 內(nèi)部評(píng)測的摘要完整性評(píng)測一般有兩種方法:手動(dòng)評(píng)估和自動(dòng)評(píng)估赎瞎,手動(dòng)是以原文為參考,原文經(jīng)過加工颊咬、標(biāo)注务甥,為評(píng)價(jià)提供判定依據(jù);自動(dòng)是將專家根據(jù)原文生成的文摘作為標(biāo)準(zhǔn)文摘喳篇,來判斷生成的自動(dòng)文摘中所包含標(biāo)準(zhǔn)文摘中的信息程度缓呛。
? 自動(dòng)評(píng)估的方法主要有兩種:聯(lián)合選擇方法(co-selection)和基于內(nèi)容的相似度方法(content-based similarity)。聯(lián)合選擇方法有精準(zhǔn)精準(zhǔn)度與召回率測量方法杭隙、RU(Relative Utility方法哟绊、Kappa方法等;基于內(nèi)容相似度的方法有n-gram共現(xiàn)方法、基于最長公共子串的方法票髓,基于Pyramid方法進(jìn)行自動(dòng)評(píng)測摘要的方法等攀涵。
內(nèi)部評(píng)測標(biāo)準(zhǔn):
- 信息量(informativeness):是否包含、包含多少原文的重點(diǎn)內(nèi)容洽沟,可以用相似度評(píng)估以故。
- 連貫性(coherence):評(píng)估系統(tǒng)的摘要內(nèi)容是否以有效的方式表達(dá)和組織。
- 可讀性(readability):摘要能否讓人讀懂裆操,與連貫性相近怒详。
- 長度(length):決策長度對(duì)性能的影響。
- 冗余度(redundancy):摘要內(nèi)容信息是否重復(fù)是否保證摘要的簡介性踪区,改進(jìn)的方法有:MMR昆烁、CSIS等。
文摘評(píng)測發(fā)展過程:
外部評(píng)測
? 外部評(píng)測相對(duì)內(nèi)部評(píng)測克服了主觀性等缺點(diǎn)缎岗,外部評(píng)測又可稱為基于特定任務(wù)的文摘評(píng)測方法:即為文摘系統(tǒng)提供一個(gè)應(yīng)用環(huán)境静尼,評(píng)測用系統(tǒng)摘要替代原文在完成特定任務(wù)時(shí)的性能,根據(jù)任務(wù)的反饋情況來改進(jìn)摘要的生成以提高文摘系統(tǒng)的性能传泊。外部評(píng)測的任務(wù)由很多種鼠渺,例如:信息檢索任務(wù)、分類任務(wù)眷细、問答任務(wù)等拦盹。
相關(guān)性評(píng)估任務(wù)
? 相關(guān)性評(píng)估是用戶根據(jù)文本摘要來判定該文本與指定主題或事件的相關(guān)程度。
? Ad hoc檢索任務(wù):判定文本與主題的相關(guān)性溪椎。
? 分類任務(wù):將雜亂的文本參照內(nèi)容等特征歸納到事先分類好的各個(gè)主題類別中普舆。
? 主要標(biāo)準(zhǔn):相關(guān)性準(zhǔn)確度和任務(wù)時(shí)間。
? 閱讀理解性任務(wù):要求系統(tǒng)能提供信息型摘要池磁,用戶能從中獲取大量的信息,能通過摘要達(dá)到重現(xiàn)原文的目的楷兽。評(píng)價(jià)標(biāo)準(zhǔn)主要是對(duì)文本理解的正確性地熄,比如問答系統(tǒng)中回答問題的準(zhǔn)確度,重現(xiàn)原文信息的信息量芯杀。
自動(dòng)文摘評(píng)價(jià)相關(guān)理論
向量空間模型和余弦相似度
相關(guān)分析理論
線性相關(guān)分析
等級(jí)相關(guān)分析
? 若兩變量不服從正態(tài)分布或總體分布未知端考,則可采用等級(jí)相關(guān)分析。它適用于非正態(tài)總體或總體分布未知揭厚;數(shù)據(jù)一端或兩端有不確定值的變量或等級(jí)變量却特。Spearman等級(jí)相關(guān)分析。
Kappa分析
? 相關(guān)分析在進(jìn)行一致性檢驗(yàn)時(shí)筛圆,有其局限性和不足裂明。相關(guān)系數(shù)僅表示相關(guān),并不表示真正一致太援;甚至在某些情況下應(yīng)用不同的相關(guān)分析方法對(duì)同一批測定結(jié)果進(jìn)行分析可能得出完全相反的結(jié)論闽晦。即它不能確切地綜合反映評(píng)測結(jié)果之間的一致性扳碍。
? Kappa統(tǒng)計(jì)量是比較兩個(gè)或多個(gè)觀測者對(duì)同一事物,或觀測者對(duì)同一事物的兩次或多次觀測結(jié)果是否一致仙蛉,以由于隨機(jī)因素造成的一致性和實(shí)際觀測的一致性之間的差別大小作為評(píng)價(jià)基礎(chǔ)的統(tǒng)計(jì)指標(biāo)笋敞。
國外研究
基于準(zhǔn)確率和回召率的方法
? 由人工生成一篇標(biāo)準(zhǔn)文摘,計(jì)算自動(dòng)文摘中包含了標(biāo)準(zhǔn)文摘的多少句子荠瘪,以此作為依據(jù)來評(píng)價(jià)自動(dòng)文摘的質(zhì)量夯巷。如果標(biāo)準(zhǔn)文摘的長度為n個(gè)句子,自動(dòng)長度的文摘為k個(gè)句子哀墓,并且有p個(gè)標(biāo)準(zhǔn)文摘包含在自動(dòng)文摘中趁餐,則準(zhǔn)確率定義為:Precision=p/k;召回率定義為:Recall=p/n麸祷。
? F-Measure是一個(gè)對(duì)文摘的準(zhǔn)確率和召回率綜合考察的指標(biāo)澎怒,定義為:
? p:準(zhǔn)確率,R:召回率
? 文摘的準(zhǔn)確率和召回率是兩個(gè)相互關(guān)聯(lián)的指標(biāo)阶牍。通常喷面,系統(tǒng)的文摘召回率不會(huì)隨著準(zhǔn)確率提高而提高,反而可能會(huì)下降走孽。因此只用其中任何一個(gè)指標(biāo)來評(píng)價(jià)都未必理想惧辈。
? 基于準(zhǔn)確率和回召率方法只考察了句子是否相同,而忽視了句子內(nèi)容本身的相似性磕瓷。因此對(duì)于文摘局不同盒齿,而內(nèi)容非常相似的兩篇文摘會(huì)給出完全不同的評(píng)價(jià)結(jié)果。
基于內(nèi)容相似度判別的方法
? 此前方法對(duì)文摘的評(píng)價(jià)都停留在句子的粒度上困食,并不能正確反映自動(dòng)文摘包含原文章信息的程度边翁。基于相似度的評(píng)價(jià)方法是對(duì)文摘內(nèi)容完整性的一種評(píng)價(jià)硕盹,相比直接對(duì)文摘句進(jìn)行打分的方法更準(zhǔn)確符匾。2002年,英國謝菲爾德大學(xué)Saggio等人提出了三種基于文摘內(nèi)容相似度的自動(dòng)評(píng)價(jià)方法瘩例,分別是基于余弦相似度(Cosine)啊胶、單元覆蓋(Word Overlap)和最長公共子串(LCS)方法。
主流評(píng)價(jià)方法
SEE
? 美國南加州大學(xué)開發(fā)了一個(gè)單文檔文摘評(píng)價(jià)系統(tǒng)SEE(Summary Evaluation Environment)垛贤。該系統(tǒng)首先根據(jù)評(píng)價(jià)的粒度將自動(dòng)文摘和標(biāo)準(zhǔn)文摘打散成一系列單元(句子焰坪、分局等),通過計(jì)算機(jī)自動(dòng)文摘單元對(duì)標(biāo)準(zhǔn)文摘單元的覆蓋程度聘惦,來評(píng)價(jià)自動(dòng)文摘的質(zhì)量某饰。
ROUGE
? 2004年,Chin-Yew Lin等人參考了機(jī)器翻譯的自動(dòng)評(píng)價(jià)方法BLEU,提出了ROUGE(Recall-Oriented Understudy for Gisting Evaluation)評(píng)價(jià)方法露乏。該方法首先由多個(gè)專家分別生成人工文摘碧浊,構(gòu)成標(biāo)準(zhǔn)答案,構(gòu)成標(biāo)準(zhǔn)文摘集瘟仿。然后將系統(tǒng)生成的自動(dòng)文摘與人工生成的標(biāo)準(zhǔn)文摘對(duì)比箱锐,通過統(tǒng)計(jì)二者之間重疊的基本單元(n-gram、次序列劳较、詞對(duì))的數(shù)目驹止,來評(píng)價(jià)文摘的質(zhì)量。
ROUGE主要包括一下四種評(píng)價(jià)標(biāo)準(zhǔn):
- ROUGE-N 基于n-gram共現(xiàn)統(tǒng)計(jì)观蜗。
- ROUGE-L 基于最長公共子串臊恋。
- ROUGE-S 基于順序詞對(duì)統(tǒng)計(jì)。
- ROUGE-W 在ROUGE-L的基礎(chǔ) 上墓捻,考慮串的連續(xù)匹配抖仅。
研究表明:
- ROUGE-2,ROUGE-L砖第,ROUGE-W和ROUGE-S用于單文檔文摘評(píng)價(jià)效果很好
- ROUGE-1撤卢,ROUGE-L,ROUGE-W梧兼,在評(píng)價(jià)短文摘時(shí)結(jié)果令人滿意
- 通過使用標(biāo)準(zhǔn)文摘集而非單個(gè)標(biāo)準(zhǔn)文摘可以提高評(píng)價(jià)結(jié)果的一致性
Pyramid
? 首先將文摘句人工劃分為若干個(gè)文摘內(nèi)容單元(Summarization Content Unit放吩,SCU),每個(gè)表示一個(gè)核心概念羽杰。一個(gè)SCU被越多的標(biāo)準(zhǔn)文摘包含就越重要渡紫。將所有的SCU按照重要程度排序,同等重要的SCU排列在同一行考赛,由上向下重要程度逐行遞減惕澎,構(gòu)成所謂的“Pyramid”。
? 通過計(jì)算文摘包含的SCU的數(shù)量和重要程度來判斷自動(dòng)文摘的質(zhì)量颜骤。初步研究表明唧喉,Pyramid與人工評(píng)價(jià)有較好的一致性但是,由于各個(gè)語義單元的大小不固定复哆,且同一語義的表述方式多種多樣欣喧,致使自動(dòng)生成這些語義單元存在很大困難腌零。而且人工標(biāo)注成本高,不利于大規(guī)模地對(duì)多個(gè)系統(tǒng)進(jìn)行評(píng)價(jià)。睦授。
BE
? 為了解決Pyramid方法的問題院崇,Chin-Yew Lin等人又在2005年提出了BE(Basic Elements)方法。首先由機(jī)器自動(dòng)生成標(biāo)準(zhǔn)文摘的較小的n元語法單元,然后對(duì)它們進(jìn)行合并久免,實(shí)現(xiàn)自底向上的構(gòu)造語義單元浅辙。這樣便可以實(shí)現(xiàn)單元的自動(dòng)識(shí)別,而且在一定程度上降低了匹配表示相同概念的不同語義單元的難度阎姥,這些基本單元被稱為BE记舆。
? 具體方法是構(gòu)造一個(gè)句法分析器,然后生成一棵分析樹呼巴,并定義一系列剪枝規(guī)則從分析樹中抽取有效的BE泽腮。但是目前BE的定義、打分策略以及匹配方法等問題還沒有得到很好的解決衣赶,有待通過研究得以解決诊赊。