WSDM 2023 | 針對長文檔場景下的跨語言摘要
轉(zhuǎn)載自| PaperWeekly
對于給定源語言編寫的文檔噩茄,跨語言摘要的目的是用不同的目標語言生成相應(yīng)的摘要证芭。在全球化的背景下,跨語言摘要可以幫助人們從他們不熟悉的語言的文檔中獲取關(guān)鍵信息划栓,從而提高信息獲取的效率怀估。因此溪厘,這一任務(wù)變得更加重要胡本,并引起了廣泛的研究關(guān)注牌柄。然而畸悬,目前的跨語言摘要工作通常集中于短文本場景。
本文構(gòu)建了第一個針對長文檔場景下的跨語言摘要數(shù)據(jù)集Perseus珊佣,包含 94k 個中文科技論文以及其對應(yīng)的英文摘要蹋宦。我們的數(shù)據(jù)集涉及四大學科,包括工程應(yīng)用咒锻、自然科學冷冗、農(nóng)業(yè)科學以及醫(yī)藥科學,文檔的平均長度達到2872.9 個漢字惑艇。相關(guān)工作已經(jīng)被WSDM 2023 接收蒿辙。
?
論文標題:Long-Document Cross-Lingual Summarization
代碼鏈接:https://github.com/LearnItBoy/Perseus
?
1
『研究背景』
現(xiàn)有的跨語言摘要數(shù)據(jù)集文檔長度相對來說都比較短,比如常用的數(shù)據(jù)集Zh2EnSum [1]滨巴,它的文檔長度平均只有 103.7 個漢字思灌,而相對來說文檔長度較長的 En2ZhSum [1],它的平均文檔長度也只有 755.0 個單詞左右恭取,遠無法稱為長文檔泰偿。長文檔通常包含上千個字詞,比起短文檔蜈垮,它包含更多的信息與細節(jié)耗跛。構(gòu)建一個長文檔跨語言系統(tǒng)可以幫助人們快速理解長文檔的內(nèi)容,在實際場景中具有重大的意義攒发。然而调塌,由于缺乏相應(yīng)的數(shù)據(jù)集,該任務(wù)仍未得到充分的探索惠猿。
為了跨語言摘要在長文檔上的發(fā)展烟阐,我們構(gòu)建了第一個長文檔跨語言摘要數(shù)據(jù)集Perseus。我們通過爬取中文科技論文網(wǎng)站來獲取到大量的科技論文資源紊扬,然后使用大量的解析方法與清理規(guī)則來對這些資源進行處理蜒茄。最后得到 94k 個<中文文檔,中文摘要餐屎,英文摘要>三元組檀葛。如圖 1 所示是數(shù)據(jù)集的一個例子。除此之外我們根據(jù) SportsSum [2] 這個體育賽事摘要數(shù)據(jù)集構(gòu)建了一個科技論文領(lǐng)域外的測試集用來驗證在 Perseus 上訓(xùn)練的模型的泛化性腹缩。
▲ 圖1?Perseus的一個例子
表1 是 Perseus 數(shù)據(jù)集的基本信息以及其他跨語言摘要數(shù)據(jù)集的信息的對比屿聋】赵可以看出我們的數(shù)據(jù)集的文檔長度遠遠超過現(xiàn)有的跨語言摘要數(shù)據(jù)集,并且目標摘要的長度也大于現(xiàn)有數(shù)據(jù)集润讥。同時我們的數(shù)據(jù)集有著最高的壓縮率转锈,這意味著對跨語言摘要模型提取精煉內(nèi)容的能力提出了更高的要求。
▲ 表1 數(shù)據(jù)集的基本信息
2
『實驗與分析』
?
為了驗證我們的數(shù)據(jù)集是否可行楚殿,我們在Perseus 上進行了大量的實驗撮慨。我們采用了兩種范式來進行實驗,summarize-then-translate 的 pipeline 方法以及端到端 (end-to-end) 方法脆粥。其中 summarize-then-translate 分成了 extract-then-translate (ext-trans) 和 abstract-then-translate (abs-trans) 兩種方法砌溺。采用的模型以及結(jié)果如表 2。
▲表2 實驗效果
通過實驗我們發(fā)現(xiàn)变隔,abs-trans 的方法效果普遍好于 ext-trans 的方法规伐,這是因為 abstractor 可以更靈活地根據(jù)文檔中的重要句子生成新詞或短語,而 extractor 不能對提取的句子進行任何修改匣缘。此外猖闪,pipeline 的方法中,模型的最后效果的好壞和采用的翻譯模型的好壞高度相關(guān)肌厨。因此翻譯模型的性能培慌,特別是在長文檔中錯誤積累倍數(shù)增加的情況下,尤為重要夏哭。
End-to-end 的方法在幾乎所有的指標中都獲得了最好的性能检柬,這是由于 mLED [3] 方法以端到端方式進行翻譯和摘要訓(xùn)練,不會出現(xiàn)錯誤傳播問題竖配。
3
『錯誤分析』
我們隨機抽取了mLED 模型在測試集上的兩百條結(jié)果并分析出主要的錯誤類型以及比例何址,如表 3 所示:1)信息缺失;2)信息冗余进胯;3)生成信息不忠于原文用爪;4)生成語義不明。
▲表3 摘要結(jié)果錯誤類型及比例
長文檔跨語言摘要中的信息缺失和冗余的問題十分嚴重胁镐,這是由于隨著文檔的長度以及文檔與摘要的壓縮率的增加偎血,文檔的關(guān)鍵信息在文檔中的分布變得稀疏,模型從文章中提取關(guān)鍵信息的難度就越來越高盯漂。
對于生成的信息不忠于原文的問題颇玷。例如,一份參考摘要稱:“Fifty-eight patients with subaortic stenosis were treated surgically in our center from December 1996 to October 2019就缆√”但生成的摘要是“The clinical data of 13 patients with congenital heart disease were retrospectively analyzed”。錯誤的引用主要是由遠程依賴問題引起的竭宰。在生成摘要時空郊,該模型需要跨越長距離地融合信息份招。然而,隨著距離的增加狞甚,遠程信息變得越來越模糊锁摔,導(dǎo)致容易生成錯誤的信息。
mLED 生成語義不明句子哼审,例如“data mining is an important content of data mining.”“the results provide us with a basis to judge whether the sub-time series of time series with increasing and decreasing is the sub-time series with great increasing and decreasing.” 這些句子讓人難以理解谐腰,通常涉及語法錯誤。模型處理長文檔時的遠程依賴性問題是造成這個錯誤的原因之一棺蛛。此外怔蚌,這個錯誤也暴露了當前生成模型在生成長文本方面的不足巩步。
4
『總結(jié)』
在本文中旁赊,我們提出了長文檔跨語言摘要任務(wù),并構(gòu)建了第一個長文檔跨語言摘要數(shù)據(jù)集Perseus椅野。該數(shù)據(jù)集具有文檔長终畅、摘要長、壓縮率高的特點竟闪,為跨語言摘要提出了新的挑戰(zhàn)离福。為了評估在我們的數(shù)據(jù)集上訓(xùn)練的長文檔跨語言摘要模型的泛化性,我們還提供了一個體育領(lǐng)域的領(lǐng)域外測試集炼蛤。
參考文獻
[1]?Junnan Zhu, Qian Wang, Yining Wang, Yu Zhou, Jiajun Zhang, Shaonan Wang, and Chengqing Zong. 2019. NCLS: Neural Cross-Lingual Summarization. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 3054–3064. https://doi.org/10.18653/v1/D19-1302
[2]?Jiaan Wang, Zhixu Li, Tingyi Zhang, Duo Zheng, Jianfeng Qu, An Liu, Lei Zhao, and Zhigang Chen. 2022. Knowledge Enhanced Sports Game Summarization. In Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. 1045–1053. https://doi.org/10.1145/3488560.3498405
[3]?Iz Beltagy, Matthew E Peters, and Arman Cohan. 2020. Longformer: The longdocument transformer. arXiv preprint arXiv:2004.05150 (2020).