WSDM 2023 | 針對長文檔場景下的跨語言摘要

WSDM 2023 | 針對長文檔場景下的跨語言摘要

轉(zhuǎn)載自| PaperWeekly


對于給定源語言編寫的文檔噩茄,跨語言摘要的目的是用不同的目標語言生成相應(yīng)的摘要证芭。在全球化的背景下,跨語言摘要可以幫助人們從他們不熟悉的語言的文檔中獲取關(guān)鍵信息划栓,從而提高信息獲取的效率怀估。因此溪厘,這一任務(wù)變得更加重要胡本,并引起了廣泛的研究關(guān)注牌柄。然而畸悬,目前的跨語言摘要工作通常集中于短文本場景。

本文構(gòu)建了第一個針對長文檔場景下的跨語言摘要數(shù)據(jù)集Perseus珊佣,包含 94k 個中文科技論文以及其對應(yīng)的英文摘要蹋宦。我們的數(shù)據(jù)集涉及四大學科,包括工程應(yīng)用咒锻、自然科學冷冗、農(nóng)業(yè)科學以及醫(yī)藥科學,文檔的平均長度達到2872.9 個漢字惑艇。相關(guān)工作已經(jīng)被WSDM 2023 接收蒿辙。

?

論文標題:Long-Document Cross-Lingual Summarization

代碼鏈接:https://github.com/LearnItBoy/Perseus

?

1

『研究背景』

現(xiàn)有的跨語言摘要數(shù)據(jù)集文檔長度相對來說都比較短,比如常用的數(shù)據(jù)集Zh2EnSum [1]滨巴,它的文檔長度平均只有 103.7 個漢字思灌,而相對來說文檔長度較長的 En2ZhSum [1],它的平均文檔長度也只有 755.0 個單詞左右恭取,遠無法稱為長文檔泰偿。長文檔通常包含上千個字詞,比起短文檔蜈垮,它包含更多的信息與細節(jié)耗跛。構(gòu)建一個長文檔跨語言系統(tǒng)可以幫助人們快速理解長文檔的內(nèi)容,在實際場景中具有重大的意義攒发。然而调塌,由于缺乏相應(yīng)的數(shù)據(jù)集,該任務(wù)仍未得到充分的探索惠猿。

為了跨語言摘要在長文檔上的發(fā)展烟阐,我們構(gòu)建了第一個長文檔跨語言摘要數(shù)據(jù)集Perseus。我們通過爬取中文科技論文網(wǎng)站來獲取到大量的科技論文資源紊扬,然后使用大量的解析方法與清理規(guī)則來對這些資源進行處理蜒茄。最后得到 94k 個<中文文檔,中文摘要餐屎,英文摘要>三元組檀葛。如圖 1 所示是數(shù)據(jù)集的一個例子。除此之外我們根據(jù) SportsSum [2] 這個體育賽事摘要數(shù)據(jù)集構(gòu)建了一個科技論文領(lǐng)域外的測試集用來驗證在 Perseus 上訓(xùn)練的模型的泛化性腹缩。



▲ 圖1?Perseus的一個例子


表1 是 Perseus 數(shù)據(jù)集的基本信息以及其他跨語言摘要數(shù)據(jù)集的信息的對比屿聋】赵可以看出我們的數(shù)據(jù)集的文檔長度遠遠超過現(xiàn)有的跨語言摘要數(shù)據(jù)集,并且目標摘要的長度也大于現(xiàn)有數(shù)據(jù)集润讥。同時我們的數(shù)據(jù)集有著最高的壓縮率转锈,這意味著對跨語言摘要模型提取精煉內(nèi)容的能力提出了更高的要求。


▲ 表1 數(shù)據(jù)集的基本信息

2

『實驗與分析』

?

為了驗證我們的數(shù)據(jù)集是否可行楚殿,我們在Perseus 上進行了大量的實驗撮慨。我們采用了兩種范式來進行實驗,summarize-then-translate 的 pipeline 方法以及端到端 (end-to-end) 方法脆粥。其中 summarize-then-translate 分成了 extract-then-translate (ext-trans) 和 abstract-then-translate (abs-trans) 兩種方法砌溺。采用的模型以及結(jié)果如表 2。


▲表2 實驗效果

通過實驗我們發(fā)現(xiàn)变隔,abs-trans 的方法效果普遍好于 ext-trans 的方法规伐,這是因為 abstractor 可以更靈活地根據(jù)文檔中的重要句子生成新詞或短語,而 extractor 不能對提取的句子進行任何修改匣缘。此外猖闪,pipeline 的方法中,模型的最后效果的好壞和采用的翻譯模型的好壞高度相關(guān)肌厨。因此翻譯模型的性能培慌,特別是在長文檔中錯誤積累倍數(shù)增加的情況下,尤為重要夏哭。

End-to-end 的方法在幾乎所有的指標中都獲得了最好的性能检柬,這是由于 mLED [3] 方法以端到端方式進行翻譯和摘要訓(xùn)練,不會出現(xiàn)錯誤傳播問題竖配。


3

『錯誤分析』

我們隨機抽取了mLED 模型在測試集上的兩百條結(jié)果并分析出主要的錯誤類型以及比例何址,如表 3 所示:1)信息缺失;2)信息冗余进胯;3)生成信息不忠于原文用爪;4)生成語義不明。


▲表3 摘要結(jié)果錯誤類型及比例

長文檔跨語言摘要中的信息缺失和冗余的問題十分嚴重胁镐,這是由于隨著文檔的長度以及文檔與摘要的壓縮率的增加偎血,文檔的關(guān)鍵信息在文檔中的分布變得稀疏,模型從文章中提取關(guān)鍵信息的難度就越來越高盯漂。

對于生成的信息不忠于原文的問題颇玷。例如,一份參考摘要稱:“Fifty-eight patients with subaortic stenosis were treated surgically in our center from December 1996 to October 2019就缆√”但生成的摘要是“The clinical data of 13 patients with congenital heart disease were retrospectively analyzed”。錯誤的引用主要是由遠程依賴問題引起的竭宰。在生成摘要時空郊,該模型需要跨越長距離地融合信息份招。然而,隨著距離的增加狞甚,遠程信息變得越來越模糊锁摔,導(dǎo)致容易生成錯誤的信息。

mLED 生成語義不明句子哼审,例如“data mining is an important content of data mining.”“the results provide us with a basis to judge whether the sub-time series of time series with increasing and decreasing is the sub-time series with great increasing and decreasing.” 這些句子讓人難以理解谐腰,通常涉及語法錯誤。模型處理長文檔時的遠程依賴性問題是造成這個錯誤的原因之一棺蛛。此外怔蚌,這個錯誤也暴露了當前生成模型在生成長文本方面的不足巩步。

4

『總結(jié)』

在本文中旁赊,我們提出了長文檔跨語言摘要任務(wù),并構(gòu)建了第一個長文檔跨語言摘要數(shù)據(jù)集Perseus椅野。該數(shù)據(jù)集具有文檔長终畅、摘要長、壓縮率高的特點竟闪,為跨語言摘要提出了新的挑戰(zhàn)离福。為了評估在我們的數(shù)據(jù)集上訓(xùn)練的長文檔跨語言摘要模型的泛化性,我們還提供了一個體育領(lǐng)域的領(lǐng)域外測試集炼蛤。

參考文獻

[1]?Junnan Zhu, Qian Wang, Yining Wang, Yu Zhou, Jiajun Zhang, Shaonan Wang, and Chengqing Zong. 2019. NCLS: Neural Cross-Lingual Summarization. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 3054–3064. https://doi.org/10.18653/v1/D19-1302

[2]?Jiaan Wang, Zhixu Li, Tingyi Zhang, Duo Zheng, Jianfeng Qu, An Liu, Lei Zhao, and Zhigang Chen. 2022. Knowledge Enhanced Sports Game Summarization. In Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. 1045–1053. https://doi.org/10.1145/3488560.3498405

[3]?Iz Beltagy, Matthew E Peters, and Arman Cohan. 2020. Longformer: The longdocument transformer. arXiv preprint arXiv:2004.05150 (2020).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末妖爷,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子理朋,更是在濱河造成了極大的恐慌絮识,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嗽上,死亡現(xiàn)場離奇詭異次舌,居然都是意外死亡,警方通過查閱死者的電腦和手機兽愤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門彼念,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人浅萧,你說我怎么就攤上這事逐沙。” “怎么了洼畅?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵吩案,是天一觀的道長。 經(jīng)常有香客問我土思,道長务热,這世上最難降的妖魔是什么忆嗜? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮崎岂,結(jié)果婚禮上捆毫,老公的妹妹穿的比我還像新娘。我一直安慰自己冲甘,他們只是感情好绩卤,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著江醇,像睡著了一般濒憋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上陶夜,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天凛驮,我揣著相機與錄音,去河邊找鬼条辟。 笑死黔夭,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的羽嫡。 我是一名探鬼主播本姥,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼杭棵!你這毒婦竟也來了婚惫?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤魂爪,失蹤者是張志新(化名)和其女友劉穎先舷,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體甫窟,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡密浑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了粗井。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尔破。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖浇衬,靈堂內(nèi)的尸體忽然破棺而出懒构,到底是詐尸還是另有隱情,我是刑警寧澤耘擂,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布胆剧,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏秩霍。R本人自食惡果不足惜篙悯,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望铃绒。 院中可真熱鬧鸽照,春花似錦、人聲如沸颠悬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赔癌。三九已至诞外,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間灾票,已是汗流浹背峡谊。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留铝条,地道東北人靖苇。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓席噩,卻偏偏與公主長得像班缰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子悼枢,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容