自然語言生成工具箱 - CO2Sum(一)

文章名稱

【AAAI-2022】【Tencent AI Platform Department】CO2Sum:Contrastive Learning for Factual-Consistent Abstractive Summarization

核心要點

文章旨在抽象摘要生成方法存在的事實不一致的問題,利用對比學習機制粉寞,代替原有的后處理和機制尼荆,保證生成的摘要具有factual-consistent性質(zhì)。對比學習分別作用域seq2seq的encoder和decoder唧垦。encoder部分的對比學習幫助模型重視原始文本中的事實信息捅儒,decoder部分的對比學習幫助生成的事實一致的摘要。

方法細節(jié)

問題引入

現(xiàn)有的抽象摘要生成方法,利用teacher forcing巧还,通過MLE鞭莽,來一步步的指導模型生成摘要文本。這些方法得到的結(jié)果通常是語法正確并且流利的麸祷,但具有一些事實錯誤澎怒,具體案例如下圖所示,其中紅色的部分為事實錯誤(這個lover說的不是Ashley)阶牍。

factual error case

兩類方法被提出來解決這一問題喷面,1)Fact-Input;2)Post-Edit走孽。

  • Fact-Input惧辈,把事實信息表示成嵌入向量(通過encoder)。
  • Post-Edit磕瓷,在decoding之后盒齿,糾正生成文本中的事實錯誤。

但是這兩類方法(包括他們的結(jié)合體)生宛,需要復雜的處理過程县昂,并且需要修改原有的模型結(jié)構(gòu)肮柜。

具體做法

因此陷舅,作者提出了CO2Sum方法,其整體框架如下圖所示审洞。整體過程可以分為3個部分莱睁,


Framework of CO2Sum
  • 生成對比學習樣本。高質(zhì)量的負樣本至關(guān)重要芒澜,可以同替換ground truth中的實體和名詞生成負樣本仰剿。然而,[1]表明實體可信無誤(事實正確)并不代表全部事實可信無誤(事實正確)痴晦。由于事實信息和上下文的關(guān)系聯(lián)系的十分緊密南吮,如果事實信息出現(xiàn)錯誤,它將與上下文的沒有聯(lián)系變?nèi)跆茏谩R虼瞬看眨髡卟捎肹2]中的句子壓縮算法,從ground truth中識別事實信息碧浊,并將它替換成原文本中相似的詞涂邀,來構(gòu)造負樣本。這符合information bottleneck的理論箱锐。作者稱這一方法為LFN(Language model-based Fac- tual Negative sample construction)比勉。LFN又可以分為3個部分,
    • 候選生成。執(zhí)行句子壓縮算法T次浩聋,生成候選集C观蜗。每次句子壓縮也會遍歷ground truth L次(1到L),每次從ground truth中篩選出固定長度為l的span SP衣洁,并將其從ground truth中刪除嫂便,添加到候選的自己C_i中。最終闸与,候選集合C = \{ C_i \}_{i=1}^{T}, C_i = \{ gd - sp_l \}_{l=1}^{L}毙替。
    • 候選排序。每一個候選集合中的元素c \in C都需要經(jīng)過兩階段排序的打分践樱,并最終選擇top-K個元素c厂画,記作T_{fragement}。第一階段拷邢,利用預訓練的語言模型LM(c)來計算prune score袱院,具體邏輯可以參見引文[2]。第二階段瞭稼,利用語言模型LM(T_next|c)預測在給定候選集元素的情況下忽洛,可以得到ground truth中下一句的概率(事實上c就是一些被認為可以表示事實的關(guān)鍵詞,而T_next是ground truth中的上下文句子环肘。
    • 候選替換欲虚。T_{fragement}中的詞容易產(chǎn)生事實錯誤,所以作者利用faiss[3]將他們替換為相似的詞悔雹,構(gòu)造出負樣本复哆。 **值得注意的是,不同于[2]作者的句子壓縮算法是應用在ground truth中的腌零,因此ground truth中的T_{next}可能不如原文本中的T_{next}那樣梯找,具有比較好的連貫性。作者采用[4]中的方法益涧,識別原文本中的oracle sentence锈锤, G_{next}。以此來完成第二階段的評分闲询,效果由于直接使用T_{next}久免。
  • 在編碼器上進行對比學習。
  • 在解碼器上進行對比學習嘹裂。

本節(jié)講解了妄壶,作者針對摘要生成中事實錯誤的問題提出的解決方案框架,以及負樣本生成的思路寄狼。下一節(jié)繼續(xù)介紹在編碼器和解碼器上的對比學習丁寄。

代碼實現(xiàn)

負樣本生成的偽代碼如下圖所示氨淌。

LFN

心得體會

句子壓縮

個人感覺,作者的主要思路是壓縮出和原文oracle sentence(或者ground truth)中下一個句子關(guān)系最大的短語伊磺,span盛正。此時,效果的好壞完全依賴于T_{next}或者G_{next}$屑埋。如果語義跳動很大豪筝,篩選出來的事實短語也許并不能夠真實反映語義。

文章引用

[1] Chen, S.; Zhang, F.; Sone, K.; and Roth, D. 2021. Improv- ing Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection. In Proceedings of the 2021 Conference of the North American Chapter of the As- sociation for Computational Linguistics: Human Language Technologies, 5935–5941.

[2] West, P.; Holtzman, A.; Buys, J.; and Choi, Y. 2019. Bot- tleSum: Unsupervised and Self-supervised Sentence Sum- marization using the Information Bottleneck Principle. In Proceedings of the 2019 Conference on Empirical Meth- ods in Natural Language Processing and the 9th Interna- tional Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 3752–3761.

[3] Johnson,J.;Douze,M.;andJe ?gou,H.2017. Billion- scale similarity search with GPUs. arXiv preprint arXiv:1702.08734.

[4] Nallapati, R.; Zhai, F.; and Zhou, B. 2017. Summarunner: A recurrent neural network based sequence model for ex- tractive summarization of documents. In Thirty-First AAAI Conference on Artificial Intelligence.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載摘能,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者续崖。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市团搞,隨后出現(xiàn)的幾起案子严望,更是在濱河造成了極大的恐慌,老刑警劉巖逻恐,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件像吻,死亡現(xiàn)場離奇詭異,居然都是意外死亡复隆,警方通過查閱死者的電腦和手機拨匆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來挽拂,“玉大人惭每,你說我怎么就攤上這事∏峋郑” “怎么了洪鸭?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長仑扑。 經(jīng)常有香客問我,道長置鼻,這世上最難降的妖魔是什么镇饮? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮箕母,結(jié)果婚禮上储藐,老公的妹妹穿的比我還像新娘。我一直安慰自己嘶是,他們只是感情好钙勃,可當我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著聂喇,像睡著了一般辖源。 火紅的嫁衣襯著肌膚如雪蔚携。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天克饶,我揣著相機與錄音酝蜒,去河邊找鬼。 笑死矾湃,一個胖子當著我的面吹牛亡脑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播邀跃,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼霉咨,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了拍屑?” 一聲冷哼從身側(cè)響起躯护,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎丽涩,沒想到半個月后棺滞,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡矢渊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年继准,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矮男。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡移必,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出毡鉴,到底是詐尸還是另有隱情崔泵,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布猪瞬,位于F島的核電站憎瘸,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏陈瘦。R本人自食惡果不足惜幌甘,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望痊项。 院中可真熱鬧锅风,春花似錦、人聲如沸鞍泉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咖驮。三九已至边器,卻和暖如春训枢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背饰抒。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工肮砾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人袋坑。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓仗处,卻偏偏與公主長得像,于是被迫代替她去往敵國和親枣宫。 傳聞我的和親對象是個殘疾皇子婆誓,可洞房花燭夜當晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容