文章名稱
【AAAI-2022】【Tencent AI Platform Department】CO2Sum:Contrastive Learning for Factual-Consistent Abstractive Summarization
核心要點
文章旨在抽象摘要生成方法存在的事實不一致的問題,利用對比學習機制粉寞,代替原有的后處理和機制尼荆,保證生成的摘要具有factual-consistent性質(zhì)。對比學習分別作用域seq2seq的encoder和decoder唧垦。encoder部分的對比學習幫助模型重視原始文本中的事實信息捅儒,decoder部分的對比學習幫助生成的事實一致的摘要。
方法細節(jié)
問題引入
現(xiàn)有的抽象摘要生成方法,利用teacher forcing巧还,通過MLE鞭莽,來一步步的指導模型生成摘要文本。這些方法得到的結(jié)果通常是語法正確并且流利的麸祷,但具有一些事實錯誤澎怒,具體案例如下圖所示,其中紅色的部分為事實錯誤(這個lover說的不是Ashley)阶牍。
兩類方法被提出來解決這一問題喷面,1)Fact-Input;2)Post-Edit走孽。
- Fact-Input惧辈,把事實信息表示成嵌入向量(通過encoder)。
- Post-Edit磕瓷,在decoding之后盒齿,糾正生成文本中的事實錯誤。
但是這兩類方法(包括他們的結(jié)合體)生宛,需要復雜的處理過程县昂,并且需要修改原有的模型結(jié)構(gòu)肮柜。
具體做法
因此陷舅,作者提出了CO2Sum方法,其整體框架如下圖所示审洞。整體過程可以分為3個部分莱睁,
- 生成對比學習樣本。高質(zhì)量的負樣本至關(guān)重要芒澜,可以同替換ground truth中的實體和名詞生成負樣本仰剿。然而,[1]表明實體可信無誤(事實正確)并不代表全部事實可信無誤(事實正確)痴晦。由于事實信息和上下文的關(guān)系聯(lián)系的十分緊密南吮,如果事實信息出現(xiàn)錯誤,它將與上下文的沒有聯(lián)系變?nèi)跆茏谩R虼瞬看眨髡卟捎肹2]中的句子壓縮算法,從ground truth中識別事實信息碧浊,并將它替換成原文本中相似的詞涂邀,來構(gòu)造負樣本。這符合information bottleneck的理論箱锐。作者稱這一方法為LFN(Language model-based Fac- tual Negative sample construction)比勉。LFN又可以分為3個部分,
- 候選生成。執(zhí)行句子壓縮算法
次浩聋,生成候選集
观蜗。每次句子壓縮也會遍歷ground truth
次(1到
),每次從ground truth中篩選出固定長度為
的span
衣洁,并將其從ground truth中刪除嫂便,添加到候選的自己
中。最終闸与,候選集合
毙替。
- 候選排序。每一個候選集合中的元素
都需要經(jīng)過兩階段排序的打分践樱,并最終選擇
個元素
厂画,記作
。第一階段拷邢,利用預訓練的語言模型
來計算prune score袱院,具體邏輯可以參見引文[2]。第二階段瞭稼,利用語言模型
預測在給定候選集元素的情況下忽洛,可以得到ground truth中下一句的概率(事實上
就是一些被認為可以表示事實的關(guān)鍵詞,而
是ground truth中的上下文句子环肘。
- 候選替換欲虚。
中的詞容易產(chǎn)生事實錯誤,所以作者利用faiss[3]將他們替換為相似的詞悔雹,構(gòu)造出負樣本复哆。 **值得注意的是,不同于[2]作者的句子壓縮算法是應用在ground truth中的腌零,因此ground truth中的
可能不如原文本中的
那樣梯找,具有比較好的連貫性。作者采用[4]中的方法益涧,識別原文本中的oracle sentence锈锤,
。以此來完成第二階段的評分闲询,效果由于直接使用
久免。
- 在編碼器上進行對比學習。
- 在解碼器上進行對比學習嘹裂。
本節(jié)講解了妄壶,作者針對摘要生成中事實錯誤的問題提出的解決方案框架,以及負樣本生成的思路寄狼。下一節(jié)繼續(xù)介紹在編碼器和解碼器上的對比學習丁寄。
代碼實現(xiàn)
負樣本生成的偽代碼如下圖所示氨淌。
心得體會
句子壓縮
個人感覺,作者的主要思路是壓縮出和原文oracle sentence(或者ground truth)中下一個句子關(guān)系最大的短語伊磺,span盛正。此時,效果的好壞完全依賴于G_{next}$屑埋。如果語義跳動很大豪筝,篩選出來的事實短語也許并不能夠真實反映語義。
文章引用
[1] Chen, S.; Zhang, F.; Sone, K.; and Roth, D. 2021. Improv- ing Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection. In Proceedings of the 2021 Conference of the North American Chapter of the As- sociation for Computational Linguistics: Human Language Technologies, 5935–5941.
[2] West, P.; Holtzman, A.; Buys, J.; and Choi, Y. 2019. Bot- tleSum: Unsupervised and Self-supervised Sentence Sum- marization using the Information Bottleneck Principle. In Proceedings of the 2019 Conference on Empirical Meth- ods in Natural Language Processing and the 9th Interna- tional Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 3752–3761.
[3] Johnson,J.;Douze,M.;andJe ?gou,H.2017. Billion- scale similarity search with GPUs. arXiv preprint arXiv:1702.08734.
[4] Nallapati, R.; Zhai, F.; and Zhou, B. 2017. Summarunner: A recurrent neural network based sequence model for ex- tractive summarization of documents. In Thirty-First AAAI Conference on Artificial Intelligence.