自然語言生成工具箱 - CO2Sum（一）

文章名稱

【AAAI-2022】【Tencent AI Platform Department】CO2Sum:Contrastive Learning for Factual-Consistent Abstractive Summarization

核心要點

文章旨在抽象摘要生成方法存在的事實不一致的問題，利用對比學習機制粉寞，代替原有的后處理和機制尼荆，保證生成的摘要具有factual-consistent性質(zhì)。對比學習分別作用域seq2seq的encoder和decoder唧垦。encoder部分的對比學習幫助模型重視原始文本中的事實信息捅儒，decoder部分的對比學習幫助生成的事實一致的摘要。

方法細節(jié)

問題引入

現(xiàn)有的抽象摘要生成方法，利用teacher forcing巧还，通過MLE鞭莽，來一步步的指導模型生成摘要文本。這些方法得到的結(jié)果通常是語法正確并且流利的麸祷，但具有一些事實錯誤澎怒，具體案例如下圖所示，其中紅色的部分為事實錯誤（這個lover說的不是Ashley）阶牍。

factual error case

兩類方法被提出來解決這一問題喷面，1）Fact-Input；2）Post-Edit走孽。

Fact-Input惧辈，把事實信息表示成嵌入向量（通過encoder）。

Post-Edit磕瓷，在decoding之后盒齿，糾正生成文本中的事實錯誤。

但是這兩類方法（包括他們的結(jié)合體）生宛，需要復雜的處理過程县昂，并且需要修改原有的模型結(jié)構(gòu)肮柜。

具體做法

因此陷舅，作者提出了CO2Sum方法，其整體框架如下圖所示审洞。整體過程可以分為3個部分莱睁，

Framework of CO2Sum

生成對比學習樣本。高質(zhì)量的負樣本至關(guān)重要芒澜，可以同替換ground truth中的實體和名詞生成負樣本仰剿。然而，[1]表明實體可信無誤（事實正確）并不代表全部事實可信無誤（事實正確）痴晦。由于事實信息和上下文的關(guān)系聯(lián)系的十分緊密南吮，如果事實信息出現(xiàn)錯誤，它將與上下文的沒有聯(lián)系變?nèi)跆茏谩Ｒ虼瞬看眨髡卟捎肹2]中的句子壓縮算法，從ground truth中識別事實信息碧浊，并將它替換成原文本中相似的詞涂邀，來構(gòu)造負樣本。這符合information bottleneck的理論箱锐。作者稱這一方法為LFN（Language model-based Fac- tual Negative sample construction）比勉。LFN又可以分為3個部分，

候選生成。執(zhí)行句子壓縮算法 $T$ 次浩聋，生成候選集 $C$ 观蜗。每次句子壓縮也會遍歷ground truth $L$ 次（1到 $L$ ），每次從ground truth中篩選出固定長度為 $l$ 的span $SP$ 衣洁，并將其從ground truth中刪除嫂便，添加到候選的自己 $C_i$ 中。最終闸与，候選集合 $C = \{ C_i \}_{i=1}^{T}, C_i = \{ gd - sp_l \}_{l=1}^{L}$ 毙替。

候選排序。每一個候選集合中的元素 $c \in C$ 都需要經(jīng)過兩階段排序的打分践樱，并最終選擇 $top-K$ 個元素 $c$ 厂画，記作 $T_{fragement}$ 。第一階段拷邢，利用預訓練的語言模型 $LM(c)$ 來計算prune score袱院，具體邏輯可以參見引文[2]。第二階段瞭稼，利用語言模型 $LM(T_next|c)$ 預測在給定候選集元素的情況下忽洛，可以得到ground truth中下一句的概率（事實上 $c$ 就是一些被認為可以表示事實的關(guān)鍵詞，而 $T_next$ 是ground truth中的上下文句子环肘。

候選替換欲虚。 $T_{fragement}$ 中的詞容易產(chǎn)生事實錯誤，所以作者利用faiss[3]將他們替換為相似的詞悔雹，構(gòu)造出負樣本复哆。 **值得注意的是，不同于[2]作者的句子壓縮算法是應用在ground truth中的腌零，因此ground truth中的 $T_{next}$ 可能不如原文本中的 $T_{next}$ 那樣梯找，具有比較好的連貫性。作者采用[4]中的方法益涧，識別原文本中的oracle sentence锈锤， $G_{next}$ 。以此來完成第二階段的評分闲询，效果由于直接使用 $T_{next}$ 久免。

在編碼器上進行對比學習。

在解碼器上進行對比學習嘹裂。

本節(jié)講解了妄壶，作者針對摘要生成中事實錯誤的問題提出的解決方案框架，以及負樣本生成的思路寄狼。下一節(jié)繼續(xù)介紹在編碼器和解碼器上的對比學習丁寄。

代碼實現(xiàn)

負樣本生成的偽代碼如下圖所示氨淌。

LFN

心得體會

句子壓縮

個人感覺，作者的主要思路是壓縮出和原文oracle sentence（或者ground truth）中下一個句子關(guān)系最大的短語伊磺，span盛正。此時，效果的好壞完全依賴于 $T_{next}或者$ G_{next}$屑埋。如果語義跳動很大豪筝，篩選出來的事實短語也許并不能夠真實反映語義。

文章引用

[1] Chen, S.; Zhang, F.; Sone, K.; and Roth, D. 2021. Improv- ing Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection. In Proceedings of the 2021 Conference of the North American Chapter of the As- sociation for Computational Linguistics: Human Language Technologies, 5935–5941.

[2] West, P.; Holtzman, A.; Buys, J.; and Choi, Y. 2019. Bot- tleSum: Unsupervised and Self-supervised Sentence Sum- marization using the Information Bottleneck Principle. In Proceedings of the 2019 Conference on Empirical Meth- ods in Natural Language Processing and the 9th Interna- tional Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 3752–3761.

[3] Johnson,J.;Douze,M.;andJe ?gou,H.2017. Billion- scale similarity search with GPUs. arXiv preprint arXiv:1702.08734.

[4] Nallapati, R.; Zhai, F.; and Zhou, B. 2017. Summarunner: A recurrent neural network based sequence model for ex- tractive summarization of documents. In Thirty-First AAAI Conference on Artificial Intelligence.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

禁止轉(zhuǎn)載摘能，如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者续崖。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市团搞，隨后出現(xiàn)的幾起案子严望，更是在濱河造成了極大的恐慌，老刑警劉巖逻恐，帶你破解...
沈念sama閱讀 221,635評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件像吻，死亡現(xiàn)場離奇詭異，居然都是意外死亡复隆，警方通過查閱死者的電腦和手機拨匆，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來挽拂，“玉大人惭每，你說我怎么就攤上這事∏峋郑” “怎么了洪鸭？”我有些...
開封第一講書人閱讀 168,083評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長仑扑。經(jīng)常有香客問我，道長置鼻，這世上最難降的妖魔是什么镇饮？我笑而不...
開封第一講書人閱讀 59,640評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮箕母，結(jié)果婚禮上储藐，老公的妹妹穿的比我還像新娘。我一直安慰自己嘶是，他們只是感情好钙勃，可當我...
茶點故事閱讀 68,640評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著聂喇，像睡著了一般辖源。火紅的嫁衣襯著肌膚如雪蔚携。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,262評論 1贊 308
城市分裂傳說
那天克饶，我揣著相機與錄音酝蜒，去河邊找鬼。笑死矾湃，一個胖子當著我的面吹牛亡脑，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播邀跃，決...
沈念sama閱讀 40,833評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼霉咨，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了拍屑？” 一聲冷哼從身側(cè)響起躯护，我...
開封第一講書人閱讀 39,736評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎丽涩，沒想到半個月后棺滞，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,280評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡矢渊，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,369評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年继准，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矮男。...
茶點故事閱讀 40,503評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡移必，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出毡鉴，到底是詐尸還是另有隱情崔泵，我是刑警寧澤，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布猪瞬，位于F島的核電站憎瘸，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏陈瘦。R本人自食惡果不足惜幌甘，卻給世界環(huán)境...
茶點故事閱讀 41,870評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望痊项。院中可真熱鬧锅风，春花似錦、人聲如沸鞍泉。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽咖驮。三九已至边器，卻和暖如春训枢，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背饰抒。一陣腳步聲響...
開封第一講書人閱讀 33,460評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工肮砾，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人袋坑。一個月前我還...
沈念sama閱讀 48,909評論 3贊 376
代替公主和親
正文我出身青樓仗处，卻偏偏與公主長得像，于是被迫代替她去往敵國和親枣宫。傳聞我的和親對象是個殘疾皇子婆誓，可洞房花燭夜當晚...
茶點故事閱讀 45,512評論 2贊 359