知識圖譜如何助力文本摘要生成

引言

文本生成類任務應用場景廣泛早敬，挑戰(zhàn)性強，隨著Attention-Seq2seq大脉，Copy-Net搞监，GPT這類極具影響力的工作出現(xiàn)，以及CNN/DM镰矿，LCSTS這樣大規(guī)模生成類數(shù)據(jù)集的提出琐驴，生成類任務的熱度也逐漸攀升，ACL2019僅摘要生成就有20余篇（劉鵬飛博士對此做了非常詳盡的總結）秤标，不過其成熟度還遠不及文本匹配绝淡，實體識別這類任務，生成結果無關重復苍姜，丟失重點的現(xiàn)象依舊容易出現(xiàn)牢酵。本文基于摘要生成，重點考慮如何幫助模型生成特定領域的知識點衙猪，并簡要介紹一些用于應對無關重復這類退化現(xiàn)象的方案馍乙。

基礎生成

在語料充分時，神經(jīng)網(wǎng)絡"理解"文本句式的能力很強垫释，生成結果也相對流暢丝格，tensor2tensor這類成熟開源項目效果很好。但實際場景下數(shù)據(jù)量可能有限饶号，開源項目的潛力不易發(fā)揮，Transformer也未必優(yōu)于LSTM季蚂，因此茫船，我們?nèi)匀贿x擇基于LSTM的經(jīng)典seq2seq結構。此外扭屁，受2015年pointer-net啟發(fā)算谈，2016年的copy-net讓模型對文本段中的oov不再束手無策，在此基礎上料滥，google次年發(fā)布的pointer-generator大大簡化了copy機制的過程然眼，同時提出了coverage機制應對生成重復問題，CNN/DM數(shù)據(jù)集也出自本文葵腹。對比一些開源項目后高每，我們也以本文結構作為baseline屿岂。

Get To The Point: Summarization with Pointer-Generator Networks

本文模型結構簡潔，思路清晰鲸匿，與基礎的seq2seq比較非常方便爷怀，在這兩年很多摘要生成工作中都作為baseline出現(xiàn)，表現(xiàn)不俗带欢。作為一個子任務工作运授，項目star已達1.5k+，也說明一定影響力乔煞。

image

文中用attention作為分布的方法吁朦，就源于2015年的pointer-net：

image

Pointer-net直接用attention結果a^t作為分布預測生成點，生成結果必定出現(xiàn)在原文中渡贾。所以這種方法可以讓模型生成原文中出現(xiàn)的OOV詞逗宜，另外還可以強化部分詞在分布中的概率。從筆者的實驗來看剥啤，在數(shù)據(jù)量有限時锦溪，seq2seq能力欠佳，疊加attention帶來的收益相當可觀府怯。

此外刻诊，本文所用的coverage機制指的是用covloss來懲罰重復現(xiàn)象，即：

image

不難理解牺丙，c就是之前attention分布的疊加则涯，所以之前的重復位置i會強化向量c的第i維，顯然累積分布越分散covloss就越小冲簿，這樣粟判，covloss就起到了懲罰作用。

融入實體知識

知識的表示和融合可以說是幾乎所有NLP任務的擴展方向峦剔，畢竟完全依賴神經(jīng)網(wǎng)絡黑箱潛力的方向即便可行档礁，恐怕也因計算資源限制將多數(shù)團隊拒之門外（例如Google最新的 T5）另外我們也認為，特別對于很多垂直領域吝沫，專業(yè)知識帶來的收益是很大的呻澜。在醫(yī)療方向的摘要生成上，我們同樣希望能借助實體知識提升模型能力惨险。

其實考慮實體知識特征的生成類工作已有不少了羹幸，最容易想到的大致有實體，模版以及主題辫愉，下面將簡要介紹與這三種相關的工作栅受。

Neural Question Generation from Text- A Preliminary Study

無論是依靠知識圖譜，還是借助BERT類模型在NER任務上的良好表現(xiàn)，實體特征的獲取應該都很容易實現(xiàn)屏镊。在文本分類相關任務中依疼，融合外部特征的常見做法，就是編碼這些特征闸衫，然后選擇不同的encoding層做concat涛贯，本文在問題生成任務中，對這類融合方式做了實驗對比蔚出，模型結構上除了加入copy機制外弟翘，沒有更多值得特別注意的改變。不過本文對concat各種特征做了實驗比較骄酗，作者選取了word case稀余，POS，NER趋翻，answer-tag作為額外特征睛琳，結果在下表中顯示：

image

其中有幾處指標變化值得關注，首先NQG+表示增加了copy機制踏烙，與NQG對比可見提升比較明顯师骗；此外下面與NQG對比，NER讨惩，POS辟癌，Case這三種的下降都不明顯，似乎說明concat這幾種特征效果并不好荐捻；最后Answer這一項效果顯著黍少，這是作者用類似NER的tag標識了問題中答案的部分，似乎這一特征起到了決定性的作用处面。

這樣看來厂置，直接concat特征，把麻煩交給編碼器的思路并不可行魂角，而影響巨大的answer特征也許是起到了"過濾"的作用昵济，我們知道，生成摘要就是組織關鍵信息野揪，直覺上過濾無用信息應該對生成模型有所幫助访忿，或許借助知識特征進行過濾的思路值得試試。

BiSET: Bi-directional Selective Encoding with Template for Abstractive Summarization

模版往往是抽取式模型常用的方式囱挑，本文則是提出了利用模版過濾原文編碼特征的方法醉顽。

image

思路和實現(xiàn)都很直白沼溜，就是常見的加入gate單元計算概率平挑。圖中的(b)就是(a)中的Selective模塊，對輸入文本段和模版分別編碼翁都，然后構造兩個可訓練的gate單元計算權重皂贩，最后的z就是過濾后的輸入編碼。

image

本文提供了另一個用外部特征進行過濾的思路萝究，模型結構并不復雜唇辨，但構造模版并不輕松廊酣，需要結合應用場景考慮。相比之下赏枚，下面這種方法簡單粗暴亡驰，卻也能帶來不錯的效果。

Multi-Source Pointer Network for Product Title Summarization

當你用了pointer generator饿幅，又考慮融入實體知識特征時凡辱，就會自然想到這篇文章的做法。既然可以用attention作為分布強化原文中詞的概率栗恩，那用在實體知識特征上當然也沒問題透乾。

image

特別對于垂直領域語料，模型準確生成一個領域?qū)嶓w詞的價值遠大于生成流暢的廢話磕秤，本文是用于生成商品描述乳乌，我們則是用在醫(yī)療數(shù)據(jù)集上，目的都是讓生成結果盡可能涵蓋關鍵信息市咆。相比于上面concat的做法汉操，這里再用一次attention疊加的效果更明顯。

image

image

image

上面是pointer generator加實體attention疊加的生成結果床绪，訓練數(shù)據(jù)集不足時客情，通過抽取實體輔助生成，模型可以相對準的抓住原文的關鍵信息癞己。

不過這種方法有一個麻煩膀斋，就是受實體特征的影響很大，畢竟關鍵詞和實體詞還是有差別的痹雅，基于BERT的NER模型可以覆蓋相對完整的實體仰担，但無法識別出哪些是關鍵詞，而關鍵詞的重要性更大于實體詞绩社，丟失了關鍵詞很容易誤導模型摔蓝。因此，單純的NER并不滿足愉耙。

我們考慮主題的思路贮尉，但在pointer-generator的結構下，需要詞一級的準確性朴沿，LDA并不滿足猜谚，之后我們嘗試了上一篇blog內(nèi)介紹的方法(應用知識圖譜的文本標簽方法)败砂，在知識圖譜和主題模型的共同幫助下，相比于僅用BERT魏铅，抽取關鍵詞效果更好昌犹，生成結果錯誤生成/丟失關鍵詞的現(xiàn)象也有所緩解。

退化現(xiàn)象

重復一直是文本生成類任務的通病览芳，這在一些文章中被稱為退化斜姥，我們也在尋找合適的應對方案，coverage機制就是一種方案沧竟，但并不足夠铸敏，下面的工作介紹了另一種損失函數(shù)，在詞和子句(ngram)兩個點共同發(fā)力應對退化現(xiàn)象悟泵。

NEURAL TEXT DEGENERATION WITH UNLIKELIHOOD TRAINING

本文提出用Unlikelihood損失來懲罰重復生成（解決退化現(xiàn)象）搞坝，其實基本通過標題就能想到，Likelihood是用來預測詞表中的下一個生成詞魁袜，Unlikelihood就是預測不想生成的詞桩撮。

image

沒錯，最后損失函數(shù)就長這樣峰弹，有一個詞表表示不想生成的詞店量，已經(jīng)生成的詞在里面可以緩解重復現(xiàn)象，還能根據(jù)不同需求加入一些詞避免錯誤鞠呈。在詞級別的Unlikelihood基礎上融师，作者還設計子句級的Unlikelihood，形式也基本一樣蚁吝，就是避免重復n-gram旱爆，各位感興趣可以閱讀文章附錄的詳細分析。

The Curious Case of Neural Text Degeneration

雖然本文相關的實驗均基于續(xù)寫類任務窘茁，但仍極具參考價值怀伦。該團隊重點關注生成結果的多樣性，并提出新生成方法山林，作者對比了beam search生成的概率分布與真人自然語言分布的差異房待，指出這種生成策略是產(chǎn)生重復現(xiàn)象的重要原因。

image

大家知道beam search可以看作視野更開闊的貪心搜索驼抹，即便是有窗口K桑孩，每一步仍然是選擇累計概率高的詞作為輸出，正如圖中黃線所示框冀，這與藍線表示的自然語言差異巨大流椒，通常人們產(chǎn)生的語句是由高頻日常用語和特定場景的低頻詞共同組成的∶饕玻可以大致認為宣虾，beam search無法產(chǎn)生足夠豐富的語句极谊。

此外，作者還表示安岂，傾向于最大概率的生成策略不僅在每一步丟失豐富性，還會累積地強化重復現(xiàn)象帆吻。不難想象域那，正因為重復的n-gram概率高，現(xiàn)有模型才容易變成結巴猜煮。

image

針對上述問題次员，作者提出用Nucleus Sampling替換主流的beam search作為生成策略。不同于之前的搜索方法王带，采樣方法希望通過增加隨機性來提高生成的豐富性淑蔚，同時要注意降低生成低頻詞帶來的語句錯誤。Nucleus Sampling又稱Top-p Sampling愕撰，具體的刹衫，先設定一個概率闕值p ，將現(xiàn)有詞概率由大到小排序搞挣，取累積概率值達到p的前N個詞带迟，重新計算softmax再從中采樣。對比Top-k采樣策略囱桨，Top-p限制了生成低頻詞帶來的語句錯誤仓犬，這種方法也被應用在GPT-2生成上，感興趣的讀者可以參考其中的參數(shù)設定舍肠。

Non-Autoregressive

LevT: Levenshtein Transformer

我們一直奢望找到讓生成模型更靈活的方法搀继，傳統(tǒng)的自回歸模型，無論如何融入特征翠语，基本框架都是編解碼器提供歷史向量編碼叽躯，輸出端計算詞典概率p(x_t|x_old)，能否讓模型對輸出端的token有更強的控制呢肌括？本文提供了一種大膽的思路险毁，從標題已經(jīng)能看出，作者把編Levenshtein距離的操作和Transformer融合在一起做生成模型们童，輸出端不僅要決定詞本身畔况，還要決定對詞施加的操作。

image

LevT模型包含插入和刪除兩種操作慧库，用Levenshtein距離作為回報函數(shù)指導模型選擇操作跷跪。具體如上圖所示，對于刪除操作齐板，模型僅需要做二分類抉擇吵瞻，而對插入操作葛菇，模型首先需要插入占位符，再從詞典中選擇插入詞橡羞，下式描述了操作策略眯停。

image

作者提出用模仿學習訓練該策略模型。構造一個專家策略卿泽，從模型策略中采樣序列作為輸入莺债，交給專家策略判斷操作。專家策略有兩種構造方法签夭，一種是構造一個oracle齐邦，每次接收真實序列，返回最優(yōu)操作a*第租，另一種可以訓練一個字回歸模型作為teacher措拇，用beam search的生成結果作為真實序列。

個人認為慎宾，即便是在Non-autoregressive領域內(nèi)丐吓，這應該也算是創(chuàng)新性非常強的工作了，可以對生成結果進行修改趟据，操作策略也能自主學習汰蜘，而且操作之間可以并行，速度并不慢之宿。

總結

數(shù)據(jù)量有限時族操，pointer-generator可能比復雜的baseline或開源項目更適合，在此基礎上比被，融合實體知識有更多可以參考的工作色难，此外結合實體知識后分詞和詞典整理之類的細節(jié)不容忽視。相比于語義匹配這類相對成熟的任務等缀，文本生成類工作更難達到一個可以接受的結果枷莉，目前的模型都無法完全避免生成重復，生成錯誤尺迂，丟失關鍵點等問題笤妙，在應用場景中。如何應對重復問題噪裕，提高生成多樣性依舊老生常談但成效有限蹲盘，另外Non-autoregressive方向有一些非常新穎的工作，除了上面提到的LevT外膳音，還有一些從生成位置入手的工作值得學習召衔，BERT之后的XLNet也針對Non-autoregressive有獨特的設計，可見這一領域的潛力祭陷，最后評價指標一直是生成領域的弱項苍凛，也為應用趣席。

引用

[1] Pointer Networks

[2] Incorporating Copying Mechanism in Sequence-to-Sequence Learning

[3] Get To The Point: Summarization with Pointer-Generator Networks

[4] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

[5] Neural Question Generation from Text: A Preliminary Study

[6] BiSET: Bi-directional Selective Encoding with Template for Abstractive Summarization

[7] Multi-Source Pointer Network for Product Title Summarization

[8] 知識圖譜如何應用到文本標簽化算法中

[9] Neural Text Generation with Unlikelihood Training

[10] The Curious Case of Neural Text Degeneration

[11] Levenshtein Transformer

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市醇蝴，隨后出現(xiàn)的幾起案子宣肚，更是在濱河造成了極大的恐慌，老刑警劉巖悠栓，帶你破解...
沈念sama閱讀 219,270評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件霉涨，死亡現(xiàn)場離奇詭異，居然都是意外死亡闸迷，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門俘枫，熙熙樓的掌柜王于貴愁眉苦臉地迎上來腥沽，“玉大人，你說我怎么就攤上這事鸠蚪〗裱簦” “怎么了？”我有些...
開封第一講書人閱讀 165,630評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵茅信，是天一觀的道長盾舌。經(jīng)常有香客問我，道長蘸鲸，這世上最難降的妖魔是什么妖谴？我笑而不...
開封第一講書人閱讀 58,906評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮酌摇，結果婚禮上膝舅，老公的妹妹穿的比我還像新娘。我一直安慰自己窑多，他們只是感情好仍稀，可當我...
茶點故事閱讀 67,928評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著埂息，像睡著了一般技潘。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上千康，一...
開封第一講書人閱讀 51,718評論 1贊 305
城市分裂傳說
那天享幽，我揣著相機與錄音，去河邊找鬼拾弃。笑死琉闪，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的砸彬。我是一名探鬼主播颠毙，決...
沈念sama閱讀 40,442評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼斯入，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了蛀蜜？” 一聲冷哼從身側(cè)響起刻两，我...
開封第一講書人閱讀 39,345評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎滴某，沒想到半個月后磅摹，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,802評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡霎奢，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,984評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年户誓，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片幕侠。...
茶點故事閱讀 40,117評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡帝美，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出晤硕，到底是詐尸還是另有隱情悼潭，我是刑警寧澤，帶...
沈念sama閱讀 35,810評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布舞箍，位于F島的核電站舰褪，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏疏橄。R本人自食惡果不足惜占拍，卻給世界環(huán)境...
茶點故事閱讀 41,462評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望捎迫。院中可真熱鬧刷喜，春花似錦、人聲如沸立砸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽颗祝。三九已至浊闪，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間螺戳，已是汗流浹背搁宾。一陣腳步聲響...
開封第一講書人閱讀 33,139評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留倔幼，地道東北人盖腿。一個月前我還...
沈念sama閱讀 48,377評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親翩腐。傳聞我的和親對象是個殘疾皇子鸟款，可洞房花燭夜當晚...
茶點故事閱讀 45,060評論 2贊 355

知識圖譜如何助力文本摘要生成

引言

基礎生成

融入實體知識

退化現(xiàn)象

Non-Autoregressive

總結

引用

推薦閱讀更多精彩內(nèi)容