知識圖譜如何助力文本摘要生成

引言

文本生成類任務應用場景廣泛早敬,挑戰(zhàn)性強,隨著Attention-Seq2seq大脉,Copy-Net搞监,GPT這類極具影響力的工作出現(xiàn),以及CNN/DM镰矿,LCSTS這樣大規(guī)模生成類數(shù)據(jù)集的提出琐驴,生成類任務的熱度也逐漸攀升,ACL2019僅摘要生成就有20余篇(劉鵬飛博士對此做了非常詳盡的總結)秤标,不過其成熟度還遠不及文本匹配绝淡,實體識別這類任務,生成結果無關重復苍姜,丟失重點的現(xiàn)象依舊容易出現(xiàn)牢酵。本文基于摘要生成,重點考慮如何幫助模型生成特定領域的知識點衙猪,并簡要介紹一些用于應對無關重復這類退化現(xiàn)象的方案馍乙。

基礎生成

在語料充分時,神經(jīng)網(wǎng)絡"理解"文本句式的能力很強垫释,生成結果也相對流暢丝格,tensor2tensor這類成熟開源項目效果很好。但實際場景下數(shù)據(jù)量可能有限饶号,開源項目的潛力不易發(fā)揮,Transformer也未必優(yōu)于LSTM季蚂,因此茫船,我們?nèi)匀贿x擇基于LSTM的經(jīng)典seq2seq結構。此外扭屁,受2015年pointer-net啟發(fā)算谈,2016年的copy-net讓模型對文本段中的oov不再束手無策,在此基礎上料滥,google次年發(fā)布的pointer-generator大大簡化了copy機制的過程然眼,同時提出了coverage機制應對生成重復問題,CNN/DM數(shù)據(jù)集也出自本文葵腹。對比一些開源項目后高每,我們也以本文結構作為baseline屿岂。

Get To The Point: Summarization with Pointer-Generator Networks

本文模型結構簡潔,思路清晰鲸匿,與基礎的seq2seq比較非常方便爷怀,在這兩年很多摘要生成工作中都作為baseline出現(xiàn),表現(xiàn)不俗带欢。作為一個子任務工作运授,項目star已達1.5k+,也說明一定影響力乔煞。

image

文中用attention作為分布的方法吁朦,就源于2015年的pointer-net:

image

Pointer-net直接用attention結果a^t作為分布預測生成點,生成結果必定出現(xiàn)在原文中渡贾。所以這種方法可以讓模型生成原文中出現(xiàn)的OOV詞逗宜,另外還可以強化部分詞在分布中的概率。從筆者的實驗來看剥啤,在數(shù)據(jù)量有限時锦溪,seq2seq能力欠佳,疊加attention帶來的收益相當可觀府怯。

此外刻诊,本文所用的coverage機制指的是用covloss來懲罰重復現(xiàn)象,即:

image

不難理解牺丙,c就是之前attention分布的疊加则涯,所以之前的重復位置i會強化向量c的第i維,顯然累積分布越分散covloss就越小冲簿,這樣粟判,covloss就起到了懲罰作用。

融入實體知識

知識的表示和融合可以說是幾乎所有NLP任務的擴展方向峦剔,畢竟完全依賴神經(jīng)網(wǎng)絡黑箱潛力的方向即便可行档礁,恐怕也因計算資源限制將多數(shù)團隊拒之門外(例如Google最新的 T5)另外我們也認為,特別對于很多垂直領域吝沫,專業(yè)知識帶來的收益是很大的呻澜。在醫(yī)療方向的摘要生成上,我們同樣希望能借助實體知識提升模型能力惨险。

其實考慮實體知識特征的生成類工作已有不少了羹幸,最容易想到的大致有實體,模版以及主題辫愉,下面將簡要介紹與這三種相關的工作栅受。

Neural Question Generation from Text- A Preliminary Study

無論是依靠知識圖譜,還是借助BERT類模型在NER任務上的良好表現(xiàn),實體特征的獲取應該都很容易實現(xiàn)屏镊。在文本分類相關任務中依疼,融合外部特征的常見做法,就是編碼這些特征闸衫,然后選擇不同的encoding層做concat涛贯,本文在問題生成任務中,對這類融合方式做了實驗對比蔚出,模型結構上除了加入copy機制外弟翘,沒有更多值得特別注意的改變。不過本文對concat各種特征做了實驗比較骄酗,作者選取了word case稀余,POS,NER趋翻,answer-tag作為額外特征睛琳,結果在下表中顯示:

image

其中有幾處指標變化值得關注,首先NQG+表示增加了copy機制踏烙,與NQG對比可見提升比較明顯师骗;此外下面與NQG對比,NER讨惩,POS辟癌,Case這三種的下降都不明顯,似乎說明concat這幾種特征效果并不好荐捻;最后Answer這一項效果顯著黍少,這是作者用類似NER的tag標識了問題中答案的部分,似乎這一特征起到了決定性的作用处面。

這樣看來厂置,直接concat特征,把麻煩交給編碼器的思路并不可行魂角,而影響巨大的answer特征也許是起到了"過濾"的作用昵济,我們知道,生成摘要就是組織關鍵信息野揪,直覺上過濾無用信息應該對生成模型有所幫助访忿,或許借助知識特征進行過濾的思路值得試試。

BiSET: Bi-directional Selective Encoding with Template for Abstractive Summarization

模版往往是抽取式模型常用的方式囱挑,本文則是提出了利用模版過濾原文編碼特征的方法醉顽。

image

思路和實現(xiàn)都很直白沼溜,就是常見的加入gate單元計算概率平挑。圖中的(b)就是(a)中的Selective模塊,對輸入文本段和模版分別編碼翁都,然后構造兩個可訓練的gate單元計算權重皂贩,最后的z就是過濾后的輸入編碼。

image

本文提供了另一個用外部特征進行過濾的思路萝究,模型結構并不復雜唇辨,但構造模版并不輕松廊酣,需要結合應用場景考慮。相比之下赏枚,下面這種方法簡單粗暴亡驰,卻也能帶來不錯的效果。

Multi-Source Pointer Network for Product Title Summarization

當你用了pointer generator饿幅,又考慮融入實體知識特征時凡辱,就會自然想到這篇文章的做法。既然可以用attention作為分布強化原文中詞的概率栗恩,那用在實體知識特征上當然也沒問題透乾。

image

特別對于垂直領域語料,模型準確生成一個領域?qū)嶓w詞的價值遠大于生成流暢的廢話磕秤,本文是用于生成商品描述乳乌,我們則是用在醫(yī)療數(shù)據(jù)集上,目的都是讓生成結果盡可能涵蓋關鍵信息市咆。相比于上面concat的做法汉操,這里再用一次attention疊加的效果更明顯。

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">實例-1</figcaption>

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">實例-2</figcaption>

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">實例-3</figcaption>

上面是pointer generator加實體attention疊加的生成結果床绪,訓練數(shù)據(jù)集不足時客情,通過抽取實體輔助生成,模型可以相對準的抓住原文的關鍵信息癞己。

不過這種方法有一個麻煩膀斋,就是受實體特征的影響很大,畢竟關鍵詞和實體詞還是有差別的痹雅,基于BERT的NER模型可以覆蓋相對完整的實體仰担,但無法識別出哪些是關鍵詞,而關鍵詞的重要性更大于實體詞绩社,丟失了關鍵詞很容易誤導模型摔蓝。因此,單純的NER并不滿足愉耙。

我們考慮主題的思路贮尉,但在pointer-generator的結構下,需要詞一級的準確性朴沿,LDA并不滿足猜谚,之后我們嘗試了上一篇blog內(nèi)介紹的方法(應用知識圖譜的文本標簽方法)败砂,在知識圖譜和主題模型的共同幫助下,相比于僅用BERT魏铅,抽取關鍵詞效果更好昌犹,生成結果錯誤生成/丟失關鍵詞的現(xiàn)象也有所緩解。

退化現(xiàn)象

重復一直是文本生成類任務的通病览芳,這在一些文章中被稱為退化斜姥,我們也在尋找合適的應對方案,coverage機制就是一種方案沧竟,但并不足夠铸敏,下面的工作介紹了另一種損失函數(shù),在詞和子句(ngram)兩個點共同發(fā)力應對退化現(xiàn)象悟泵。

NEURAL TEXT DEGENERATION WITH UNLIKELIHOOD TRAINING

本文提出用Unlikelihood損失來懲罰重復生成(解決退化現(xiàn)象)搞坝,其實基本通過標題就能想到,Likelihood是用來預測詞表中的下一個生成詞魁袜,Unlikelihood就是預測不想生成的詞桩撮。

image

沒錯,最后損失函數(shù)就長這樣峰弹,有一個詞表表示不想生成的詞店量,已經(jīng)生成的詞在里面可以緩解重復現(xiàn)象,還能根據(jù)不同需求加入一些詞避免錯誤鞠呈。在詞級別的Unlikelihood基礎上融师,作者還設計子句級的Unlikelihood,形式也基本一樣蚁吝,就是避免重復n-gram旱爆,各位感興趣可以閱讀文章附錄的詳細分析。

The Curious Case of Neural Text Degeneration

雖然本文相關的實驗均基于續(xù)寫類任務窘茁,但仍極具參考價值怀伦。該團隊重點關注生成結果的多樣性,并提出新生成方法山林,作者對比了beam search生成的概率分布與真人自然語言分布的差異房待,指出這種生成策略是產(chǎn)生重復現(xiàn)象的重要原因。

image

大家知道beam search可以看作視野更開闊的貪心搜索驼抹,即便是有窗口K桑孩,每一步仍然是選擇累計概率高的詞作為輸出,正如圖中黃線所示框冀,這與藍線表示的自然語言差異巨大流椒,通常人們產(chǎn)生的語句是由高頻日常用語和特定場景的低頻詞共同組成的∶饕玻可以大致認為宣虾,beam search無法產(chǎn)生足夠豐富的語句极谊。

此外,作者還表示安岂,傾向于最大概率的生成策略不僅在每一步丟失豐富性,還會累積地強化重復現(xiàn)象帆吻。不難想象域那,正因為重復的n-gram概率高,現(xiàn)有模型才容易變成結巴猜煮。

image

針對上述問題次员,作者提出用Nucleus Sampling替換主流的beam search作為生成策略。不同于之前的搜索方法王带,采樣方法希望通過增加隨機性來提高生成的豐富性淑蔚,同時要注意降低生成低頻詞帶來的語句錯誤。Nucleus Sampling又稱Top-p Sampling愕撰,具體的刹衫,先設定一個概率闕值p ,將現(xiàn)有詞概率由大到小排序搞挣,取累積概率值達到p的前N個詞带迟,重新計算softmax再從中采樣。對比Top-k采樣策略囱桨,Top-p限制了生成低頻詞帶來的語句錯誤仓犬,這種方法也被應用在GPT-2生成上,感興趣的讀者可以參考其中的參數(shù)設定舍肠。

Non-Autoregressive

LevT: Levenshtein Transformer

我們一直奢望找到讓生成模型更靈活的方法搀继,傳統(tǒng)的自回歸模型,無論如何融入特征翠语,基本框架都是編解碼器提供歷史向量編碼叽躯,輸出端計算詞典概率p(x_t|x_old),能否讓模型對輸出端的token有更強的控制呢肌括?本文提供了一種大膽的思路险毁,從標題已經(jīng)能看出,作者把編Levenshtein距離的操作和Transformer融合在一起做生成模型们童,輸出端不僅要決定詞本身畔况,還要決定對詞施加的操作。

image

LevT模型包含插入和刪除兩種操作慧库,用Levenshtein距離作為回報函數(shù)指導模型選擇操作跷跪。具體如上圖所示,對于刪除操作齐板,模型僅需要做二分類抉擇吵瞻,而對插入操作葛菇,模型首先需要插入占位符,再從詞典中選擇插入詞橡羞,下式描述了操作策略眯停。

image

作者提出用模仿學習訓練該策略模型。構造一個專家策略卿泽,從模型策略中采樣序列作為輸入莺债,交給專家策略判斷操作。專家策略有兩種構造方法签夭,一種是構造一個oracle齐邦,每次接收真實序列,返回最優(yōu)操作a*第租,另一種可以訓練一個字回歸模型作為teacher措拇,用beam search的生成結果作為真實序列。

個人認為慎宾,即便是在Non-autoregressive領域內(nèi)丐吓,這應該也算是創(chuàng)新性非常強的工作了,可以對生成結果進行修改趟据,操作策略也能自主學習汰蜘,而且操作之間可以并行,速度并不慢之宿。

總結

數(shù)據(jù)量有限時族操,pointer-generator可能比復雜的baseline或開源項目更適合,在此基礎上比被,融合實體知識有更多可以參考的工作色难,此外結合實體知識后分詞和詞典整理之類的細節(jié)不容忽視。相比于語義匹配這類相對成熟的任務等缀,文本生成類工作更難達到一個可以接受的結果枷莉,目前的模型都無法完全避免生成重復,生成錯誤尺迂,丟失關鍵點等問題笤妙,在應用場景中。如何應對重復問題噪裕,提高生成多樣性依舊老生常談但成效有限蹲盘,另外Non-autoregressive方向有一些非常新穎的工作,除了上面提到的LevT外膳音,還有一些從生成位置入手的工作值得學習召衔,BERT之后的XLNet也針對Non-autoregressive有獨特的設計,可見這一領域的潛力祭陷,最后評價指標一直是生成領域的弱項苍凛,也為應用趣席。


引用

[1] Pointer Networks

[2] Incorporating Copying Mechanism in Sequence-to-Sequence Learning

[3] Get To The Point: Summarization with Pointer-Generator Networks

[4] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

[5] Neural Question Generation from Text: A Preliminary Study

[6] BiSET: Bi-directional Selective Encoding with Template for Abstractive Summarization

[7] Multi-Source Pointer Network for Product Title Summarization

[8] 知識圖譜如何應用到文本標簽化算法中

[9] Neural Text Generation with Unlikelihood Training

[10] The Curious Case of Neural Text Degeneration

[11] Levenshtein Transformer

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市醇蝴,隨后出現(xiàn)的幾起案子宣肚,更是在濱河造成了極大的恐慌,老刑警劉巖悠栓,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霉涨,死亡現(xiàn)場離奇詭異,居然都是意外死亡闸迷,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門俘枫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來腥沽,“玉大人,你說我怎么就攤上這事鸠蚪〗裱簦” “怎么了?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵茅信,是天一觀的道長盾舌。 經(jīng)常有香客問我,道長蘸鲸,這世上最難降的妖魔是什么妖谴? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮酌摇,結果婚禮上膝舅,老公的妹妹穿的比我還像新娘。我一直安慰自己窑多,他們只是感情好仍稀,可當我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著埂息,像睡著了一般技潘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上千康,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天享幽,我揣著相機與錄音,去河邊找鬼拾弃。 笑死琉闪,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的砸彬。 我是一名探鬼主播颠毙,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼斯入,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蛀蜜?” 一聲冷哼從身側(cè)響起刻两,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎滴某,沒想到半個月后磅摹,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡霎奢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年户誓,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片幕侠。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡帝美,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出晤硕,到底是詐尸還是另有隱情悼潭,我是刑警寧澤,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布舞箍,位于F島的核電站舰褪,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏疏橄。R本人自食惡果不足惜占拍,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捎迫。 院中可真熱鬧刷喜,春花似錦、人聲如沸立砸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽颗祝。三九已至浊闪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間螺戳,已是汗流浹背搁宾。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留倔幼,地道東北人盖腿。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親翩腐。 傳聞我的和親對象是個殘疾皇子鸟款,可洞房花燭夜當晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 點這里排版好 拖延癥 拖了一個星期 ???♀?然后在查文獻的時候 發(fā)現(xiàn)中文的資料比較少 于是 文本摘要 算是NLP領...
    gunjianpan閱讀 1,815評論 0 2
  • 轉(zhuǎn)載 序 文本摘要是自然語言處理中比較難的一個任務,別說是用機器來做文摘了茂卦,就連人類做文摘的時候都需要具備很強的語...
    城市中迷途小書童閱讀 508評論 0 2
  • 轉(zhuǎn)載 序 文本摘要是自然語言處理中比較難的一個任務何什,別說是用機器來做文摘了,就連人類做文摘的時候都需要具備很強的語...
    readilen閱讀 8,402評論 1 10
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領域的經(jīng)典模型和基礎知識等龙。這篇文章处渣,甚至之后...
    我偏笑_NSNirvana閱讀 13,915評論 2 64
  • 轉(zhuǎn)載自http://www.cnblogs.com/Determined22/ 兩周以前讀了些文檔自動摘要的論文,...
    nightwish夜愿閱讀 10,600評論 0 6