A Neural Attention Model for Sentence Summarization閱讀筆記

Abstract

  • 通過(guò)文本抽取的方式生成摘要已經(jīng)陷入瓶頸。
  • 通過(guò)抽象語(yǔ)句的含義來(lái)生成摘要是一個(gè)很有潛力的方向。
  • 本文提出了End to end attention-based model來(lái)解決這個(gè)問(wèn)題。

Introduction

  • Abstractive Summarization:摘要的本質(zhì)是文本核心意思的壓縮表示淮捆。許多成功的摘要系統(tǒng)都是通過(guò)文本抽取(text extractive)實(shí)現(xiàn)的,本文提出了一種完全數(shù)據(jù)驅(qū)動(dòng)的生成式摘要抽象方法卧惜。
  • NNLM and encoder:本文參考了神經(jīng)機(jī)器翻譯的思想,將神經(jīng)語(yǔ)言模型和基于attention機(jī)制的上下文encoder結(jié)合起來(lái)做summarization夹纫。同時(shí)文章還借鑒了extractive的方法提出了一個(gè)基于beam-search的decoder咽瓷。
  • Scale:由于本文的模型是End-to-end訓(xùn)練的,因此非常容易遷移到大數(shù)據(jù)上進(jìn)行訓(xùn)練舰讹。

Background

  • 本文的目標(biāo)是對(duì)輸入的句子進(jìn)行信息壓縮茅姜,輸出句子的摘要信息。
  • 輸入x是一個(gè)長(zhǎng)度為M的句子月匣,輸出y是一個(gè)長(zhǎng)度為N的句子钻洒,其中N<M奋姿,N的長(zhǎng)度是固定的。通過(guò)one-hot編碼將x編碼成V*M的矩陣航唆,將y編碼成V*N的矩陣胀蛮,其中V指的是語(yǔ)料庫(kù)大小。
  • sentence abstractive:表示從所有可能的y中選擇最優(yōu)的一個(gè)糯钙。


    sentence abstractive
  • sentence extractive:表示將x轉(zhuǎn)化成最能表示其含義的subsentence粪狼。


    sentence extractive
  • sentence compression:表示從x中刪除最不重要的word。


    sentence compression
  • x到y(tǒng)的映射函數(shù)s由下式定義任岸。預(yù)估輸出的第i個(gè)詞yi時(shí)再榄,依賴輸入x、yi的前C個(gè)詞yc以及隱變量theta享潜,這里對(duì)上下文窗口C做了Markov假設(shè)困鸥。
    映射函數(shù)s

Model

模型融合了一個(gè)神經(jīng)語(yǔ)言模型和一個(gè)encoder,其整體框架如下
模型整體框架

a. Neural Language Model

  • 神經(jīng)語(yǔ)言模型是如上圖紅圈部分剑按,采用了Bengio提出的NNLM語(yǔ)言模型疾就,其定義如下式所示
    NNLM模型

    對(duì)這個(gè)模型的解釋如下所示

    1. 通過(guò)embedding矩陣E對(duì)上下文yc進(jìn)行embedding,生成上下文的壓縮表示艺蝴。由于矩陣E是D*V維的猬腰,yc是V*C維的,所以E·yc生成的是D*C維的矩陣猜敢,再經(jīng)過(guò)Flatten操作變?yōu)镃D*1維的向量姑荷。
    2. yc的embedding表示經(jīng)過(guò)全連接再激活之后生成語(yǔ)義向量h,該向量是當(dāng)前的上下文yc的語(yǔ)義壓縮缩擂,表示yc的下一個(gè)詞鼠冕,操作如圖所示
      語(yǔ)義向量h的生成過(guò)程
    3. 通過(guò)一個(gè)encoder將輸入x和上下文yc編碼成H維的向量enc(x,yc),這個(gè)向量實(shí)際上就是一個(gè)注意力向量胯盯。矩陣W和V分別將NNLM和encoder的輸出轉(zhuǎn)化為V維向量再進(jìn)行join懈费,最后經(jīng)過(guò)softmax變?yōu)橄乱粋€(gè)摘要文字的生成概率。
      第i+1位摘要文字的生成概率

b. Encoders

如果沒(méi)有encoder博脑,這個(gè)模型只是一個(gè)依賴生成句子上下文的語(yǔ)言模型楞捂。通過(guò)encoder可以將輸入x也編碼進(jìn)生成過(guò)程中,這樣最終生成的概率同時(shí)包含了輸入x和上下文yc的信息趋厉。

本文介紹了三種encoder

  • Bag-of-Words Encoder:最簡(jiǎn)單的encoder是BoW,如下式所示胶坠。
    BoW encoder
    1. 首先通過(guò)embedding矩陣F將輸入x編碼成H*M維的矩陣君账,每個(gè)word由原來(lái)的V維降為H維(H<V)。
    2. 構(gòu)造均勻分布的注意力向量p沈善,相當(dāng)于在估計(jì)下一個(gè)生成word時(shí)給輸入句子x中的每個(gè)詞相同的權(quán)重乡数。
    3. 將x變化為H維的語(yǔ)義向量椭蹄,這個(gè)過(guò)程丟失了原來(lái)句子的語(yǔ)序關(guān)系,因此效果并不好净赴。
  • Convolutional Encoder:一個(gè)深層卷積模型绳矩,這個(gè)模型較BoW的優(yōu)勢(shì)在于可以獲取相鄰單詞之間的組合信息,這個(gè)encoder同樣沒(méi)有考慮將上下文信息yc編碼進(jìn)來(lái)玖翅。
    CNN Encoder

    這幾個(gè)公式實(shí)在太晦澀翼馆,所以我畫了一個(gè)圖來(lái)說(shuō)明文中的卷積塊是如何設(shè)計(jì)的,如圖所示Q是一個(gè)大小為H*(2Q+1)的卷積核金度,maxpooling的窗口大小為2*1应媚。由于卷積采用了padded at the boundaries的方式,因此每次卷積完輸入size不變猜极,只在maxpooling之后減半中姜,所以文中說(shuō)M必須大于2的L次冪。
    一個(gè)卷積塊的例子

    由上圖可知CNN網(wǎng)每次可以獲取2Q+1個(gè)word的臨近關(guān)系跟伏,CNN的模型容量遠(yuǎn)大于BoW丢胚,但是每生成一個(gè)摘要詞語(yǔ),輸入x中所有單詞貢獻(xiàn)的權(quán)重是一樣的受扳。這顯然違背我們的直覺(jué)携龟,因?yàn)檎忻總€(gè)詞只對(duì)應(yīng)輸入文本中的一部分詞語(yǔ),所以這里提出了第三個(gè)encoder辞色。
  • Attention-Based Encoder:attention-based encoder的結(jié)構(gòu)圖如下所示骨宠,是之前模型整體框架中藍(lán)圈部分的展開(kāi)。
    attention-based encoder結(jié)構(gòu)圖

    attention-based encoder的定義和BoW的很接近相满,如下式所示层亿。
    attention-based encoder的定義

    這里對(duì)式子進(jìn)行簡(jiǎn)單推導(dǎo):
  1. 對(duì)上下文yc進(jìn)行embedding,由于G是D*V維立美,所以embedding之后再Flatten的yc為CD*1維匿又。
  2. 對(duì)輸入x進(jìn)行embedding,由于F是H*V維建蹄,所以embedding之后的x是H*M維碌更。
  3. 矩陣P是輸入x和上下文yc之間的一個(gè)軟對(duì)齊,大小為H*(CD)維洞慎,因此p是M*1維的輸出向量痛单。這里重要的是對(duì)這個(gè)向量p的理解:向量p代表在當(dāng)前上下文yc的情況下,生成下一個(gè)詞語(yǔ)y(i+1)對(duì)輸入x中各個(gè)詞語(yǔ)的依賴概率劲腿,也就是注意力概率旭绒。
  4. 對(duì)embedding矩陣~x進(jìn)行平滑(吐槽簡(jiǎn)書不支持Latex),具體做法是用一個(gè)大小為2Q+1的窗口對(duì)相鄰詞語(yǔ)向量求平均,實(shí)際上就是由2Q+1個(gè)詞向量組成短語(yǔ)向量挥吵。
  5. 最終的輸出enc(x, yc)代表對(duì)輸入x和上下文yc進(jìn)行結(jié)合的語(yǔ)義向量德撬。(上下文yc按照不同的注意力概率對(duì)輸入x中的各個(gè)短語(yǔ)向量進(jìn)行加權(quán)求和)
  • 一個(gè)生成摘要的例子家破,橫軸代表生成的摘要句子,縱軸代表輸入的原始句子。圖中每一列代表生成該詞語(yǔ)時(shí)泉坐,其上下文對(duì)輸入句子中詞語(yǔ)的注意力概率熱力圖芭毙。
    上下文對(duì)輸入句子的軟對(duì)齊

c. Training

由于缺少生成約束條件航瞭,因此訓(xùn)練采用最小化負(fù)對(duì)數(shù)似然的方式來(lái)逼近最優(yōu)解携茂,優(yōu)化算法采用mini-batch SGD。
負(fù)對(duì)數(shù)似然嫌松,總的輸入-輸出對(duì)為J個(gè)

Generating Summaries

  • 前面的介紹都是給定了訓(xùn)練集沪曙,如何訓(xùn)練網(wǎng)絡(luò)尋找生成概率最大的詞語(yǔ)。現(xiàn)在回歸到初始問(wèn)題:給定一個(gè)輸入句子x萎羔,如何生成概率最大的摘要句子液走。
  • 由于沒(méi)有硬對(duì)齊的約束,因此可以用Viterbi算法解決贾陷,時(shí)間復(fù)雜度為O(NV^{C})缘眶,由于V數(shù)值過(guò)大,因此求解的性能會(huì)受到影響髓废。
  • 本文采取的策略是beam search巷懈,每輪迭代生成概率最高的K個(gè)摘要子串,算法復(fù)雜度為O(KNV)慌洪,算法流程如下:
    beam search
  • 由于每一輪迭代都會(huì)計(jì)算給定上下文yc下K個(gè)最可能的子串顶燕,這個(gè)計(jì)算行為可以通過(guò)mini-batch進(jìn)行,因此K這個(gè)參數(shù)可以忽略不計(jì)冈爹,極大的提升性能涌攻。

Extension:Extractive Tuning

抽象式模型的一個(gè)缺點(diǎn)是對(duì)于源句子中的一些沒(méi)見(jiàn)過(guò)的專有名詞不能抽取出來(lái)。解決這個(gè)問(wèn)題可以將Abstractive模型和Extractive模型的優(yōu)點(diǎn)結(jié)合频伤,即ABS+模型恳谎。
ABS+的優(yōu)化目標(biāo)是最小化負(fù)對(duì)數(shù)似然函數(shù)

NLL function

其中alpha是需要學(xué)習(xí)的權(quán)重向量,函數(shù)f是一個(gè)特征生成函數(shù)憋肖,最小化負(fù)對(duì)數(shù)似然等同于最大化打分函數(shù)
打分函數(shù)s

其中特征函數(shù)f的定義為
特征函數(shù)f

搞過(guò)機(jī)器學(xué)習(xí)項(xiàng)目的同學(xué)可能一看就明白了因痛,這個(gè)實(shí)際上就是拿出ABS網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果作為一個(gè)feature,再結(jié)合一些人工拍的規(guī)則組合成一個(gè)5維的特征向量岸更。打分函數(shù)s本質(zhì)上就是對(duì)特征向量f進(jìn)行線性回歸得到的回歸分?jǐn)?shù)鸵膏,如果設(shè)置α = (1, 0, . . . , 0),ABS+退化成ABS模型怎炊。文中介紹說(shuō)這些人工拍的規(guī)則主要是提取輸入x中的unigram较性、bigram和trigram特征用僧。

Related Work

  • Syntax-Based
    Dorr, Zajic, and Schwartz 2003; Cohn and Lapata 2008; Woodsend, Fend, and Lapata 2010
  • Topic-Based
    Zajic, Dorr, and Schwartz 2004
  • Machine Translation-based
    Banko, Mittal, and Witbrock 2000
  • Semantics-Based
    Liu et al 2015

Experimental

主要是一些超參:

  • learning rate=0.05
  • D=200 上下文embedding之后的長(zhǎng)度
  • H=400 輸入embedding之后的長(zhǎng)度
  • C=5 上下文窗口大小
  • L=3 層深,這個(gè)存疑好像沒(méi)用到
  • Q=2 平滑窗口大小
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末赞咙,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子糟港,更是在濱河造成了極大的恐慌攀操,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秸抚,死亡現(xiàn)場(chǎng)離奇詭異速和,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)剥汤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門颠放,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人吭敢,你說(shuō)我怎么就攤上這事碰凶。” “怎么了鹿驼?”我有些...
    開(kāi)封第一講書人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵欲低,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我畜晰,道長(zhǎng)砾莱,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任凄鼻,我火速辦了婚禮腊瑟,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘块蚌。我一直安慰自己闰非,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布匈子。 她就那樣靜靜地躺著河胎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪虎敦。 梳的紋絲不亂的頭發(fā)上游岳,一...
    開(kāi)封第一講書人閱讀 51,245評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音其徙,去河邊找鬼胚迫。 笑死,一個(gè)胖子當(dāng)著我的面吹牛唾那,可吹牛的內(nèi)容都是我干的访锻。 我是一名探鬼主播,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼期犬!你這毒婦竟也來(lái)了河哑?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤龟虎,失蹤者是張志新(化名)和其女友劉穎璃谨,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體鲤妥,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡佳吞,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了棉安。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片底扳。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖贡耽,靈堂內(nèi)的尸體忽然破棺而出衷模,到底是詐尸還是另有隱情,我是刑警寧澤菇爪,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布算芯,位于F島的核電站,受9級(jí)特大地震影響凳宙,放射性物質(zhì)發(fā)生泄漏熙揍。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一氏涩、第九天 我趴在偏房一處隱蔽的房頂上張望届囚。 院中可真熱鬧,春花似錦是尖、人聲如沸意系。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蛔添。三九已至,卻和暖如春兜辞,著一層夾襖步出監(jiān)牢的瞬間迎瞧,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工逸吵, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留凶硅,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓扫皱,卻偏偏與公主長(zhǎng)得像足绅,于是被迫代替她去往敵國(guó)和親捷绑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 對(duì)比兩篇論文 : 其中一篇是A Neural Attention Model for Abstractive Se...
    MiracleJQ閱讀 3,539評(píng)論 0 1
  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)氢妈。這篇文章粹污,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評(píng)論 2 64
  • 最近人工智能隨著AlphaGo戰(zhàn)勝李世乭這一事件的高關(guān)注度,重新掀起了一波新的關(guān)注高潮允懂,有的說(shuō)人工智能將會(huì)如何超越...
    MiracleJQ閱讀 2,829評(píng)論 2 1
  • 近于初冬 免不了會(huì)有風(fēng)的寒 免不了會(huì)有水的冰 免不了會(huì)有人的凄 路邊梧桐樹(shù)葉慢慢變黃 慢慢落到地上 每日清晨便有它...
    東南喬閱讀 228評(píng)論 0 1
  • 室友也從其它工區(qū)回來(lái)了厕怜,一回來(lái),就把我吵醒了蕾总,當(dāng)時(shí)煩得很。醒來(lái)后就睡不著了琅捏,就反思下今天上午工作吧生百! 上午他們做完...
    舟舟style閱讀 288評(píng)論 0 3