【論文閱讀筆記】文本摘要任務(wù)中的copy機(jī)制(Summarization with Pointer-Generator Networks)

Pointer Network (Vinyals et al., 2015)

Pointer Network針對(duì)原seq2seq模型的輸出序列受限于固定大小的問(wèn)題而提出喷兼,該框架期望decoder的輸出長(zhǎng)度隨encoder模型的輸入長(zhǎng)度變化而變化庆揩,本質(zhì)上是對(duì)基于attention機(jī)制的seq2seq模型的簡(jiǎn)化梁钾,decoder的每一個(gè)時(shí)間步將輸出input sequence各token的概率分布旦装,選擇概率最高的輸出泥栖,直至輸出<EOS>幸斥。

設(shè)輸入序列為\mathbf{X}=\{x_1,x_2,\dots,x_n\}峭拘,輸出序列為\mathbf{Y}=\{y_1,y_2,\dots,y_{m(\mathbf{X})}\}俊庇,此處的m(\mathbf{X})表示輸出序列的長(zhǎng)度與輸入序列相關(guān)。將encoder部分的隱藏層狀態(tài)表示為(e_1,e_2,\dots,e_n)鸡挠,decoder部分的隱藏層狀態(tài)表示為(d_1,d_2,\dots,d_{m(\mathbf{X})})辉饱。

Pointer Network在第i個(gè)位置的輸出P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)計(jì)算如下:
u_j^i=v^\top tanh(W_1e_j+W_2d_i) \qquad j \in (1, \dots , n) \\ P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)=softmax(u^i)
其中vW_1拣展、W_2均為模型需要學(xué)習(xí)的參數(shù)彭沼,第一個(gè)式子則是attention機(jī)制中計(jì)算decoder第i個(gè)位置的隱藏狀態(tài)與encoder輸入序列各位置隱藏狀態(tài)的關(guān)聯(lián),對(duì)應(yīng)輸入序列中各token的分值备埃,各分值經(jīng)過(guò)softmax歸一化操作得到的輸出視為輸入序列各token的概率分布溜腐,該步將選擇概率最大的token作為輸出。當(dāng)然此時(shí)的輸入序列與原seq2seq模型的不同在于需額外添加一個(gè)<EOS>的token瓜喇。

Get To The Point: Summarization with Pointer-Generator Networks (See et al., 2017)

Pointer-Generator Networks可以視為一個(gè)基于attention機(jī)制的seq2seq模型和pointer network的混合體,既能從給定詞匯表中生成新token歉糜,又能從原輸入序列中拷貝舊token乘寒,其框架如下圖所示。

Pointer-Generator Networks

圖中Source Text中各token w_i經(jīng)過(guò)一個(gè)單層雙向LSTM將依次得到Encoder Hidden States序列匪补,各隱藏層狀態(tài)表示為h_i伞辛。在每一個(gè)時(shí)間步t烂翰,decoder將根據(jù)上一個(gè)預(yù)測(cè)得到的單詞的embedding經(jīng)一個(gè)單層雙向LSTM得到Decoder Hidden State s_t,此時(shí)計(jì)算基于s_t的各h_i的Attention Distribution a^t計(jì)算如下:
e^t_i = v^\top tanh(W_h h_i + W_s s_t + b_{attn}) \\ a^t = softmax(e^t)
其中蚤氏,v甘耿、W_hW_s竿滨、b_{attn}均為模型要學(xué)習(xí)的參數(shù)佳恬。接下來(lái)Attention Distribution將被用于生成當(dāng)前時(shí)間步的上下文向量h_t^\star,繼而同Decoder Hidden State s_t拼接起來(lái)經(jīng)由兩個(gè)線性層產(chǎn)生基于輸出序列詞典的Vocabulary Distribution P_{vocab}
h_t^\star = \sum_i a_i^t h_i \\ P_{vocab} = softmax( V ^{'} ( V [s_t , h_t^\star ] + b ) + b^{'})
其中于游,V毁葱、V^{'}b贰剥、b^{'}均為模型需要學(xué)習(xí)的參數(shù)倾剿。

上述過(guò)程為傳統(tǒng)基于attention機(jī)制的seq2seq模型的計(jì)算過(guò)程。接下來(lái)為了在輸出中可以拷貝輸入序列中的token蚌成,將根據(jù)上下文向量h_t^\star前痘、Decoder Hidden State s_t和Decoder input x_t計(jì)算生成概率p_{gen}:
p_{gen} = \sigma (w_{h^\star}^\top h_t^\star + w_s^\top s_t + w_x^\top x_t + b_{ptr})
其中w_{h^\star}^\topw_s^\top担忧、w_x^\top芹缔、b_{ptr}均為模型要學(xué)習(xí)的參數(shù)。p_{gen}的作用在于調(diào)節(jié)生成的單詞是來(lái)自于根據(jù)P_{vocab}在輸出序列的詞典中的采樣還是來(lái)自于根據(jù)a^t在輸入序列的token中的采樣涵妥,最終的token分布表示如下:
P(w)=p_{gen} P_{vocab}(w)+\left(1-p_{gen}\right) \sum_{i: w_{i}=w} a_{i}^{t}
其中i: w_{i}=w表示輸入序列中的token w乖菱,這里會(huì)將在輸入序列中可能出現(xiàn)多次的w的注意力分布相加。當(dāng)w未在輸出序列的詞典中出現(xiàn)時(shí)蓬网,P_{vocab}(w)=0窒所;類似地,當(dāng)w未出現(xiàn)在輸入序列中時(shí)帆锋,\sum_{i: w_{i}=w} a_{i}^{t} = 0.

總結(jié)

Pointer-Generator Networks在基于attention機(jī)制的seq2seq模型中融合copy機(jī)制吵取,并應(yīng)用于文本摘要任務(wù)中,實(shí)則是基于上下文向量锯厢、decoder input以及decoder hidden state計(jì)算一個(gè)生成單詞的概率p皮官,對(duì)應(yīng)拷貝單詞的概率則為1-p,根據(jù)概率綜合encoder的注意力分布和decoder的output分布得到一個(gè)綜合的基于input token和output vocabulary的token分布实辑。此外本文關(guān)注的是多語(yǔ)句的摘要生成捺氢,因此額外考慮了生成摘要時(shí)的重復(fù)問(wèn)題,在計(jì)算attention得分時(shí)剪撬,除了考慮decoder hidden state和encoder hidden state外摄乒,還額外加入之前生成token的attention分布總和一項(xiàng),并在最終loss的計(jì)算上額外添加了一個(gè)名為 coverage loss的懲罰項(xiàng)(該部分上文尚未細(xì)述),以避免摘要生成時(shí)的重復(fù)問(wèn)題馍佑。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末斋否,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子拭荤,更是在濱河造成了極大的恐慌茵臭,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舅世,死亡現(xiàn)場(chǎng)離奇詭異旦委,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)歇终,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門社证,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人评凝,你說(shuō)我怎么就攤上這事追葡。” “怎么了奕短?”我有些...
    開封第一講書人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵宜肉,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我翎碑,道長(zhǎng)谬返,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任日杈,我火速辦了婚禮遣铝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘莉擒。我一直安慰自己酿炸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開白布涨冀。 她就那樣靜靜地躺著填硕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鹿鳖。 梳的紋絲不亂的頭發(fā)上扁眯,一...
    開封第一講書人閱讀 51,198評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音翅帜,去河邊找鬼姻檀。 笑死,一個(gè)胖子當(dāng)著我的面吹牛涝滴,可吹牛的內(nèi)容都是我干的施敢。 我是一名探鬼主播周荐,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼僵娃!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起腋妙,我...
    開封第一講書人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤默怨,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后骤素,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體匙睹,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年济竹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了痕檬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡送浊,死狀恐怖梦谜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情袭景,我是刑警寧澤唁桩,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站耸棒,受9級(jí)特大地震影響荒澡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜与殃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一单山、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧幅疼,春花似錦米奸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至狼忱,卻和暖如春膨疏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钻弄。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工佃却, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人窘俺。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓饲帅,卻偏偏與公主長(zhǎng)得像复凳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子灶泵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354