Incorporating Copying Mechanism in Sequence-to-Sequence Learning
作者來自香港大學(xué)和諾亞方舟實驗室
Motivation
本文的模型通過借鑒人類死記硬背的模式,提出了CopyNet的模型機制裆馒。在很多談話或者文章中姊氓,回答或者摘要的時候需要大量的copy源句子,那么如何copy喷好?從什么地方開始copy翔横?本文模型給出了一種解決方法。
Model
首先梗搅,該模型還是一個encoder-decoder的框架禾唁,基于attentive-based 的端到端的模型效览。
encoder
普通的雙向RNN,生成的隱狀態(tài){h1,h2, ... , hn}表示為M.
decoder
decodr部分相對復(fù)雜,在這里decoder有兩個模式荡短,1.生成模式丐枉。2. copy模式。對于對話或者摘要掘托,一如果完全copy源端瘦锹,那么生成的回復(fù)肯定比較生硬,而且表達方面會欠缺很多東西闪盔。而端到端的生成模型弯院,則可以生成一些符合語法并且geneal的回復(fù),對于OOV的問題泪掀,不能很好的解決听绳。那么將兩者進行組合,可以很好的克服彼此的弊端族淮。
另外辫红,對于從哪開始copy的問題凭涂,作者將位置信息加入到了M中祝辣,然后通過類似注意力機制的方法去“注意”復(fù)制哪些信息,并將這種模式稱做selective read切油。再加上attention-based 的decoder 的atentive read蝙斜,這兩種機制的 hybrid coordination 使得copynet的效果很不錯。
詞表:
對于decoder澎胡,作者并沒有向傳統(tǒng)的decoder那樣用softmax求概率孕荠,在這里作者用了兩個詞表X,V. V 表示頻率大的topK的詞攻谁,和一般選取的詞表方法一樣稚伍。而X則表示,所有在源端出現(xiàn)一次的詞戚宦,X和V有交集个曙,如下圖。
概率的計算公式:
其中
生成模式受楼,用的線性映射垦搬,copy模式,用的非線性模式艳汽,并且作者表示tanh激勵函數(shù)比其他函數(shù)要好猴贰。
到這,這里講的都是上圖Figure1里的紅色方框里的東西河狐,對于藍色方框米绕,作者對傳統(tǒng)的decoder的輸入進行了改進瑟捣。除了輸入st-1,和yt-1,ct ,作者將yt-1進行改進,除了自身的embedding外栅干,還加入了類似attention的機制蝶柿,對M進行加權(quán)求和,并且與yt-1的向量合并非驮,共同作為輸入交汤,這樣包含在M中的位置信息,以加權(quán)和的方式進入decoder劫笙,對于copy機制選擇從哪里開始copy有很大的幫助芙扎。
這個機制就是selective read。
Experiments
作者分別在三個數(shù)據(jù)集(簡單模式填大,摘要戒洼,對話)三個方面進行實驗。實驗結(jié)果都很驚艷允华。