文章名稱
【AAAI-2018】A Deep Generative Framework for Paraphrase Generation
核心要點(diǎn)
文章主題是實(shí)現(xiàn)具有相同釋義的短語(yǔ)對(duì)生成,作者利用LSTM作為語(yǔ)義學(xué)習(xí)器踊餐,結(jié)合VAE實(shí)現(xiàn)文本生成托慨。VAE的encoder和decoder都以原短語(yǔ)的語(yǔ)義向量(向量也可能包括語(yǔ)言風(fēng)格)作為條件,確保生成的文本和原短語(yǔ)語(yǔ)義相近格侯。由于VAE的文本生成是利用隱變量采樣的方式實(shí)現(xiàn)格仲,相比于基于beam search的方法效果更好搁廓。
方法細(xì)節(jié)
問(wèn)題引入
釋義(短語(yǔ))生成是典型的NLG問(wèn)題引颈,并且正越來(lái)越多的被應(yīng)用于QA耕皮,翻譯等場(chǎng)景(QA場(chǎng)景更多的是進(jìn)行問(wèn)題歸一化或者對(duì)齊,翻譯場(chǎng)景更多的是數(shù)據(jù)增廣蝙场,當(dāng)然還有其他場(chǎng)景和用戶)凌停。
原有的短語(yǔ)生成方法,主要包括seq2seq和生成模型兩大類型售滤。之前的VAE(生成模型)是非條件語(yǔ)句生成模型罚拟,也就是說(shuō)沒有把原短語(yǔ)當(dāng)做條件,這樣的生成結(jié)果很難保證語(yǔ)句釋義符合預(yù)期完箩。另外一些方法赐俗,例如residual LSTM結(jié)構(gòu)過(guò)于復(fù)雜。并且弊知,由于beam search方法隨著top k變大阻逮,效果會(huì)變差,導(dǎo)致不能夠通過(guò)增大beam的寬度秩彤,來(lái)簡(jiǎn)單地生成關(guān)于原短語(yǔ)的多個(gè)高質(zhì)量釋義叔扼。
具體做法
作者提出結(jié)合VAE和LSTM。宏觀上模型是一個(gè)VAE呐舔,這樣可以利用采樣隱向量的方式生成多個(gè)與原短語(yǔ)相似的多個(gè)釋義币励。具體結(jié)構(gòu)如下圖所示,其中
分別是原短語(yǔ)和釋義短語(yǔ)的向量表示珊拼,
是模型的隱向量模型(encoder),
是釋義生成模型(decoder)流炕。值得注意的是澎现,無(wú)論是encoder還是decoder,模型都基于原短語(yǔ)向量
每辟。實(shí)現(xiàn)了作者所說(shuō)的剑辫,基于原短語(yǔ)進(jìn)行釋義,確保生成結(jié)果保留原短語(yǔ)的意思渠欺。
微觀上模型是模型是4個(gè)LSTM和1個(gè)VAE妹蔽,具體結(jié)構(gòu)如下圖所示。其中挠将,encoder和decoder都包含兩組LSTM胳岂,左側(cè)的原短語(yǔ)模型(original sentence encoder/decoder)表示的是學(xué)習(xí)原短語(yǔ)的語(yǔ)言模型√蛳。可以看到乳丰,該模型學(xué)習(xí)得到的狀態(tài),當(dāng)做初始state向量内贮,都輸入給了釋義右側(cè)的釋義短語(yǔ)模型(paraphrased sentence encoder/decoder)产园。值得注意的是汞斧,這個(gè)狀態(tài)輸入的操作是在VAE的encoder和decoder兩邊都有的,與上述兩邊同時(shí)基于原短語(yǔ)(condition on original sentence)的語(yǔ)義相呼應(yīng)什燕。
此外粘勒,encoder階段的2個(gè)LSTM完成之后,結(jié)果經(jīng)過(guò)一個(gè)FFN屎即,得到VAE的庙睡,這兩個(gè)參數(shù)被用來(lái)采樣
,采樣后的
輸入到decoder中釋義短語(yǔ)模型的每一個(gè)生成步驟中(和上一步的輸出向量拼接)剑勾,實(shí)現(xiàn)了模型的解碼生成埃撵。如前所述,經(jīng)過(guò)多次采樣
可以生成多個(gè)釋義語(yǔ)句虽另,并且由于每次都是在隱向量空間中采樣暂刘,而不是放寬beam search的寬度,理論上都是top beam捂刺,所以生成的語(yǔ)句的效果是不會(huì)打折扣的谣拣。
心得體會(huì)
原短語(yǔ)作為條件
把原短語(yǔ)作為條件有點(diǎn)像是conditional GAN的感覺。普通的GAN可以任意生成族展,沒有條件約束森缠。conditional GAN把一些結(jié)構(gòu)和形狀、或者顏色等特征當(dāng)做條件仪缸,實(shí)現(xiàn)有目標(biāo)的(或者約束的)圖像生成贵涵。文章中,作者把VAE的編碼器和生成器中都加入了原短語(yǔ)的語(yǔ)義向量作為條件恰画,目的也是指導(dǎo)生成的方向宾茂。從這個(gè)角度說(shuō),讓人想到CVAE拴还。
訓(xùn)練trick
作者提到了KL-term退火以及dropout等訓(xùn)練VAE相關(guān)的trick跨晴,都比較有用,感興趣的可以參考[1]片林。
文章引用
[1] Bowman, S. R.; Vilnis, L.; Vinyals, O.; Dai, A. M.; Jozefowicz, R.; and Bengio, S. 2015. Generating sentences from a continuous space. arXiv preprint arXiv:1511.06349.