自然語(yǔ)言生成工具箱 - VAE-LSTM

文章名稱

【AAAI-2018】A Deep Generative Framework for Paraphrase Generation

核心要點(diǎn)

文章主題是實(shí)現(xiàn)具有相同釋義的短語(yǔ)對(duì)生成,作者利用LSTM作為語(yǔ)義學(xué)習(xí)器踊餐,結(jié)合VAE實(shí)現(xiàn)文本生成托慨。VAE的encoder和decoder都以原短語(yǔ)的語(yǔ)義向量(向量也可能包括語(yǔ)言風(fēng)格)作為條件,確保生成的文本和原短語(yǔ)語(yǔ)義相近格侯。由于VAE的文本生成是利用隱變量采樣的方式實(shí)現(xiàn)格仲,相比于基于beam search的方法效果更好搁廓。

方法細(xì)節(jié)

問(wèn)題引入

釋義(短語(yǔ))生成是典型的NLG問(wèn)題引颈,并且正越來(lái)越多的被應(yīng)用于QA耕皮,翻譯等場(chǎng)景(QA場(chǎng)景更多的是進(jìn)行問(wèn)題歸一化或者對(duì)齊,翻譯場(chǎng)景更多的是數(shù)據(jù)增廣蝙场,當(dāng)然還有其他場(chǎng)景和用戶)凌停。

原有的短語(yǔ)生成方法,主要包括seq2seq和生成模型兩大類型售滤。之前的VAE(生成模型)是非條件語(yǔ)句生成模型罚拟,也就是說(shuō)沒有把原短語(yǔ)當(dāng)做條件,這樣的生成結(jié)果很難保證語(yǔ)句釋義符合預(yù)期完箩。另外一些方法赐俗,例如residual LSTM結(jié)構(gòu)過(guò)于復(fù)雜。并且弊知,由于beam search方法隨著top k變大阻逮,效果會(huì)變差,導(dǎo)致不能夠通過(guò)增大beam的寬度秩彤,來(lái)簡(jiǎn)單地生成關(guān)于原短語(yǔ)的多個(gè)高質(zhì)量釋義叔扼。

具體做法

作者提出結(jié)合VAE和LSTM。宏觀上模型是一個(gè)VAE呐舔,這樣可以利用采樣隱向量z的方式生成多個(gè)與原短語(yǔ)相似的多個(gè)釋義币励。具體結(jié)構(gòu)如下圖所示,其中x^{(o)}, x^{(p)}分別是原短語(yǔ)和釋義短語(yǔ)的向量表示珊拼,q_\phi (z|x^{(o)}, x^{(p)})是模型的隱向量模型(encoder),p_\theta (x^{(p)}|z, x^{(o)})是釋義生成模型(decoder)流炕。值得注意的是澎现,無(wú)論是encoder還是decoder,模型都基于原短語(yǔ)向量x^{(o)}每辟。實(shí)現(xiàn)了作者所說(shuō)的剑辫,基于原短語(yǔ)進(jìn)行釋義,確保生成結(jié)果保留原短語(yǔ)的意思渠欺。

macro framework

微觀上模型是模型是4個(gè)LSTM和1個(gè)VAE妹蔽,具體結(jié)構(gòu)如下圖所示。其中挠将,encoder和decoder都包含兩組LSTM胳岂,左側(cè)的原短語(yǔ)模型(original sentence encoder/decoder)表示的是學(xué)習(xí)原短語(yǔ)的語(yǔ)言模型√蛳。可以看到乳丰,該模型學(xué)習(xí)得到的狀態(tài)h_T, c_T,當(dāng)做初始state向量内贮,都輸入給了釋義右側(cè)的釋義短語(yǔ)模型(paraphrased sentence encoder/decoder)产园。值得注意的是汞斧,這個(gè)狀態(tài)輸入的操作是在VAE的encoder和decoder兩邊都有的,與上述兩邊同時(shí)基于原短語(yǔ)(condition on original sentence)的語(yǔ)義相呼應(yīng)什燕。

micro framework

此外粘勒,encoder階段的2個(gè)LSTM完成之后,結(jié)果經(jīng)過(guò)一個(gè)FFN屎即,得到VAE的\mu, \sigma庙睡,這兩個(gè)參數(shù)被用來(lái)采樣z,采樣后的z輸入到decoder中釋義短語(yǔ)模型的每一個(gè)生成步驟中(和上一步的輸出向量拼接)剑勾,實(shí)現(xiàn)了模型的解碼生成埃撵。如前所述,經(jīng)過(guò)多次采樣z可以生成多個(gè)釋義語(yǔ)句虽另,并且由于每次都是在隱向量空間中采樣暂刘,而不是放寬beam search的寬度,理論上都是top beam捂刺,所以生成的語(yǔ)句的效果是不會(huì)打折扣的谣拣。

心得體會(huì)

原短語(yǔ)作為條件

把原短語(yǔ)作為條件有點(diǎn)像是conditional GAN的感覺。普通的GAN可以任意生成族展,沒有條件約束森缠。conditional GAN把一些結(jié)構(gòu)和形狀、或者顏色等特征當(dāng)做條件仪缸,實(shí)現(xiàn)有目標(biāo)的(或者約束的)圖像生成贵涵。文章中,作者把VAE的編碼器和生成器中都加入了原短語(yǔ)的語(yǔ)義向量作為條件恰画,目的也是指導(dǎo)生成的方向宾茂。從這個(gè)角度說(shuō),讓人想到CVAE拴还。

訓(xùn)練trick

作者提到了KL-term退火以及dropout等訓(xùn)練VAE相關(guān)的trick跨晴,都比較有用,感興趣的可以參考[1]片林。

文章引用

[1] Bowman, S. R.; Vilnis, L.; Vinyals, O.; Dai, A. M.; Jozefowicz, R.; and Bengio, S. 2015. Generating sentences from a continuous space. arXiv preprint arXiv:1511.06349.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載端盆,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末费封,一起剝皮案震驚了整個(gè)濱河市焕妙,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌孝偎,老刑警劉巖访敌,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異衣盾,居然都是意外死亡寺旺,警方通過(guò)查閱死者的電腦和手機(jī)爷抓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)阻塑,“玉大人蓝撇,你說(shuō)我怎么就攤上這事〕旅В” “怎么了渤昌?”我有些...
    開封第一講書人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)走搁。 經(jīng)常有香客問(wèn)我独柑,道長(zhǎng),這世上最難降的妖魔是什么私植? 我笑而不...
    開封第一講書人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任忌栅,我火速辦了婚禮,結(jié)果婚禮上曲稼,老公的妹妹穿的比我還像新娘索绪。我一直安慰自己,他們只是感情好贫悄,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開白布瑞驱。 她就那樣靜靜地躺著,像睡著了一般窄坦。 火紅的嫁衣襯著肌膚如雪唤反。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評(píng)論 1 309
  • 那天鸭津,我揣著相機(jī)與錄音拴袭,去河邊找鬼。 笑死曙博,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的怜瞒。 我是一名探鬼主播父泳,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼吴汪!你這毒婦竟也來(lái)了惠窄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤漾橙,失蹤者是張志新(化名)和其女友劉穎杆融,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體霜运,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡脾歇,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年蒋腮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片藕各。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡池摧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出激况,到底是詐尸還是另有隱情作彤,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布乌逐,位于F島的核電站竭讳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏浙踢。R本人自食惡果不足惜绢慢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望成黄。 院中可真熱鬧呐芥,春花似錦、人聲如沸奋岁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)闻伶。三九已至滨攻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蓝翰,已是汗流浹背光绕。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留畜份,地道東北人诞帐。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像爆雹,于是被迫代替她去往敵國(guó)和親停蕉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容