一、摘要
Chen, Q., Zhu, X., Ling, Z., Wei, S., Jiang, H., & Inkpen, D. (2016). Enhanced LSTM for Natural Language Inference, (2008). https://doi.org/10.18653/v1/P17-1152
發(fā)表于ACL 2017
arxiv地址:http://arxiv.org/abs/1609.06038
代碼:https://github.com/lukecq1231/nli
這篇論文認為序列推理模型并沒有被好好研究秒咐,很多取得好效果的方法都是設計了很復雜的模型鹰贵,所以他們提出 ESIM (Enhancing Sequential Inference Model) 觅捆,并融合了基于句法樹的 tree-LSTM,能在 SNLI 上達到最佳效果(accuracy = 88.6%)。
二置鼻、問題
自然語言推理(NLI: natural language inference)問題:即判斷能否從一個前提p中推導出假設h,簡單來說蜓竹,就是判斷給定兩個句子的三種關系:蘊含箕母、矛盾或無關。
使用數(shù)據(jù)集是 Stanford Natural Language Inference (SNLI) dataset俱济,570k English sentence pairs
這個問題和計算句子相似度有一個比較明顯的不同嘶是,是結果是非對稱的,但我也看到有人用這個模型計算句子的相似度(需要做一點改動)姨蝴。
三俊啼、方法
先放一張模型結構圖,可以看到分為左右兩邊左医,左側就是 ESIM授帕,右側是基于句法樹的 tree-LSTM同木,兩者合在一起交 HIM (Hybrid Inference Model)。整個模型從下往上看跛十,分為三部分:input encoding彤路,local inference modeling, and inference composition.
為了避免重復和麻煩,這篇筆記會只是用左側 ESIM 的部分的標記和模型芥映,右側的處理方法基本一致洲尊。
3.1 notation
a 和 b 是兩個句子詞向量(可能是預訓練或者解析數(shù))組成的矩陣
3.2 input encoding
使用 BiLSTM 分別學習a 和 b 的詞與上下文信息,得到新的向量表示:
注意這里的 a 和 b 是有下標的奈偏,表示的是詞坞嘀,詞向量的維度是一樣的。
3.3 local inference modeling
使用軟對齊的方法 (soft alignment or soft attention)
3.3.1 計算詞相似度矩陣
3.3.2 句子相互表示做局部推理
用 b 中所有詞向量來表示 a 中每個位置的詞惊来,使用 3.3.1 中計算的相似度進行加權 (softmax)
3.3.3 局部推理信息增強
將以上得到的對兩個句子的表示做差和點積(element-wise product丽涩,每個元素單獨相乘),更清晰地區(qū)別a和a(hat)的局部的推斷信息裁蚁,獲取例如“對立”的推斷關系矢渊。
下面用 ,
和
,
表示 3.2 和 3.3.2 產出的結果矮男。
這里可以檢查一下,如果詞向量的維度是300室谚,a 有10個詞毡鉴, 和
都是 10 * 300 的矩陣,所以 ma 的維度應該是 10 * 1200舞萄,相當于把每個詞的表示從300維擴充到1200維眨补。
3.4 inference composition
仍然是用 BiLSTM 組合 ma 和 mb,公式與 3.2 中相同倒脓,但目標變成了獲取 local inference ma and mb 的上下文信息撑螺。
為了控制模型復雜度,使用了1層網(wǎng)絡+relu激活處理 ma 和 mb崎弃,經 BiLSTM 之后得到的句子矩陣表示分別是 va 和 vb甘晤。
然后使用 avg + max pooling 得到一個定長的向量,輸入到全連接網(wǎng)絡中
這里經過 pooling 之后的結果就與句子中詞的個數(shù) la 和 lb 無關了饲做,v 是一個 4800 維的向量了线婚。
3.5 MLP
一個隱層(tanh激活)
一個softmax的輸出層
用 multi-class cross entropy 作為 loss
四、實驗與效果
- 詞向量用 Glove pre-train 300維盆均,訓練過程不 fix
- 優(yōu)化 adam塞弊,第一個 momentum 0.9, 第二個 0.999
- learning rate 0.0004
- batch size 32
- 所有 LSTM, tree-LSTM 隱狀態(tài)都是 300 維
- dropout 0.5
單獨 ESIM 已經達到88%,超越了之前的很多模型,在融合 tree-LSTM 之后進一步提升到 88.6%