一、概述
用于自然語言推斷的加強LSTM费彼。顧名思義,這篇論文的目的是做自然語言推斷雇卷,即推斷兩個句子的關系颠猴,關系有三種:相等(或蘊含),對立和中立贮折。
作者主要是用句子間的注意力機制(intra-sentence attention)资盅,來實現(xiàn)局部的推斷,進一步實現(xiàn)全局的推斷每庆。
ESIM主要有3個組成部分:input encoding今穿,local inference modeling, and inference composition蓝晒。
正常詞向量+BiLSTM實現(xiàn),如圖1左邊;如果可以做句子的語法分析的話慢逾,那么也可以做下語法分析 + treeLSTM,如圖1右邊;最后寝志,二者預測結果融合唯竹,效果更好。ESIM就是圖1左邊的實現(xiàn)棵磷。圖1左+圖1右谢鹊,稱為HIM(hybrid inference model)。
二挎扰、ESIM的組成部分
2.1?Input Encoding
對于輸入的詞向量,首先使用 BILSTM來學習如何表示一個word以及上下文傲绣,即對原始的word embedding在當前的語境下重新編碼塞琼,得到兩個句子的新的詞向量:
2.2?Local Inference Modeling(局部推斷建模)
BiLSTM: 序列模型可以收集和word以及上下文的推斷。
treeLSTM: 語法樹的結構可以收集詞組和從句直接的局部信息。(HIM才做,ESIM不做)
要想做局部推斷,必須要把兩個句子的子部分做一定程度的對齊(嚴格對齊或者軟對齊),這里是使用句子間對齊(inter-sentence attention)。
?2.2.1 先計算兩個句子word之間的相似度枢析,得到2維的相似度矩陣把沼,用Dot實現(xiàn)
2.2.2 然后計算基于句子的局部推斷
就是用上一步的相似度矩陣捆愁,用句子q2的word bj來生成相似度加權的q1的word ai(hat)。
反過來,用句子q1的word ai來生成相似度加權的q2的word bj(hat)酒繁。 如下:
實際上加權是用softmax(相似度vector)實現(xiàn)的郎哭。
2.2.3?Enhancement of local inference information(加強局部推斷信息)
????把a 和a(hat)計算差和點積亥至, b和b(hat)也一樣。這樣做的目的是 更清晰地區(qū)別a和a(hat)的局部的推斷信息缚俏,獲取例如“對立”的推斷關系塘揣,所以擴展了a的詞向量為Ma:
假設句子的長度為20葡兑,Ma的每個詞向量維度為800厨疙,那么得到Ma為20*800的矩陣,可以認為我們得到800維特征沾凄,每個特征都在20個word中比較得出來的。
2.3?Inference Composition(推斷組件)
用pooling 抽取特征的過程保屯,用了maxPooling和avgPooling姑尺,這是為了防止結果對句子長度敏感股缸。所以800維特征的抽取過程如下:
2.4 MLP的過程
全連接輸出的過程旺入。