標(biāo)簽: Jd_Paperweekly
時(shí)間:2020.11.18
來(lái)源: ACL 2017
關(guān)鍵詞:文本匹配讽膏,Alignment layer
1.背景及問(wèn)題描述
文本匹配(Text Matching)是自然語(yǔ)言處理領(lǐng)域最經(jīng)典的問(wèn)題之一,也是搜索拄丰、QA府树、推薦等領(lǐng)域的基礎(chǔ)研究課題俐末。而短文本匹配,因?yàn)槠涮厥庑匝傧溃热缯Z(yǔ)義性缺失卓箫,句法缺失等,往往需要特殊的處理模型垄潮。而對(duì)齊機(jī)制(Alignment)是處理短文本的有效方案烹卒,今天介紹一篇很經(jīng)典的基于Alignment的短文本匹配模型。ESIM不僅在模型開創(chuàng)性還是實(shí)用性上來(lái)說(shuō)弯洗,都是一個(gè)很值得學(xué)習(xí)的佳作旅急,畢竟此模型被公認(rèn)為短文本匹配競(jìng)賽刷榜利器。
這篇文章是專門為NLI(自然語(yǔ)言推理)任務(wù)做的涂召,即給定前提premise和假設(shè)hypothesis坠非,要求判斷兩者的關(guān)系(1.不相干neural;2.沖突contradiction果正,即有矛盾炎码,3.蘊(yùn)含entailment,即能從p推斷h或者兩者表達(dá)相同的意思)秋泳。
2.已有的解決方案
在這篇文章之前的深度文本匹配模型潦闲,基本上就是基于簡(jiǎn)單的LSTM+attention的模型。往往具有很深的模型迫皱。
3.解決方案概述
現(xiàn)在來(lái)看歉闰,ESIM的網(wǎng)絡(luò)并不復(fù)雜,層次結(jié)構(gòu)也非常清晰卓起。左半部分就是我們要講的ESIM和敬,右半部分的區(qū)別是編碼器使用Tree-LSTM,可適用于語(yǔ)法分析任務(wù)戏阅。模型大概分為4層:
- 1.Input Encoding
編碼層昼弟,使用詞向量表示輸入序列的token,然后對(duì)序列向量通過(guò)BiLSTM做編碼奕筐,可認(rèn)為是做一層特征提取舱痘,同時(shí)加入語(yǔ)境特征,也是NLP任務(wù)的一般配置离赫。分別對(duì)Premise和Hypothesis進(jìn)行編碼:
- 2.Local Inference Modeling
往往兩個(gè)句子之間的推理關(guān)系是通過(guò)一些關(guān)鍵詞決定的芭逝,所以為了分析Premise和Hypothesis之間的關(guān)系,找到兩句話之間有關(guān)系的部分是關(guān)鍵點(diǎn)渊胸。這些有關(guān)系的部分旬盯,可以稱之為對(duì)其(alignment)部分,一般通過(guò)attention機(jī)制實(shí)現(xiàn),來(lái)描述對(duì)彼此來(lái)說(shuō)的重要部分瓢捉。
模型的做法比較簡(jiǎn)單频丘,計(jì)算Premise和Hypothesis之間的attention權(quán)重,就是直接將上層的結(jié)果做矩陣乘法:
然后用上面attention權(quán)重來(lái)做本地推理泡态,以此獲取Premise和Hypothesis的關(guān)系:
Premise的對(duì)其表征是用attention權(quán)重乘以Hypothesis向量,Hypothesis的對(duì)其表征同理使用ttention權(quán)重乘以Premise向量迂卢,也就是通過(guò)這樣來(lái)引入對(duì)其機(jī)制某弦,作者稱之為L(zhǎng)ocal Inference。
然后而克,在此基礎(chǔ)上靶壮,再進(jìn)行強(qiáng)化表示,分別對(duì)這兩個(gè)值做差異性計(jì)算员萍,作者使用了差值和點(diǎn)積(element-wise product)腾降,作者認(rèn)為這樣的操作有助于模型效果的提升:
- 3.Inference Composition
這一層就是對(duì)對(duì)和再使用BiLSTM來(lái)提取信息,然后分別進(jìn)行MaxPooling和AvgPooling來(lái)做降維和特征提取,然后將四部分的結(jié)果concat在一起:
- 4.Prediction
最后預(yù)測(cè)層碎绎,把送入到全連接層螃壤,激活函數(shù)采用的是,得到的結(jié)果送到softmax層筋帖。
4.結(jié)果分析
作者主要就是在SNLI數(shù)據(jù)集上做了實(shí)驗(yàn)奸晴,達(dá)到了當(dāng)時(shí)的SOTA。
5.創(chuàng)新點(diǎn)或貢獻(xiàn)
- 這篇文章是第一個(gè)將對(duì)其機(jī)制引入文本匹配的模型日麸,獲得了非常好的效果寄啼。
6.個(gè)人思考
短文本匹配,對(duì)其機(jī)制和交互信息一般會(huì)是很好的策略代箭。
但是其模型還是相對(duì)復(fù)雜墩划,作者沒做實(shí)驗(yàn),但是預(yù)計(jì)推理時(shí)間不太高效嗡综,并且模型結(jié)果無(wú)法預(yù)存乙帮,只適合做精準(zhǔn)匹配,不太容易做大規(guī)模匹配蛤高。