Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information

文章首發(fā)于zhkun的小窩

Title: Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information
Authors: Seonhoon Kim, Jin-Hyuk Hong, Inho Kang, Nojun Kwak
Link: https://arxiv.org/abs/1805.11360

句子匹配（Sentence Matching）是自然語言理解任務(wù)中一個非常重要的任務(wù)挽放，例如Natural Language Inference畔柔，Paraphrase Identification驶沼，Question Answering等都可以歸屬于這個任務(wù)。這個任務(wù)主要就是理解句子語義贯被，理解句子之間的語義關(guān)系。因此如何去表示這些內(nèi)容就變得十分重要了。為了更好的利用原始特征信息儒旬，作者參考DenseNet温兼，提出了一種densely-connected co-attentive recurrent neural network模型秸滴，該模型最突出的地方就是可以從最底層到最頂層一直保留原始信息以及利用co-attention得到的交互信息。接下來募判，就對文章進行詳細了解

模型結(jié)構(gòu)

首先是模型圖：

不得不說荡含，這個圖還是很粗糙的咒唆，一點都不夠精致，但模型的基本單元以及整體框架已經(jīng)完全包含進去了释液，我們姑且用這個圖對模型進行分析吧

輸入層

自然語言的任務(wù)首先就是輸入層全释，對每個詞的one-hot表示進行embedding，

$e_{pi}^{tr} = E^{tr}(p_i),$
$e_{pi}^{fix} = E^{fix}(p_i),$
$c_{p_i} = Char-Conv(p_i),$
$p_i^w = [e_{pi}^{tr}; e_{pi}^{fix}; c_{p_i}; f_{p_i}],$

這幾個公式很好理解误债，首先作者將詞的embedding分為兩部分恨溜，一部分參與訓(xùn)練，即 $E^{tr}$ 找前，另一部分是固定不動的糟袁，即 $E^{fix}$ ，然后就是詞級別的表示char-Conv躺盛，以及一些exact match的匹配特征项戴，主要是a中的每個詞是否在b中有對應(yīng)的詞，然后將這些表示拼接起來槽惫，就得到了每個詞的最后表示 $p^w_i$ 周叮。

密集連接層

在這一層，作者收DenseNet啟發(fā)界斜，使用了密集連接和RNN結(jié)合的方法來實現(xiàn)對對句子的處理仿耽。首先 $h_t^l$ 表示的是第l層的RNN的第t的隱層狀態(tài)，

$h_t^l = H_l(x_t^l, h_{t-1}^l), \quad x_t^l = h_t^{l-1},$

$h_t^l = H_l(x_t^l, h_{t-1}^l), \quad x_t^l = h_t^{l-1} + x_t^{l-1},$

$h_t^l = H_l(x_t^l, h_{t-1}^l), \quad x_t^l = [h_t^{l-1}, x_t^{l-1}],$

式2.1是傳統(tǒng)的多層RNN的結(jié)構(gòu)各薇，前一層的RNN的隱層狀態(tài)作為當(dāng)前層的輸入项贺，然后就是RNN的計算方式，式2.2借鑒了殘差網(wǎng)絡(luò)峭判，當(dāng)前層的輸入不僅包含了前一層的隱層狀態(tài)开缎，同時包含了前一層的輸入，但他們是相加的方式林螃，作者認為這種相加的形式很可能會阻礙信息的流動奕删，因此借鑒DenseNet，作者使用了拼接了方式疗认，這樣不僅保留了兩部分信息完残，同時拼接方法也最大程度的保留了各自的獨有信息。但這就有一個問題了横漏，多層的RNN的參數(shù)就不一樣了谨设，因為拼接的方式導(dǎo)致了每一層輸入對應(yīng)的參數(shù)規(guī)模是在不斷變大的，這樣就不能做的很深了绊茧。

密集連接注意力

因為句子匹配考慮的兩個句子之間關(guān)系铝宵，因此需要建模兩個句子之間的交互，目前來說，注意力機制是一種非常好的方法鹏秋，因此作者在這樣也使用了注意力機制尊蚁，

$a_{p_i} = \sum_{j=1}^{J}\alpha_{i,j}h_{q_j},$
$\alpha_{i,j} = \frac{exp(e_{i,j})}{\sum_{k=1}^Jexp(e_{i,k})}, \quad e_{i,j} = cos(h_{p_i}, h_{q_j}),$

這個就是傳統(tǒng)的co-attention計算方法，計算兩個序列之間的在每個詞上的對應(yīng)關(guān)系侣夷，不過作者這里比較粗暴横朋，直接使用了余弦相似度來計算每兩個詞之間的相似，這里也可以使用一個簡單的MLP來計算百拓。有意思的地方在下邊

$h_t^l = H_l(x_t^l, h_{t-1^l}), \quad x_t^l = [h_t^{l-1}, \alpha_t^{l-1}, x_t^{l-1}],$

這個就很有意思了琴锭，我們傳統(tǒng)的做法是得到每個詞在對方句子上的概率分布之后，使用對方句子中每個詞向量的加權(quán)和作為當(dāng)前詞的向量表示衙传，而這里作者直接使用了計算出來的權(quán)值分布决帖，將其作為一個特征引入到當(dāng)前層的輸入當(dāng)中，這個感覺還是很有意思的蓖捶。

瓶頸處理層

正如前邊提到的地回，這種dense連接方式直接導(dǎo)致的一個問題就是隨著模型的加深，參數(shù)量會變的越來越多俊鱼，這樣最后全連接層的壓力就會特別大刻像。因此作者在這里使用了一個AutoEncoder來解決這個問題。AutoEncoder可以幫助壓縮得到的巨大向量表示并闲，同時可以保持原始的信息细睡。這個操作還是很不錯的。

分類層

這是處理兩個句子關(guān)系常用的一種匹配方法帝火，作拼接溜徙，相減，點乘购公，不過作者在這里也是用了相減的絕對值萌京，然后將最終拼接的向量通過一個全連接層，然后根據(jù)任務(wù)進行softmax分類宏浩，我個人做過實驗，相減的效果要好于相減的絕對值靠瞎，因為相減不僅可以表示差異比庄，同時可以表明信息流方向，而相減的絕對值就更專注于差異了乏盐，兩個都用應(yīng)該是效果比只用一個好的佳窑。

實驗結(jié)果

照例，上圖父能，作者在NLI任務(wù)和Question Pair兩個任務(wù)上進行了模型驗證神凑，效果當(dāng)然是十分不錯的。

感想

這篇文章主要集中在句子匹配任務(wù)上，將DenseNet的一些想法引入到了stack RNN中溉委，還是可以給人一些靈感的鹃唯，比如說從殘差連接到DenseNet，比如說注意力權(quán)值的使用方法瓣喊，比如說利用AutoEncoder來壓縮向量坡慌，這些還是十分值得學(xué)習(xí)的。?(＾?＾●)?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末藻三，一起剝皮案震驚了整個濱河市洪橘，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌棵帽，老刑警劉巖熄求，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異逗概，居然都是意外死亡弟晚，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門仗谆，熙熙樓的掌柜王于貴愁眉苦臉地迎上來指巡，“玉大人，你說我怎么就攤上這事隶垮≡逖” “怎么了？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵狸吞，是天一觀的道長勉耀。經(jīng)常有香客問我，道長蹋偏，這世上最難降的妖魔是什么便斥？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮威始，結(jié)果婚禮上枢纠，老公的妹妹穿的比我還像新娘。我一直安慰自己黎棠，他們只是感情好晋渺，可當(dāng)我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著脓斩，像睡著了一般木西。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上随静，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天八千，我揣著相機與錄音，去河邊找鬼。笑死恋捆，一個胖子當(dāng)著我的面吹牛照皆，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播鸠信，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼纵寝，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了星立？” 一聲冷哼從身側(cè)響起爽茴，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎绰垂，沒想到半個月后室奏，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡劲装，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年胧沫，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片占业。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡绒怨，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出谦疾，到底是詐尸還是另有隱情南蹂，我是刑警寧澤，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布念恍，位于F島的核電站六剥，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏峰伙。R本人自食惡果不足惜疗疟，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望瞳氓。院中可真熱鬧策彤，春花似錦、人聲如沸匣摘。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽恋沃。三九已至，卻和暖如春必指，著一層夾襖步出監(jiān)牢的瞬間囊咏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留梅割，地道東北人霜第。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像户辞，于是被迫代替她去往敵國和親泌类。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,577評論 2贊 353