2017 Gated Self-Matching Networks for Reading Comprehension and Question Answering[1]
摘要
在本文中枉阵,作者提出用于閱讀理解類(lèi)型問(wèn)答的門(mén)控自匹配網(wǎng)絡(luò) (the gated self-matching networks) 毕荐,目的是從一段給定的文章 (passage) 中進(jìn)行問(wèn)題回答。作者先使用基于注意力機(jī)制的門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò) (gated attention-based recurrent networks) 對(duì)問(wèn)題和文章進(jìn)行匹配沧竟,來(lái)獲取經(jīng)過(guò)問(wèn)題注意后的文章表示 (question-aware passage representation) 碗殷。然后咧七,作者提出一種自匹配注意力機(jī)制 (self-matching attention mechanism) 递宅,通過(guò)文章與自身進(jìn)行匹配來(lái)精煉文章表示抹镊,它能夠有效地根據(jù)整個(gè)文章來(lái)進(jìn)行信息編碼锉屈。最后,作者使用了指針網(wǎng)絡(luò) (the pointer networks) 從文章中定位答案的位置髓考。他們?cè)?SQuAD 數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)部念。單模型在隱藏狀態(tài)的測(cè)試集上弃酌,其評(píng)估指標(biāo)的精確匹配達(dá)到 71.3% 氨菇,集成模型進(jìn)一步提高結(jié)果到 75.9% 。在這篇文章提交時(shí)妓湘,他們的模型在 SQuAD 的排名榜上排名第一查蓉。
他人的工作,作者受到的啟發(fā)
自 SQuAD 數(shù)據(jù)集發(fā)布以來(lái)榜贴,在該數(shù)據(jù)集上已經(jīng)取得了快速進(jìn)展豌研。
- Wang and Jiang(2016)[3] 使用 match-LSTM[2] 建立經(jīng)過(guò)問(wèn)題注意的文章表示 (question-aware passage representation)
- inyals et al.(2015)[4] 使用 pointer networks 在文章中預(yù)測(cè)答案的范圍
- Seo et al. (2016)[5] 提出雙向注意力流網(wǎng)絡(luò) (bi-directional attention flow networks) 在多層次粒度 (multiple levels of granularity) 上進(jìn)行問(wèn)題-文章對(duì) (question-passage pairs) 建模
- Xiong et al. (2016)[6] 提出動(dòng)態(tài)互注意力網(wǎng)絡(luò) (dynamic co-attention network) ,在該網(wǎng)絡(luò)中問(wèn)題和文章同時(shí)參與唬党,并通過(guò)迭代改善答案預(yù)測(cè) (iteratively refine answer predictions)
作者的模型是受到 Wang and Jiang[3] 的啟發(fā)鹃共。
作者的模型可以分為四個(gè)部分:
- 使用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對(duì)問(wèn)題和文章進(jìn)行編碼,建立問(wèn)題表示 (question representation) 和文章表示 (passage representation) 驶拱。
- 使用門(mén)控匹配層 (the gated matching layer) 對(duì)問(wèn)題和文章進(jìn)行匹配霜浴。
- 自匹配層 (the self-matching layer) 用于對(duì)整個(gè)文章進(jìn)行信息集成 (information aggregation) 。
- 基于 the pointer network 的答案范圍預(yù)測(cè)層蓝纲。
為什么要使用 gated attention-based recurrent network
作者提出一個(gè)基于注意力的門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò) (a gated attention-based recurrent network) 阴孟,其在基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)上增加了一個(gè)額外的門(mén) (an additional gate) 。
使用該結(jié)構(gòu)的原因在于:在閱讀理解和問(wèn)題回答任務(wù)中税迷,對(duì)于回答特定的問(wèn)題永丝,文章中的詞擁有不同程度的重要性 (different importance) 。
通過(guò)引進(jìn)一個(gè)門(mén)控機(jī)制 (a gating mechanism) 箭养,作者的基于注意力的門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)可以根據(jù)與問(wèn)題的相關(guān)程度給文章各部分賦予不同程度的權(quán)重慕嚷,遮掩 (masking out) 文章的無(wú)關(guān)部分和強(qiáng)調(diào)重要的部分。
為什么要使用 self-matching mechanism
作者提出一種自匹配機(jī)制 (self-matching mechanism) ,該機(jī)制可以有效地從整個(gè)文章 (the whole passage) 中集成信息 (aggregate evidence) 來(lái)進(jìn)行答案推理喝检。
在經(jīng)過(guò)一個(gè)門(mén)控匹配層 (a gated matching layer) 后砂心,產(chǎn)生基于問(wèn)題注意的文章表示 (question-aware passage representation) 有效地結(jié)合問(wèn)題信息對(duì)文章中的每個(gè)詞進(jìn)行編碼。 但是蛇耀,循環(huán)神經(jīng)網(wǎng)絡(luò)雖然具有推理能力辩诞,但在實(shí)際使用中只能記憶文章中有限長(zhǎng)度的上下文。因此纺涤,一個(gè)候選答案經(jīng)常沒(méi)有注意到在文章其他部分的線(xiàn)索译暂。
為了解決上述問(wèn)題,作者提出一個(gè)自匹配層撩炊,結(jié)合整個(gè)文章的信息外永,動(dòng)態(tài)精煉文章表示 (dynamically refine passage representation) ∨】龋基于 問(wèn)題注意的文章表示伯顶,作者在文章自身【這里是 問(wèn)題注意的文章表示 】應(yīng)用了基于注意力的門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò) (gated attention-based recurrent networks) ,根據(jù)文章中的每個(gè)詞與文章當(dāng)前單詞的關(guān)聯(lián)進(jìn)行信息集成骆膝。
模型結(jié)構(gòu)
Question and Passage Encoder
作者先把問(wèn)題和文章中的單詞轉(zhuǎn)化為 詞層次的嵌入向量(word-level embeddings) 和 字母層次的嵌入向量(character-level embeddings) 祭衩。
字母層次的嵌入向量 是單詞中每個(gè)字母的嵌入向量按順序通過(guò)一個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)后產(chǎn)生的最終隱含層狀態(tài)≡那【這個(gè)操作可以學(xué)習(xí)掐暮、借鑒】。
作者認(rèn)為使用字母層次的嵌入向量的好處是:有助于處理一些未登錄詞 (out-of-vocab(OOV))政钟。
接著路克,作者對(duì)問(wèn)題和文章的全部詞使用一個(gè)雙向 RNN 來(lái)產(chǎn)生新的表示和
,具體實(shí)現(xiàn)公式如下:
在作者的實(shí)驗(yàn)中养交,他們選擇使用了 GRU 精算。-
Gated Attention-based Recurrent Networks
作者提出 基于注意力的門(mén)控循環(huán)網(wǎng)絡(luò) 是為了將問(wèn)題信息融合到文章表示中。這是基于注意力循環(huán)網(wǎng)絡(luò)的一個(gè)變種碎连,通過(guò)一個(gè)外加的門(mén)來(lái)決定文章中的信息對(duì)于一個(gè)問(wèn)題的重要程度灰羽。
給定問(wèn)題表示和 文章表示
:
- Rockt¨aschel et al. (2015)[7] 提出通過(guò)在問(wèn)題和文章中進(jìn)行詞的軟對(duì)齊 (soft-alignment) ,從而產(chǎn)生句子對(duì)表示 (sentence-pair representation)
破花,具體實(shí)現(xiàn)公式如下:
其中是一個(gè)對(duì)整個(gè)問(wèn)題信息 (whole question (
)) 的注意力池化向量谦趣,其具體計(jì)算公式如下:
從上面的公式可以看出,是通過(guò)對(duì)每個(gè)
進(jìn)行加權(quán)求和 (作者稱(chēng)之為注意力池化 attention-pooling ) 得到的座每。
因此前鹅,每個(gè)文章表示動(dòng)態(tài)地整合 (incorporate) 整個(gè)問(wèn)題的聚合匹配信息 (aggregated matching information)。
- Wang and Jiang (2016)[2] 提出 match-LSTM峭梳,它將
作為循環(huán)網(wǎng)絡(luò)的外加輸入舰绘,具體實(shí)現(xiàn)公式如下:
為了決定文章中的重要部分和關(guān)注與問(wèn)題相關(guān)的部分蹂喻,作者在 RNN 的輸入 (
) 添加了一個(gè)額外的門(mén),具體實(shí)現(xiàn)公式如下:
從上面的公式可以看出捂寿,通過(guò)一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算的得分
口四,再使用
對(duì)
進(jìn)行加權(quán) 。 【這種做法秦陋,可以學(xué)習(xí)借鑒】
不同于 LSTM 和 GRU 的門(mén)蔓彩,外加的門(mén)是基于當(dāng)前的文章單詞和對(duì)應(yīng)問(wèn)題的注意力池化向量,它可以專(zhuān)注于問(wèn)題和當(dāng)前文章單詞的關(guān)系驳概。 - Rockt¨aschel et al. (2015)[7] 提出通過(guò)在問(wèn)題和文章中進(jìn)行詞的軟對(duì)齊 (soft-alignment) ,從而產(chǎn)生句子對(duì)表示 (sentence-pair representation)
Self-Matching Attention
通過(guò) 基于注意力門(mén)控循環(huán)網(wǎng)絡(luò) 后赤嚼,得到 question-aware passage representation。
但是存在一個(gè)問(wèn)題:它只有非常局限的上下文知識(shí) (very limited knowledge of context) 顺又。一個(gè)候選答案經(jīng)常忽略上下文窗口 (surrounding window) 外部的文章線(xiàn)索更卒。此外,在 SQuAD 數(shù)據(jù)集的大部分樣本中稚照,問(wèn)題和文章之間存在某些詞匯 (lexical) 或者語(yǔ)法 (syntactic) 的差異蹂空。因此,文章上下文對(duì)于推理答案來(lái)說(shuō)是十分重要的果录。
為了解決這個(gè)問(wèn)題上枕,作者提出直接讓 question-aware passage representation 與 自己進(jìn)行匹配。它可以動(dòng)態(tài)地針對(duì)文章的當(dāng)前單詞從整個(gè)文章中收集信息 (evidence) 雕憔,并將其 (evidence) 與 文章當(dāng)前單詞 和 它匹配的問(wèn)題信息 編碼成新的表示姿骏,具體實(shí)現(xiàn)公式如下:
其中是對(duì)整個(gè)文章 (whole passage
) 進(jìn)行注意力池化的向量糖声。 具體實(shí)現(xiàn)公式如下:
【 Todo: 這個(gè)是自己對(duì)自己進(jìn)行基于 attention 的 RNN 編碼 =斤彼。= 可以學(xué)習(xí)這個(gè)操作。試著使用 keras 實(shí)現(xiàn)這種 RNN 】Output Layer
作者在該層中模仿[3] 使用 the pointer networks[4] 來(lái)預(yù)測(cè)答案的起點(diǎn)和終點(diǎn)蘸泻。 此外琉苇,作者在問(wèn)題表示上使用注意力池化,生成一個(gè)用于初始化 the pointer network 的隱藏層向量悦施。
給定文章表示并扇,注意力機(jī)制被用作指針從文章中選擇答案的起始位置 (
) 和 終止位置 (
) ,具體實(shí)現(xiàn)公式如下:
公式中的表示答案循環(huán)網(wǎng)絡(luò) (pointer network) 的上一次 (
) 的隱藏層狀態(tài)抡诞。 答案循環(huán)網(wǎng)絡(luò)的輸入是基于當(dāng)前概率 (a^t) 的注意力池化向量:
在預(yù)測(cè)起始位置穷蛹,表示答案循環(huán)網(wǎng)絡(luò)的初始預(yù)測(cè)層狀態(tài)。作者利用問(wèn)題向量
用于初始化昼汗。
是一個(gè)基于可訓(xùn)練參數(shù)
的問(wèn)題注意力池化向量肴熏。具體實(shí)現(xiàn)公式如下:
【這波操作可以學(xué)下, 使用一個(gè)可訓(xùn)練的參數(shù)結(jié)合 concat attention 來(lái)對(duì)問(wèn)題進(jìn)行 attention 顷窒, 這個(gè)
貌似 基于詞的多注意力機(jī)制那篇文章 用到了】
模型結(jié)果圖
實(shí)驗(yàn)設(shè)置細(xì)節(jié)
- 使用斯坦福的 CoreNLP 分詞器來(lái)預(yù)處理每個(gè)文章和問(wèn)題
- 使用 LSTM 的變種 the Gated Recurrent Unit (GRU)
- 使用 GloVe 預(yù)訓(xùn)練詞向量
- 使用零向量表示未登錄詞
- 使用單層的雙向 GRU 來(lái)計(jì)算字母層次的嵌入向量
- 使用3層的雙向 GRU 來(lái)對(duì)問(wèn)題和文章進(jìn)行編碼
- the gated attention-base recurrent network 也是使用雙向 GRU 蛙吏, 可能是單層的 GRU
- 各層的隱藏層向量長(zhǎng)度都是75
- 計(jì)算注意力分?jǐn)?shù)的隱藏層向量長(zhǎng)度也是 75
- 各層之間使用 dropout ,dropout 大小為 0.2
- 模型使用 AdaDelta 進(jìn)行優(yōu)化,起始學(xué)習(xí)率為 1鸦做, AdaDelta 中
励烦,
實(shí)驗(yàn)結(jié)果
Reference
- Wang W, Yang N, Wei F, et al. Gated self-matching networks for reading comprehension and question answering[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017, 1: 189-198.
- ShuohangWang and Jing Jiang. Learning natural language inference with LSTM. In NAACL HLT 2016, The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego California, USA, June 12-17, 2016.
- Shuohang Wang and Jing Jiang. 2016b. Machine comprehension using match-lstm and answer pointer. arXiv preprint arXiv:1608.07905 .
- Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. 2015. Pointer networks. In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, December 7-12, 2015, Montreal, Quebec, Canada. pages 2692–2700.
- Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, and Hannaneh Hajishirzi. 2016. Bidirectional attention flow for machine comprehension. arXiv preprint arXiv:1611.01603 .
- Caiming Xiong, Victor Zhong, and Richard Socher. 2016. Dynamic coattention networks for question answering. arXiv preprint arXiv:1611.01604 .
- Tim Rockt¨aschel, Edward Grefenstette, Karl Moritz Hermann, Tom′as Kocisk′y, and Phil Blunsom. 2015. Reasoning about entailment with neural attention. CoRR .