2016 Multi-Perspective Context Matching for Machine Comprehension[5]
摘要
之前的機(jī)器閱讀數(shù)據(jù)集因?yàn)橐?guī)模太小以致于難以訓(xùn)練端到端的深度學(xué)習(xí)模型沪编,或者難以評(píng)估當(dāng)前機(jī)器閱讀技術(shù)的能力暇仲。最新發(fā)布的 SQuAD 數(shù)據(jù)集緩解了這些限制 (alleviates these limitation) ,并提供了發(fā)展更多現(xiàn)實(shí)的閱讀理解模型 (realistic MC models) 的機(jī)會(huì)「谢樱基于這個(gè)數(shù)據(jù)集漠嵌,作者提出一個(gè)多視角上下文匹配模型 (Multi-Perspective Context Matching model) ,這是一個(gè)端到端系統(tǒng)卒落,可直接預(yù)測(cè)答案在文章 (passage) 中的起始位置和終止位置话瞧。 作者先通過(guò)乘以一個(gè)由文章和問(wèn)題計(jì)算得到的相關(guān)權(quán)重矩陣來(lái)調(diào)整每個(gè)詞嵌入向量。然后寝姿,使用雙向 LSTMs 來(lái)對(duì)問(wèn)題和加權(quán)后的文章進(jìn)行編碼交排。接著,針對(duì)文章中的每個(gè)點(diǎn)(可以理解為每個(gè)詞在文章中的相對(duì)位置)饵筑,模型結(jié)合編碼后的問(wèn)題對(duì)每個(gè)點(diǎn)的上下文進(jìn)行多個(gè)視角的匹配埃篓,并產(chǎn)生一個(gè)匹配向量。 在這些匹配向量上根资,再使用另一個(gè)雙向 LSTM 對(duì)信息進(jìn)行集成架专,最后預(yù)測(cè)起始點(diǎn)和終止點(diǎn)。
近年的閱讀理解數(shù)據(jù)集
最近幾年玄帕,為了測(cè)試和加快機(jī)器閱讀理解技術(shù)的發(fā)展部脚,開(kāi)發(fā)了幾個(gè)基準(zhǔn)數(shù)據(jù)集 (benchmark datasets)。
-
RCTest (2013)
2013年創(chuàng)建了一個(gè)用得比較多的數(shù)據(jù)集 RCTest [1] 裤纹,基于這個(gè)數(shù)據(jù)集提出了很多閱讀理解方法委刘。
但是,該數(shù)據(jù)集的規(guī)模大小限制了研究者建立端到端的深度神經(jīng)網(wǎng)絡(luò)模型。因此锡移,在該數(shù)據(jù)集上表現(xiàn)很好的模型大多數(shù)是依賴于手工特征 (hand-crafted features) 或者 使用額外知識(shí) (employing additional knowledge) -
the Daily Mail 和 the CNN (2015)
為了應(yīng)對(duì)大規(guī)模有監(jiān)督數(shù)據(jù)的缺乏呕童,2015年 [2] 創(chuàng)建了 the CNN 和 the Daily Mail 數(shù)據(jù)集。 基于這兩個(gè)大規(guī)模的數(shù)據(jù)集淆珊,一些端到端的深度神經(jīng)網(wǎng)絡(luò)模型被提出夺饲,并成功應(yīng)用。
但是施符,有人針對(duì)這兩個(gè)數(shù)據(jù)集進(jìn)行了詳細(xì)的手動(dòng)分析往声,并得出結(jié)論:對(duì)于評(píng)估當(dāng)前機(jī)器閱讀理解技術(shù)來(lái)說(shuō),這兩個(gè)數(shù)據(jù)集的困難度(困難系數(shù)操刀?復(fù)雜度烁挟? difficult )還不夠。
SQuAD
為了解決先前機(jī)器閱讀理解所存在的缺點(diǎn)骨坑, [3] 開(kāi)發(fā)了 the Stanford Question Answering dataset (SQuAD) 撼嗓。
通過(guò)與其他數(shù)據(jù)集的對(duì)比, SQuAD 因?yàn)橐韵略蚋诱鎸?shí)和挑戰(zhàn)性:
- 它比之前手動(dòng)標(biāo)記的數(shù)據(jù)集大了將近兩個(gè)數(shù)量級(jí)欢唾。
- 所有的問(wèn)題都是人寫(xiě)的且警,替代了自動(dòng)生成的問(wèn)題,例如 the CNN 和 the Daily Mail 中自動(dòng)生成的 Cloze 形式的問(wèn)題礁遣。
- 答案是文章中一個(gè)任意的范圍 (an arbitrary span) 斑芜,而不是一個(gè)多選擇或者實(shí)體的受限集合 (a limited set of multiple choices or entities) 。
- 回答問(wèn)題時(shí)需要不同形式的推理祟霍。
作者模型假設(shè)
- 他們的基本假設(shè)是:如果文章 (passage) 某個(gè)范圍的上下文信息與問(wèn)題的信息十分相似杏头,則這個(gè)范圍內(nèi)的上下文內(nèi)容很有可能是正確答案。
- 比起顯式地枚舉全部可能范圍并對(duì)它們進(jìn)行排序沸呐,作者的模型通過(guò)在整個(gè)文章的全局歸一化概率分布下預(yù)測(cè)答案的起始點(diǎn)和終止點(diǎn)來(lái)識(shí)別答案范圍醇王。
任務(wù)定義
SQuAD 的機(jī)器閱讀理解任務(wù)可以表示為:在訓(xùn)練集上估計(jì)條件概率 ,然后在測(cè)試實(shí)例上通過(guò)(1)預(yù)測(cè)答案崭添。
因?yàn)椋?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cmathcal%7BA%7D(P)" alt="\mathcal{A}(P)" mathimg="1"> 的計(jì)算復(fù)雜度是 寓娩,作者做了一個(gè)簡(jiǎn)單的假設(shè):假設(shè)預(yù)測(cè)起始點(diǎn)和預(yù)測(cè)終止點(diǎn)這兩個(gè)事件相互獨(dú)立,因此(1)可以簡(jiǎn)化為 (2)
多視角上下匹配模型(MPCM)
作者提出一個(gè)多視角上下文匹配模型來(lái)對(duì)概率分布 和
進(jìn)行估計(jì)呼渣。
詞表示層 (Word Representation Layer)
該層的目的是將問(wèn)題和文章的每個(gè)詞表示維的向量棘伴。作者使用了兩個(gè)組件: 詞嵌入 (word embeddings) 和 字符構(gòu)成嵌入 (character-composed embeddings)。
詞嵌入使用預(yù)訓(xùn)練詞向量 GloVe 屁置。
字符構(gòu)成嵌入通過(guò)把單詞中每個(gè)字符(每個(gè)字符表示為一個(gè)向量)喂入 LSTM 中計(jì)算得到焊夸。【具體實(shí)現(xiàn)細(xì)節(jié)蓝角,作者沒(méi)提到淳地,我猜可能是取 LSTM 最后一層狀態(tài)】過(guò)濾層 (Filter Layer):
在大多數(shù)情況中怖糊,文章中只有很少一部分的內(nèi)容可以用問(wèn)題的回答。因此颇象,作者定義了過(guò)濾層來(lái)過(guò)濾文章中冗余信息伍伤。
首先,計(jì)算文章中每個(gè)單詞的關(guān)聯(lián)度遣钳。
的計(jì)算公式如(3.1)(3.2):
然后扰魂,通過(guò) (4) 對(duì)文章中的每個(gè)單詞進(jìn)行過(guò)濾,再將過(guò)濾后的向量傳遞給下一層蕴茴。
【這個(gè)過(guò)濾操作和思想或許可以學(xué)習(xí)利用劝评,作者也是受到 match_LSTM[4] 的啟發(fā)】上下文表示層 (Context Representation Layer)
該層的目的是將文章和問(wèn)題的上下文信息合并到每個(gè)時(shí)間步表示中。
作者分別使用了雙向 LSTM 來(lái)對(duì)問(wèn)題和文章的每個(gè)詞進(jìn)行上下文嵌入編碼 (encode contextual embeddings)
-
多視角上下文匹配層 (Multi-Perspective Context Matching Layer)
該層是 MPCM 模型的核心層倦淀,目的是通過(guò)多視角比較文章和問(wèn)題的每個(gè)上下文嵌入向量蒋畜。- 作者先定義了維度權(quán)重匹配,如公式(7)
和
是兩個(gè)
維向量撞叽,
是可訓(xùn)練參數(shù)姻成,
表示視角的個(gè)數(shù),
是一個(gè)維度為
的向量愿棋, 每個(gè)元素表示在相應(yīng)視角下的匹配值科展。
可以通過(guò)余弦相似函數(shù) (8) 來(lái)計(jì)算兩個(gè)加權(quán)向量的匹配值。
- 接著糠雨,在
的正交方向上才睹,作者定義了三個(gè)匹配策略。
- 完全匹配 (Full-Matching) :
文章的每個(gè)前向(后向)上下文嵌入向量和整個(gè)問(wèn)題的前向(后向)表示進(jìn)行比較甘邀。(這里整個(gè)問(wèn)題的表示就是取 LSTM 最后一個(gè)時(shí)間步的輸出)琅攘。
- 最大池化匹配 (Maxpooling-Matching) :
文章的每個(gè)前向(后向)上下文嵌入向量和問(wèn)題的每個(gè)前向(后向)上下文嵌入向量進(jìn)行比較。對(duì)于文章每個(gè)單詞的匹配結(jié)果松邪,只保留每個(gè)視角的最大值乎澄。
- 均值池化匹配 (Meanpooling-Matching) :
這個(gè)策略與最大池化匹配類似,區(qū)別是保留每個(gè)視角的均值测摔。
- 完全匹配 (Full-Matching) :
- 最后,文章中每個(gè)位置的匹配向量是各種匹配向量的拼接解恰。
- 作者先定義了維度權(quán)重匹配,如公式(7)
集成層 (Aggregation Layer)
該層用于集成匹配向量锋八,以便文章的每個(gè)時(shí)間步可以與周?chē)恢眠M(jìn)行交互。作者使用雙向 LSTM 進(jìn)行匹配向量的合并护盈,生成每個(gè)時(shí)間步的集成向量挟纱。預(yù)測(cè)層 (Prediction Layer)
作者將每個(gè)時(shí)間步的集成向量分別喂入前饋神經(jīng)網(wǎng)絡(luò)中,計(jì)算每個(gè)時(shí)間步在網(wǎng)絡(luò)的輸出值腐宋,然后通過(guò) softmax 函數(shù)對(duì)網(wǎng)絡(luò)的輸出值進(jìn)行歸一化紊服,最后得到文章中每個(gè)位置作為起始點(diǎn)(終止點(diǎn))的概率檀轨。
模型結(jié)構(gòu)圖
實(shí)驗(yàn)結(jié)果
Reference
- Matthew Richardson, Christopher JC Burges, and Erin Renshaw. 2013. Mctest: A challenge dataset for the open-domain machine comprehension of text. In EMNLP, volume 3, page 4.
- Karl Moritz Hermann, Tomas Kocisky, Edward Grefenstette, Lasse Espeholt,Will Kay, Mustafa Suleyman, and Phil Blunsom. 2015. Teaching machines to read and comprehend. In Advances in Neural Information Processing Systems, pages 1693–1701.
- Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. 2016. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250.
- Shuohang Wang and Jing Jiang. 2016. Machine comprehension using match-lstm and answer pointer. arXiv preprint arXiv:1608.07905.
- Wang Z, Mi H, Hamza W, et al. Multi-perspective context matching for machine comprehension[J]. arXiv preprint arXiv:1612.04211, 2016.