- 題目:MIX: Multi-Channel Information Crossing for Text Matching
- 騰訊出的文章
- CNN做短文本匹配
1. 摘要
- 在English WikiQA數(shù)據(jù)集的NDCG@3評(píng)價(jià)指標(biāo)下比其他最好的模型提升了11%
- 在QQ瀏覽器上做了A/B test瓦胎,點(diǎn)擊數(shù)提升了5.7%
2. 背景和相關(guān)工作
- 短文本匹配方法主要可以分為兩類:基于表示和基于交互
2.1 基于表示的匹配
- 首先生成文本的表示芬萍,然后計(jì)算匹配度(相似度)
- 不同方法主要的不同在于怎么得到文本表示和怎么計(jì)算表示相似度
- 得到文本表示的方法有
-
基于CNN的
- A convolutional neural network for modelling sentences,ACL2014
- Convolutional neural networks for sentence classification搔啊,EMNLP2014
-
基于RNN的
- When are tree structures necessary for deep learning of representations?柬祠,EMNLP2015
- Recurrent neural network for text classification with multi-task learning,IJCAI2016
-
基于Tree-base RNN的
- Deep recursive neural networks for compositionality in language负芋,NIPS2014
- Parsing natural scenes and natural language with recursive neural networks瓶盛,ICML2011
-
基于CNN的
-
DSSM,用MLP得到文本表示示罗,相似度計(jì)算是cosine相似度
- Learning deep structured semantic models for web search using clickthrough data惩猫,CIKM2013
- DSSM用的MLP,參數(shù)過多蚜点,模型復(fù)雜而且容易過擬合轧房,而且也沒有考慮到單詞順序
-
CDSSM,用CNN替換了MLP
- A latent semantic model with convolutional-pooling structure for information retrieval绍绘,CIKM2014
-
CNTN奶镶,用tensor匹配在CQA任務(wù)上表現(xiàn)很好
- Reasoning with neural tensor networks for knowledge base completion,NIPS2013
2.2 基于交互的匹配
- 直接計(jì)算匹配特征
- 更加直觀和自然
- 第一是關(guān)鍵詞的匹配陪拘,其次是相對(duì)位置
- 同時(shí)考慮匹配度和匹配的結(jié)構(gòu)
- 最近的研究表明這種方法在多文本匹配任務(wù)中表現(xiàn)更好
-
ARC-II厂镇,用CNN做匹配,相比前面的方法左刽,考慮了單詞的順序捺信,效果更好。(具體怎么做的得看原文)
- Convolutional neural network architectures for matching natural language sentences欠痴,NIPS2014
-
MatchPyramid迄靠,把兩段文本做成一個(gè)2-d的Matching Matrix,里面元素是每對(duì)詞語(yǔ)的匹配度(cosine)喇辽,然后通過CNN得到整體的匹配度
- Text Matching as Image Recognition掌挚,AAAI2016
-
DRMM,When most NLP tasks focus on semantic matching, the Ad-hoc retrieval task is mainly about relevance matching菩咨。映射一個(gè)可變長(zhǎng)的局部交互到一個(gè)固定長(zhǎng)度的匹配直方圖(具體怎么做的得看原文)
- A deep relevance matching model for ad-hoc retrieval吠式,CIKM2016
-
KNRM [23] 和 Conv-KNRM [3] directly makes interaction between ngrams’ embeddings from two pieces of text and employs a kernel pooling layer to combine the cross-match layers to generate the matching score.
- End-to-end neural ad-hoc ranking with kernel pooling,SIGIR2017
- Convolutional Neural Networks for Soft-Matching N-Grams in Ad-hoc Search抽米,WSDM2018
幾個(gè)弱點(diǎn)
- Words or n-grams是基本語(yǔ)義單元特占,直接用它來匹配忽略了一些有用的方面,例如基于整個(gè)句子的語(yǔ)義信息
- 難以較好的描述全局匹配和局部匹配之間的關(guān)系缨硝。實(shí)際上有時(shí)候摩钙,文本匹配中關(guān)鍵部分的匹配比全局匹配更加重要
- The lack ofa unified ensemble mechanism for multiple aspect matching.
總的來說罢低,上的模型都過多的以來深度學(xué)習(xí)模型的泛化能力和訓(xùn)練數(shù)據(jù)的質(zhì)量查辩。
3. MIX MODEL
- global matching 匹配兩個(gè)句子
- location matching 匹配句子中的元素
3.1 Local Matching
僅僅基于word Embedding的匹配不好胖笛,因?yàn)樵~語(yǔ)在不同語(yǔ)境下意義不同
-
所以用了unigrams, bigrams 和 trigrams,用卷積實(shí)現(xiàn)宜岛,卷積核大小分別為1长踊、2、3萍倡。
不同大小卷積核的結(jié)果都保留身弊,每個(gè)都用來做匹配
3.2 Attention mechanisms
- 多層Attention機(jī)制對(duì)local matching做加權(quán)
- 第一層:每對(duì)詞語(yǔ)的IDF相乘,這樣常見的單詞匹配的權(quán)重更小列敲,不常見單詞匹配的權(quán)重更大
- 第二層:詞性的匹配阱佛,不同詞性之間的匹配權(quán)重不一樣,例如人名和人名匹配的權(quán)重要大于動(dòng)詞和動(dòng)詞的匹配
- 第三層:詞語(yǔ)的位置戴而,不同位置的權(quán)重不同凑术,直觀的說位置靠前的詞語(yǔ)更加重要
- Attention值加在matching上是直接與對(duì)于matching值相乘
- 這樣對(duì)于每對(duì)文本有3種不同的Attention值,結(jié)合之前的不同卷積核處理文本(例如分別是N和M)所意,那么總共有3NM種local matching
3.3 Combination
- 就是用CNN嘛
- 然后接上MLP得到最后的結(jié)果
4. 實(shí)驗(yàn)和結(jié)果
- 用了兩個(gè)線下數(shù)據(jù)集和QQ瀏覽器的A/Btest作為實(shí)驗(yàn)結(jié)果
- 評(píng)價(jià)指標(biāo)為NDCG@3淮逊、NDCG@5、MAP
-
實(shí)驗(yàn)效果拔群
5. 總結(jié)
- 一種新的多通道文本特征和多層Attention機(jī)制的方法
- 有中英文數(shù)據(jù)集扶踊,有A/B test泄鹏,實(shí)驗(yàn)結(jié)果非常具有說服力
- 個(gè)人認(rèn)為實(shí)驗(yàn)設(shè)置不夠完善,沒有較好的體現(xiàn)每種Attention層的重要性(雖然勉強(qiáng)可以說的通)
- 具體方法說明的不夠詳細(xì)秧耗,缺乏公式說明备籽。(例的幾個(gè)公式都是都知道的東西)
- 總的來說是一篇非常棒的文章,給我提供了一些新的思路分井。