KDD2018输瓜,短文本匹配:MIX

  • 題目:MIX: Multi-Channel Information Crossing for Text Matching
  • 騰訊出的文章
  • CNN做短文本匹配

1. 摘要

  • 在English WikiQA數(shù)據(jù)集的NDCG@3評(píng)價(jià)指標(biāo)下比其他最好的模型提升了11%
  • 在QQ瀏覽器上做了A/B test瓦胎,點(diǎn)擊數(shù)提升了5.7%

2. 背景和相關(guān)工作

  • 短文本匹配方法主要可以分為兩類:基于表示基于交互

2.1 基于表示的匹配

  • 首先生成文本的表示芬萍,然后計(jì)算匹配度(相似度)
  • 不同方法主要的不同在于怎么得到文本表示怎么計(jì)算表示相似度
  • 得到文本表示的方法有
    • 基于CNN的
      • A convolutional neural network for modelling sentences,ACL2014
      • Convolutional neural networks for sentence classification搔啊,EMNLP2014
    • 基于RNN的
      • When are tree structures necessary for deep learning of representations?柬祠,EMNLP2015
      • Recurrent neural network for text classification with multi-task learning,IJCAI2016
    • 基于Tree-base RNN的
      • Deep recursive neural networks for compositionality in language负芋,NIPS2014
      • Parsing natural scenes and natural language with recursive neural networks瓶盛,ICML2011
  • DSSM,用MLP得到文本表示示罗,相似度計(jì)算是cosine相似度
    • Learning deep structured semantic models for web search using clickthrough data惩猫,CIKM2013
    • DSSM用的MLP,參數(shù)過多蚜点,模型復(fù)雜而且容易過擬合轧房,而且也沒有考慮到單詞順序
  • CDSSM,用CNN替換了MLP
    • A latent semantic model with convolutional-pooling structure for information retrieval绍绘,CIKM2014
  • CNTN奶镶,用tensor匹配在CQA任務(wù)上表現(xiàn)很好
    • Reasoning with neural tensor networks for knowledge base completion,NIPS2013

2.2 基于交互的匹配

  • 直接計(jì)算匹配特征
  • 更加直觀和自然
  • 第一是關(guān)鍵詞的匹配陪拘,其次是相對(duì)位置
  • 同時(shí)考慮匹配度匹配的結(jié)構(gòu)
  • 最近的研究表明這種方法在多文本匹配任務(wù)中表現(xiàn)更好
  • ARC-II厂镇,用CNN做匹配,相比前面的方法左刽,考慮了單詞的順序捺信,效果更好。(具體怎么做的得看原文)
    • Convolutional neural network architectures for matching natural language sentences欠痴,NIPS2014
  • MatchPyramid迄靠,把兩段文本做成一個(gè)2-d的Matching Matrix,里面元素是每對(duì)詞語(yǔ)的匹配度(cosine)喇辽,然后通過CNN得到整體的匹配度
    • Text Matching as Image Recognition掌挚,AAAI2016
  • DRMM,When most NLP tasks focus on semantic matching, the Ad-hoc retrieval task is mainly about relevance matching菩咨。映射一個(gè)可變長(zhǎng)的局部交互到一個(gè)固定長(zhǎng)度的匹配直方圖(具體怎么做的得看原文)
    • A deep relevance matching model for ad-hoc retrieval吠式,CIKM2016
  • KNRM [23] 和 Conv-KNRM [3] directly makes interaction between ngrams’ embeddings from two pieces of text and employs a kernel pooling layer to combine the cross-match layers to generate the matching score.
    • End-to-end neural ad-hoc ranking with kernel pooling,SIGIR2017
    • Convolutional Neural Networks for Soft-Matching N-Grams in Ad-hoc Search抽米,WSDM2018
幾個(gè)弱點(diǎn)
  • Words or n-grams是基本語(yǔ)義單元特占,直接用它來匹配忽略了一些有用的方面,例如基于整個(gè)句子的語(yǔ)義信息
  • 難以較好的描述全局匹配和局部匹配之間的關(guān)系缨硝。實(shí)際上有時(shí)候摩钙,文本匹配中關(guān)鍵部分的匹配比全局匹配更加重要
  • The lack ofa unified ensemble mechanism for multiple aspect matching.

總的來說罢低,上的模型都過多的以來深度學(xué)習(xí)模型的泛化能力和訓(xùn)練數(shù)據(jù)的質(zhì)量查辩。

3. MIX MODEL

整體模型結(jié)構(gòu)圖
  • global matching 匹配兩個(gè)句子
  • location matching 匹配句子中的元素

3.1 Local Matching

  • 僅僅基于word Embedding的匹配不好胖笛,因?yàn)樵~語(yǔ)在不同語(yǔ)境下意義不同

  • 所以用了unigrams, bigrams 和 trigrams,用卷積實(shí)現(xiàn)宜岛,卷積核大小分別為1长踊、2、3萍倡。


    unigrams, bigrams 和 trigrams
  • 不同大小卷積核的結(jié)果都保留身弊,每個(gè)都用來做匹配

3.2 Attention mechanisms

  • 多層Attention機(jī)制對(duì)local matching做加權(quán)
  • 第一層:每對(duì)詞語(yǔ)的IDF相乘,這樣常見的單詞匹配的權(quán)重更小列敲,不常見單詞匹配的權(quán)重更大
  • 第二層:詞性的匹配阱佛,不同詞性之間的匹配權(quán)重不一樣,例如人名和人名匹配的權(quán)重要大于動(dòng)詞和動(dòng)詞的匹配
  • 第三層:詞語(yǔ)的位置戴而,不同位置的權(quán)重不同凑术,直觀的說位置靠前的詞語(yǔ)更加重要
  • Attention值加在matching上是直接與對(duì)于matching值相乘
  • 這樣對(duì)于每對(duì)文本有3種不同的Attention值,結(jié)合之前的不同卷積核處理文本(例如分別是N和M)所意,那么總共有3NM種local matching

3.3 Combination

  • 就是用CNN嘛
  • 然后接上MLP得到最后的結(jié)果

4. 實(shí)驗(yàn)和結(jié)果

  • 用了兩個(gè)線下數(shù)據(jù)集和QQ瀏覽器的A/Btest作為實(shí)驗(yàn)結(jié)果
  • 評(píng)價(jià)指標(biāo)為NDCG@3淮逊、NDCG@5、MAP
  • 實(shí)驗(yàn)效果拔群


    實(shí)驗(yàn)結(jié)果

5. 總結(jié)

  • 一種新的多通道文本特征多層Attention機(jī)制的方法
  • 有中英文數(shù)據(jù)集扶踊,有A/B test泄鹏,實(shí)驗(yàn)結(jié)果非常具有說服力
  • 個(gè)人認(rèn)為實(shí)驗(yàn)設(shè)置不夠完善,沒有較好的體現(xiàn)每種Attention層的重要性(雖然勉強(qiáng)可以說的通)
  • 具體方法說明的不夠詳細(xì)秧耗,缺乏公式說明备籽。(例的幾個(gè)公式都是都知道的東西)
  • 總的來說是一篇非常棒的文章,給我提供了一些新的思路分井。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末胶台,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子杂抽,更是在濱河造成了極大的恐慌诈唬,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缩麸,死亡現(xiàn)場(chǎng)離奇詭異铸磅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)杭朱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門阅仔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人弧械,你說我怎么就攤上這事八酒。” “怎么了刃唐?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵羞迷,是天一觀的道長(zhǎng)界轩。 經(jīng)常有香客問我,道長(zhǎng)衔瓮,這世上最難降的妖魔是什么浊猾? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮热鞍,結(jié)果婚禮上葫慎,老公的妹妹穿的比我還像新娘。我一直安慰自己薇宠,他們只是感情好偷办,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著澄港,像睡著了一般爽篷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上慢睡,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天逐工,我揣著相機(jī)與錄音,去河邊找鬼漂辐。 笑死泪喊,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的髓涯。 我是一名探鬼主播袒啼,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼纬纪,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼蚓再!你這毒婦竟也來了包各?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤问畅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后护姆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡卵皂,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了灯变。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捅膘。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖篓跛,靈堂內(nèi)的尸體忽然破棺而出膝捞,到底是詐尸還是另有隱情坦刀,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布蔬咬,位于F島的核電站鲤遥,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏林艘。R本人自食惡果不足惜盖奈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望狐援。 院中可真熱鬧钢坦,春花似錦、人聲如沸啥酱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)镶殷。三九已至禾酱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绘趋,已是汗流浹背颤陶。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留陷遮,地道東北人滓走。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像帽馋,于是被迫代替她去往敵國(guó)和親闲坎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容