論文筆記 --《Matching Article Pairs with Graphical Decomposition and Convolutions》

標簽: Jd_Paperweekly
來源: ACL 2019
關(guān)鍵詞:文本匹配,GCN, BERT


1.背景及問題描述

本文目標主要是為了解決長文本匹配的問題,與短文本匹配不同泻云,長文本匹配涉及到關(guān)鍵詞相速、實體和句子之間更復雜的交互丧鸯。所以本文提出了一種“分而治之”的思路庄蹋,首先將文本構(gòu)造成一個圖杰妓,然后使用圖卷積網(wǎng)絡(luò)來抽取特征來進行文本匹配钝吮。在自己構(gòu)造的長文本數(shù)據(jù)集上埋涧,取得了非常好的效果板辽。

2.已有的解決方案

作者主要與傳統(tǒng)的文本匹配算法做比較。
使用TF-IDF棘催,BM25,LDA等算法來比較兩個文本的相似度劲弦,這些算法在信息檢索和搜索領(lǐng)域應用廣泛。近年來出現(xiàn)大量的深度神經(jīng)網(wǎng)絡(luò)模型醇坝,比如RNN和CNN等邑跪,來對文本進行編碼,可以很好的獲取語義相關(guān)性呼猪,特別是序列相關(guān)性画畅。但是這些方法都是為了匹配一對句子(sentence-pair)而設(shè)計的,而長文本涉及到關(guān)鍵詞宋距、實體和句子之間更復雜的交互轴踱,再使用這些模型就很難取得很好的結(jié)果。

3.解決方案概述

結(jié)構(gòu)圖

上圖是本文提出方法的結(jié)構(gòu)圖谚赎,是pipe-line的結(jié)構(gòu)淫僻,首先對文檔構(gòu)建CIG,然后使用GCN提取特征壶唤,再使用分類器進行分類雳灵。主要步驟有構(gòu)造CIG,使用GCN來聚合特征视粮,最后的分類層细办,下面我們逐一討論:

  1. 概念交互圖(CIG,Concept Interaction Graph)
CIG例子

上面是對左邊這篇文檔構(gòu)造CIG的例子蕾殴。CIG是一個無向帶權(quán)圖笑撞,沒一個節(jié)點稱為一個concept,它是這個文檔中的關(guān)鍵詞或者是高度關(guān)聯(lián)的關(guān)鍵詞組钓觉,文檔中的每個句子被唯一的關(guān)聯(lián)到與它最相關(guān)的一個節(jié)點上茴肥,所以各節(jié)點關(guān)聯(lián)的句子集合是互斥的。邊的權(quán)重的含義是兩個concept的相關(guān)度荡灾,計算方式有很多種瓤狐。
下面我們詳細介紹構(gòu)造CIG的過程:

簡單版本的實現(xiàn):

  1. 使用TextRank算法抽取實體和關(guān)鍵詞(keyword)
  2. 把關(guān)鍵詞看作節(jié)點,在關(guān)鍵詞上構(gòu)建圖(KeyGraph)批幌。邊的定義是础锐,如果兩個keyword同時在一個句子中出現(xiàn)。

作者繼續(xù)介紹了使用concept來構(gòu)造圖的方法荧缘。

  1. 概念檢測(Concept Detection)
    使用社區(qū)發(fā)現(xiàn)算法(community detection algorithms)將多個關(guān)鍵詞合并為concept皆警,每個關(guān)鍵詞可以出現(xiàn)在不同的concept中。這一步不是必要的截粗,只是為了減少圖中節(jié)點的個數(shù)來減少計算量信姓。
  2. 句子鏈接(Sentence Attachment)
    計算文檔中每個句子與每個concept的余弦相似度鸵隧,其中句子與concept的向量用TF_IDF表示,這樣把每個句子與最相關(guān)的concept鏈接起來意推,沒有匹配到任何concept的句子鏈接到一個偽節(jié)點(dummy vertex)上豆瘫。
  3. 構(gòu)造邊
    將與每個節(jié)點附屬的句子拼接起來,節(jié)點之間的相關(guān)性就是直接計算拼接句子的TF_IDF值菊值。
    如果需要構(gòu)造一對文檔外驱,只需要在節(jié)點上將兩個CIG對齊,來自不同文檔中的句子也直接拼接在一起腻窒。
  1. GNN聚合文章對
  1. Encoding Local Matching Vectors
    在得到合并的CIG G_{AB}之后略步,對于圖中每個節(jié)點(concept),我們定義來自的文檔A和B的句子集合分別為S_A(v)定页,S_B(v)。首先需要學習每個節(jié)點的匹配向量(matching vector)绽诚,這個向量是用來表示S_A(v)S_B(v)相似度的典徊。
    這樣,就可以把兩篇文章的匹配問題轉(zhuǎn)移到每個節(jié)點的兩個句子集合匹配問題上了恩够。
    作者使用了兩種方法:
    Siamese Encoder: 使用攣生網(wǎng)絡(luò)分別對S_A(v)卒落,S_B(v)中句子編碼。這里作者應該是將句子集合拼看成一個句子來處理的蜂桶。然后使用一個聚合層儡毕,得到一個匹配向量:m_{AB}(v)
    Term-based Similarities: 直接計算S_A(v)扑媚,S_B(v)之間的詞語相似度腰湾,作者使用了五種方法:TF-IDF相似度,TF余弦相似度疆股,BM25费坊,1-gram的Jaccard還有Ochiai相似度,最后將這五個得分拼接在一起旬痹,得到另一個匹配向量:m^{'}_{AB}(v)

  2. Matching Aggregation via GCN
    模型的目標是要利用這個圖和每個節(jié)點的匹配向量得到一個匹配分數(shù)附井,來表示兩個文檔的相似度。作者使用GCN在這個圖上來提取特征两残。
    首先定義輸入:
    已知圖G=(V,E),有N個節(jié)點v_i\in{V},邊為e_{ij}=(v_i,v_j)\in{E},沒條邊對應的權(quán)重表示為 w_{ij} 永毅。
    另外每個節(jié)點的節(jié)點特征矩陣為 X={(x_i)}^{N}_{i=1},其中x_i就是將上面計算得到的匹配向量(matching vector)拼接得到:x_i=[m_{AB}(v),m^{'}_{AB}(v)] 人弓。
    然后使用GCN在此基礎(chǔ)上編碼提取特征沼死,在最后一層將所有隱向量取平均得到最終的向量m_{AB}(graphically merged matching vector),然后最后一層使用MLP在此向量上做分類票从。
    作者還嘗試在分類層加入其他特征向量漫雕,比如使用BERT編碼兩個文檔滨嘱、直接計算兩個文檔的Term-based Similarities,實驗證明都沒有提升浸间。

4.結(jié)果分析

實驗結(jié)果

結(jié)論:

  1. 對比其他一些常規(guī)的文本匹配模型太雨,在這個數(shù)據(jù)集上,本文提出的方法確實提升很多魁蒜。而在常規(guī)的方法上囊扳,用BERT微調(diào)后的模型表現(xiàn)已經(jīng)很好了,好于本文方法的幾個對比模型兜看。但是加入CIG后確實有大幅度提升锥咸。
  2. 使用社區(qū)發(fā)現(xiàn)算法來merge節(jié)點,可以將圖的平均節(jié)點數(shù)從30降到13,降低55%的訓練和測試時間细移。當然搏予,實驗表示,結(jié)果沒有使用全部keyword做節(jié)點表現(xiàn)好弧轧。這也是可以理解的雪侥,畢竟更多節(jié)點可以提供更多的信息。

5.創(chuàng)新點或貢獻

  1. 提出了概念交互圖(CIG)來表示一篇文檔精绎,用關(guān)鍵詞或者概念作為節(jié)點速缨,文檔中每個句子唯一的鏈接到一個節(jié)點上,節(jié)點附屬的句子集合相似度作為權(quán)重代乃。得到的CIG不僅可以很好的刻畫文檔的語義特征旬牲,還可以在此基礎(chǔ)上進行基于節(jié)點的文檔比較方法。
  2. 提出了一種基于CIG和GCN的“分而治之”的框架來做文檔匹配搁吓。
  3. 提供了一個長文檔匹配的數(shù)據(jù)集原茅。

6.個人思考

  1. 圖卷積模型的應用。
  2. 將文檔構(gòu)造成CIG的方法堕仔,實現(xiàn)的細節(jié)比較常規(guī)员咽,有很多優(yōu)化點。
  3. 以CIG為基礎(chǔ)來編碼證明可以很好提取長文檔的特征贮预。

[參考:]

paper
code

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末贝室,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子仿吞,更是在濱河造成了極大的恐慌滑频,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件唤冈,死亡現(xiàn)場離奇詭異峡迷,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進店門绘搞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來彤避,“玉大人,你說我怎么就攤上這事夯辖×鹪ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵蒿褂,是天一觀的道長圆米。 經(jīng)常有香客問我,道長啄栓,這世上最難降的妖魔是什么娄帖? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮昙楚,結(jié)果婚禮上近速,老公的妹妹穿的比我還像新娘。我一直安慰自己堪旧,他們只是感情好数焊,可當我...
    茶點故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著崎场,像睡著了一般。 火紅的嫁衣襯著肌膚如雪遂蛀。 梳的紋絲不亂的頭發(fā)上谭跨,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天,我揣著相機與錄音李滴,去河邊找鬼螃宙。 笑死,一個胖子當著我的面吹牛所坯,可吹牛的內(nèi)容都是我干的谆扎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼芹助,長吁一口氣:“原來是場噩夢啊……” “哼堂湖!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起状土,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤无蜂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蒙谓,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體斥季,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了酣倾。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片舵揭。...
    茶點故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖躁锡,靈堂內(nèi)的尸體忽然破棺而出午绳,到底是詐尸還是另有隱情,我是刑警寧澤稚铣,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布箱叁,位于F島的核電站,受9級特大地震影響惕医,放射性物質(zhì)發(fā)生泄漏耕漱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一抬伺、第九天 我趴在偏房一處隱蔽的房頂上張望螟够。 院中可真熱鬧,春花似錦峡钓、人聲如沸妓笙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽寞宫。三九已至,卻和暖如春拉鹃,著一層夾襖步出監(jiān)牢的瞬間辈赋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工膏燕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留钥屈,地道東北人。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓坝辫,卻偏偏與公主長得像篷就,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子近忙,可洞房花燭夜當晚...
    茶點故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內(nèi)容