Position-aware Attention and Supervised Data Improve Slot Filling論文理解

論文題目:Position-aware Attention and Supervised Data Improve Slot Filling

發(fā)表作者:Yuhao Zhang, Victor Zhong, Danqi Chen, Gabor Angeli, Christopher D. Manning

出版源:Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 35–45

Abstract

從文檔中自動提取知識構(gòu)建知識圖譜發(fā)展很慢。作者做了兩方面的工作:

  1. 提出了一個新的模型,結(jié)合了LSTM和實體位置感知的注意力機制躬窜;
  2. 同時,構(gòu)建了一個包含了TAC KBP評測中常見關(guān)系的監(jiān)督訓(xùn)練數(shù)據(jù)集——TAC關(guān)系抽取數(shù)據(jù)集(TACRED)氯材。

1. Introduction

從一段文本中提取知識,從而構(gòu)建實體關(guān)系的知識圖譜硝岗。這個任務(wù)包含實體識別氢哮、指代關(guān)聯(lián)、實體連接型檀。作者關(guān)注的是最具挑戰(zhàn)的"Slot filling"任務(wù)冗尤,即填充文本中實體之間的關(guān)系。

相似工作有:

  1. Zelenko et al., 2003 Kernel Methods for Relation Extraction
  2. Mintz et al., 2009 Distant supervision for relation extrac- tion without labeled data
  3. Adel et al., 2016 Comparing convolutional neural networks to traditional models for slot filling.

但他們的工作并沒有達到足夠的召回率和精確度胀溺。

同時裂七,有標簽的訓(xùn)練數(shù)據(jù)是很稀缺的,遠程監(jiān)督技術(shù)可以擴充訓(xùn)練數(shù)據(jù)仓坞,但它容易產(chǎn)生噪聲數(shù)據(jù)背零。

作者分析沒有可靠的方法的原因:

(1)過往使用的模型并不能很好適用于信息提取任務(wù);

(2)缺少訓(xùn)練數(shù)據(jù)扯躺,尤其是深度學(xué)習(xí)這樣需要足夠多樣本的模型

針對上述兩個問題捉兴,作者做了兩方面工作:

  • 提出了一個新的,用于關(guān)系分類的神經(jīng)網(wǎng)絡(luò)序列模型录语。它的結(jié)構(gòu)更適應(yīng)槽位填充任務(wù):因為詞的分布式表示考慮了詞的位置關(guān)系。

  • 另外 禾乘,用眾包的方式澎埠,生成了大量的標注數(shù)據(jù),作者將這個數(shù)據(jù)集命名為TAC Relation Extraction Dataset (TACRED)

2. 關(guān)系提取的位置感知神經(jīng)序列模型

已經(jīng)有人用CNNs或RNNs或它們的組合方式去做知識提取任務(wù)始藕,但這些模型對于長句子(真實文本中長句子是很常見的)的泛化能力較弱蒲稳。

作者分析現(xiàn)有模型遭遇的問題:

(1)盡管現(xiàn)在的序列模型氮趋,比如LSTM等采用門控機制(gating mechanisms)通過控制個體單詞之間的相互影響最終對句子的表示產(chǎn)生影響,但這種控制無法作用到整個句子江耀;

(2)這些模型沒有顯式對實體位置進行建模剩胁,或只建模了局部區(qū)域的位置信息。

本文作者在LSTM模型的基礎(chǔ)上引入了位置注意力機制祥国,從而可以:

(1)模型看完整個語句后評估各個詞之間的相互貢獻昵观;

(2)這種評估不僅考慮了序列的語義,還對實體的全局位置信息加以考慮舌稀。

下面對作者的模型進行說明:

  1. \mathcal{X}=\left[x_{1}, \ldots, x_{n}\right]

    表示語句啊犬,x_{i} 表示第i 個token

  2. \mathcal{X}_{s}=\left[x_{s_{1}}, x_{s_{1}+1}, \ldots, x_{s_{2}}\right]

    主實體(subject entity)

  3. \mathcal{X}_{o}=\left[x_{o_{1}}, x_{o_{1}+1}, \ldots, x_{o_{2}}\right]

    從實體(object entity)

  4. \left[p_{1}^{s}, \ldots, p_{n}^{s}\right]

    相對主實體s 的位置序列,定義為:
    p_{i}^{s}=\left\{\begin{array}{ll} i-s_{1}, & i<s_{1} \\ 0, & s_{1} \leq i \leq s_{2} \\ i-s_{2}, & i>s_{2} \tag{1} \end{array}\right.
    s_{1}, s_{2} 分別表示實體的首尾位置索引壁查。

  5. \left[p_{1}^{o}, \ldots, p_{n}^{o}\right]

    相對從實體o 的位置序列

  6. \mathbf{x}=\left[\mathbf{x}_{1}, \ldots, \mathbf{x}_{n}\right]

    句子的詞向量表示觉至,通過詞嵌入句子\mathbf{E}獲取

  7. \mathbf{p}^{s}=\left[\mathbf{p}_{1}^{s}, \ldots, \mathbf{p}_{n}^{s}\right] \text { and } \mathbf{p}^{o}=\left[\mathbf{p}_{1}^{o}, \ldots, \mathbf{p}_{n}^{o}\right]

    位置嵌入向量,通過位置嵌入矩陣\mathbf{P}獲取

訓(xùn)練的任務(wù)是:給定一個語句\mathcal{X}和實體位置so 睡腿,要預(yù)測實體之間的關(guān)系r语御,r要么屬于\mathcal{R}\mathcal{R}實體間關(guān)系的集合),要么實體間不存在任何關(guān)系席怪。

模型結(jié)構(gòu)如下圖所示:


1_Position-aware Neural Sequence Model的副本.jpeg

\left\{\mathbf{h}_{1}, \ldots, \mathbf{h}_{n}\right\}=\operatorname{LSTM}\left(\left\{\mathbf{x}_{1}, \ldots, \mathbf{x}_{n}\right\}\right) \tag{2}
定義\mathbf{q}=\mathbf{h}_{n} 表示整個語句的信息 沃暗,基于每個隱狀態(tài)\mathbf{h}_{i},計算其attention:
\begin{eqnarray} u_{i} & = & \mathbf{v}^{\top} \tanh \left(\mathbf{W}_{h} \mathbf{h}_{i}+\mathbf{W}_{q} \mathbf{q}+\right. \left.\mathbf{W}_{s} \mathbf{p}_{i}^{s}+\mathbf{W}_{o} \mathbf{p}_{i}^{o}\right) \tag{3} \\ a_{i} & = & \frac{\exp \left(u_{i}\right)}{\sum_{j = 1}^{n} \exp \left(u_{j}\right)} \tag{4} \end{eqnarray}
其中:

  • \mathbf{W}_{h}, \mathbf{W}_{q} \in \mathbb{R}^{d_{a} \times d}
  • \mathbf{W}_{s}, \mathbf{W}_{o} \in \mathbb{R}^{d_{a} \times d_{p}}
  • \mathbf{v} \in \mathbb{R}^{d_{a}}
  • d —— 隱藏層單元維度
  • d_{p} —— 位置嵌入向量維度
  • d_{a} —— Attention層單元維度
  • \mathbf{E} \in \mathbb{R} ^{|\mathcal{V}| \times d} —— 詞嵌入矩陣何恶,\mathcal{V} 表示字典
  • \mathbf{P} \in \mathbb{R}^{(2 L-1) \times d_{p}} —— 位置嵌入矩陣孽锥,L 最大句長

注意力a_{i}可以看做是特定單詞對句向量的貢獻,最終句向量可表示為:
\mathbf{z}=\sum_{i=1}^{n} a_{i} \mathbf{h}_{i} \tag{5}
得到\mathbf{z}后细层,將\mathbf{z}喂給一個全連接層惜辑,并接上Softmax層預(yù)測關(guān)系分類。

對比Bahdanau et al. (2015)和Zhou et al. (2016) 提出的注意力模型疫赎,作者認為自己模型與他們模型的最大區(qū)別是:在計算注意力權(quán)值時用到了概要向量\mathbf{q}和位置嵌入\mathbf{p}盛撑。

對模型的理解:

  1. 對注意力a_{i}的計算可以看做是從文本中挑選相關(guān)內(nèi)容而摒棄無關(guān)內(nèi)容;

  2. 概要向量\mathbf{q}幫助模型基于整個語句的語義信息選取相關(guān)內(nèi)容捧搞;

  3. 位置向量\mathbf{p}_{i}^{s}抵卫,\mathbf{p}_{i}^{o} 提供了詞和實體之間的空間位置信息

3. TAC關(guān)系提取數(shù)據(jù)集

已有研究表明,監(jiān)督數(shù)據(jù)對于槽位填充(slot filling)系統(tǒng)大有裨益胎撇。但是現(xiàn)有的關(guān)系提取數(shù)據(jù)集介粘,比如SemEval-2010 Task 8 dataset 以及Automatic Content Extraction (ACE) 對這樣的任務(wù)卻幫助不大,作者分析原因如下:

(1)這些數(shù)據(jù)集相對較小晚树,表2給出了對比姻采;

(2)它們捕捉的關(guān)系與我們的需求不太一致。

2_A comparison of existing datasets的副本.jpeg

一種可以方便獲取大量訓(xùn)練數(shù)據(jù)集的方法是使用遠程監(jiān)督自動構(gòu)建訓(xùn)練數(shù)據(jù)集爵憎。但是在實際使用中慨亲,遠程監(jiān)督會產(chǎn)生大量噪聲數(shù)據(jù)婚瓜。為了解決上述問題,作者收集了一個大型數(shù)據(jù)集刑棵,取名為TACRED(TAC Relation Extraction Dataset

  • 數(shù)據(jù)收集

作者用到了2009~2015年間TAC KBP評測任務(wù)的查詢實體(年均100個實體名巴刻,包含人名和組織機構(gòu)名)以及系統(tǒng)的輸出實體及它們之間的關(guān)系。同時蛉签,作者利用Mechanical Turk讓眾包人員對語料庫中的實體及關(guān)系進行標注胡陪。

  • 數(shù)據(jù)子集劃分

作者共采集到119474個樣本,作者根據(jù)年限劃分為訓(xùn)練集正蛙、開發(fā)集和測試集督弓,詳細統(tǒng)計見下表:

3_Statistics on TACRED的副本.jpeg
  • 探討

下表是從TACRED數(shù)據(jù)集采樣的幾個樣本:


4_Sampled_examples_from_TACRED_dataset的副本.png

作者總結(jié)了TACRED的4點優(yōu)勢:

  1. 從表2可以看到,TACRED數(shù)據(jù)集包含的關(guān)系實例相較另外兩個數(shù)據(jù)集乒验,多了一個數(shù)量級愚隧;
  2. 用到了TAC KBP任務(wù)的實體和關(guān)系類型,作者任務(wù)這樣的實體關(guān)系類型對于下游應(yīng)用是有幫助的锻全;
  3. 我們對所有負樣本進行了標注狂塘,因此基于TACRED數(shù)據(jù)訓(xùn)練的模型,在預(yù)測真實文本時不會偏向預(yù)測為假陽性鳄厌;
  4. TACRED數(shù)據(jù)集中語句的平均長度是36.2荞胡,相較SemEval數(shù)據(jù)集的19.1,TACRED數(shù)據(jù)集更能體現(xiàn)真實文本中實體間的復(fù)雜關(guān)系了嚎。

4. 實驗

為了驗證作者提出的模型以及數(shù)據(jù)集TACRED泪漂,作者分別做了兩組實驗:

(1)用TACRED評估模型在信息提取任務(wù)上的表現(xiàn);

(2)對基于TACRED訓(xùn)練的模型歪泳,評估其在TAC KBP 2015 cold start slot filling任務(wù)上的表現(xiàn)萝勤。

4.1 基線模型

  • TAC KBP 2015年度獲勝系統(tǒng)

    該系統(tǒng)的核心包含兩個關(guān)系提取器:一個基于模式的提取器和一個邏輯回歸分類器。

  • CNNs

    Nguyen and Grishman (2015)構(gòu)建了一個一維CNN網(wǎng)絡(luò)用于關(guān)系提取呐伞。同時他們也引入了位置嵌入(position embedding)敌卓,作者把他們這種引入位置嵌入的CNN網(wǎng)絡(luò)稱為“CNN-PE”.

  • 最短依存路徑RNN

    Xu et al. (2015b)提出了一個叫“SDP-LSTM”的模型,它將主實體(subject entity)和從實體(object entity)到最低共同祖節(jié)點的路徑分別喂給LSTM網(wǎng)絡(luò)伶氢,讓后經(jīng)過最大池化層后拼接在一起構(gòu)成最終表示趟径。

    同時,作者也把無位置Attention的LSTM模型作為基線模型癣防。

4.2 實現(xiàn)細節(jié)

  1. 訓(xùn)練集中出現(xiàn)頻數(shù)小于2的單詞設(shè)為特殊標記<UNK>;
  2. 用了GloVe詞嵌入蜗巧;
  3. 用的是兩層的LSTMs,作者對比發(fā)現(xiàn)要比一層LSTMs效果更好劣砍;
  4. 用交叉熵作為損失函數(shù)惧蛹,用AdaGrad優(yōu)化損失函數(shù);
  5. 對LSTMs和CNNs均施行了Dropout(rate=0.5);
  6. 同時對單詞也進行了Dropout刑枝,即隨機將部分單詞設(shè)置為<UNK>;
  • 實體掩碼(Entity Masking)

    將原始語句中的主實體替換為\langle NER\rangle-SUBJ香嗓,其中\langle NER\rangle 對應(yīng)TACRED中的命名實體簽名。同樣地對從實體進行替換装畅。作者認為這樣做有兩點好處:

    (1)可以提供實體類型信息靠娱;

    (2)避免過擬合

  • 多通道增強(Multi-channel augmentation )

    除了將詞向量作為輸入,同時還將POS和NER Embedding作為輸入掠兄。

4.3 在TACRED數(shù)據(jù)集上的評測

作者對各個模型都進行了5次訓(xùn)練像云,在開發(fā)集上做了早停,然后進行比較:

5_Model performance on the test set of TACRED的副本.jpeg

通過比較分析蚂夕,可以發(fā)現(xiàn):

  1. 神經(jīng)網(wǎng)絡(luò)模型的F_{1}確實要比邏輯回歸和模型系統(tǒng)高迅诬;

  2. 對于純CNN模型,引入位置嵌入婿牍,F_{1}能提高2\%左右侈贷;

  3. 我們的模型要比所有的基線模型都要好;通過集成的方式等脂,F_{1}還能提高俏蛮;

同時,發(fā)現(xiàn)不同神經(jīng)網(wǎng)絡(luò)模型 上遥,它們的查準率和召回率有不同的側(cè)重搏屑。基于CNN的模型相對有更高的查準率粉楚,而基于RNN的模型有相對更高的召回率辣恋。則可以簡單理解為CNN的卷積核相當于是一種N-Gram模式。

4.4 在TAC KBP槽位填充任務(wù)上的測評

作者用各個模型在TAC KBP2015冷啟動槽位填充任務(wù)上進行了測試模软。

6_An_Example_of_Slot_filling_task的副本.jpeg

該任務(wù)是給定一個查詢實體伟骨,第一步根據(jù)給定關(guān)系找出查詢實體對應(yīng)的從實體,稱為hop-0 slot撵摆;第二步底靠,將第一步的輸出作為查詢實體,然后找到對應(yīng)的從實體特铝,稱為hop-1 slot.

對信息提取系統(tǒng)的槽位填充任務(wù)的評測面臨兩個挑戰(zhàn):

  1. 系統(tǒng)得分綜合了系統(tǒng)各個模塊的表現(xiàn)(比如:實體識別 暑中、實體連接和關(guān)系提取)鲫剿;
  2. hop-0 slot的錯誤會傳導(dǎo)到hop-1 slot.

為了公平評測關(guān)系提取模塊鳄逾,作者用斯坦福的參賽系統(tǒng)作為基礎(chǔ)pipeline,然后在它的基礎(chǔ)上加上關(guān)系抽取模塊灵莲,保持其他模塊不變雕凹。

評測結(jié)果見下表:

7_Model performance on TAC KBP 2015 slot filling evaluation的副本.jpeg

對結(jié)果分析可得:

(1)在TACRED上訓(xùn)練的LR模型結(jié)合模式,\text{hop-0 } F_{1}要比斯坦福參賽系統(tǒng)高,但hop-all F_{1}得分要低些枚抵;

(2)作者提出的位置感知注意力模型在Hop-0 slot线欲、Hop-1 slot以及Hop-all slot上的得分都要比當時最優(yōu)系統(tǒng)的得分要高;如果與模式相結(jié)合汽摹,效果更好李丰!

4.5 分析

1. Model ablation

下表展示了模型在TACRED數(shù)據(jù)集上的分解測試結(jié)果,結(jié)果表明Attention機制貢獻了1.5%的F_{1}提升逼泣。

8_An ablation test of our model的副本.jpeg

2. 負樣本的影響

作者探討了負樣本數(shù)量對模型的影響趴泌,實驗結(jié)果見下圖:

9_Impact_of_negative_examples的副本.jpeg

通過曲線走勢可以看出:

(1)對于hop-0,隨著負樣本的增加拉庶,準確率不斷上升嗜憔,但召回率變化不大,F_{1}也上升氏仗;

(2)對于hop-all吉捶,負樣本的數(shù)量從20%升到100%,F_{1}提升了約10%廓鞠。

3. 句長影響

下圖展示了句長對模型的影響:


10_Performance_by_sentence_length的副本.jpeg

(1)隨著句子變長帚稠,所有模型的效果都會下降;

(2)相比LR模型床佳,所有的神經(jīng)網(wǎng)絡(luò)模型對于長句子表現(xiàn)更好滋早;

(3)相比CNN-PE模型,基于RNN的模型對于長句子更具魯棒性砌们,同時SDP-LSTM模型對句長不那么敏感杆麸;

(4)作者提出的模型,除了超過60個單詞長的語句浪感,表現(xiàn)都很好昔头。

4. 注意力可視化

下圖是注意力的一個可視化結(jié)果。從圖中可以看到影兽,模型會對哪些對關(guān)系有指向性的詞更多的注意力揭斧。同時,模型會對哪些目標實體(Object entity)更多注意力峻堰。

11_Attention visualization的副本.png

5. 結(jié)論

結(jié)論本文提出了一個用于關(guān)系抽取的認知位置的神經(jīng)序列模型讹开,以及一個大規(guī)模、多來源捐名、顯著提升關(guān)系實例數(shù)的數(shù)據(jù)集——TACRED旦万。二者相結(jié)合,在冷啟動槽填充評測中可以提升約4.5%的F_{1}值镶蹋。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末成艘,一起剝皮案震驚了整個濱河市赏半,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌淆两,老刑警劉巖断箫,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異琼腔,居然都是意外死亡瑰枫,警方通過查閱死者的電腦和手機踱葛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門丹莲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人尸诽,你說我怎么就攤上這事甥材。” “怎么了性含?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵洲赵,是天一觀的道長。 經(jīng)常有香客問我商蕴,道長叠萍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任绪商,我火速辦了婚禮苛谷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘格郁。我一直安慰自己腹殿,他們只是感情好,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布例书。 她就那樣靜靜地躺著锣尉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪决采。 梳的紋絲不亂的頭發(fā)上自沧,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天,我揣著相機與錄音树瞭,去河邊找鬼拇厢。 笑死,一個胖子當著我的面吹牛移迫,可吹牛的內(nèi)容都是我干的旺嬉。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼厨埋,長吁一口氣:“原來是場噩夢啊……” “哼邪媳!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤雨效,失蹤者是張志新(化名)和其女友劉穎迅涮,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體徽龟,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡叮姑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了据悔。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片传透。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖极颓,靈堂內(nèi)的尸體忽然破棺而出朱盐,到底是詐尸還是另有隱情,我是刑警寧澤菠隆,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布兵琳,位于F島的核電站,受9級特大地震影響骇径,放射性物質(zhì)發(fā)生泄漏躯肌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一破衔、第九天 我趴在偏房一處隱蔽的房頂上張望清女。 院中可真熱鬧,春花似錦运敢、人聲如沸校仑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽迄沫。三九已至,卻和暖如春卦方,著一層夾襖步出監(jiān)牢的瞬間羊瘩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工盼砍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留尘吗,地道東北人。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓浇坐,卻偏偏與公主長得像睬捶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子近刘,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360