論文題目:Position-aware Attention and Supervised Data Improve Slot Filling
發(fā)表作者:Yuhao Zhang, Victor Zhong, Danqi Chen, Gabor Angeli, Christopher D. Manning
出版源:Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 35–45
Abstract
從文檔中自動提取知識構(gòu)建知識圖譜發(fā)展很慢。作者做了兩方面的工作:
- 提出了一個新的模型,結(jié)合了LSTM和實體位置感知的注意力機制躬窜;
- 同時,構(gòu)建了一個包含了TAC KBP評測中常見關(guān)系的監(jiān)督訓(xùn)練數(shù)據(jù)集——TAC關(guān)系抽取數(shù)據(jù)集(TACRED)氯材。
1. Introduction
從一段文本中提取知識,從而構(gòu)建實體關(guān)系的知識圖譜硝岗。這個任務(wù)包含實體識別氢哮、指代關(guān)聯(lián)、實體連接型檀。作者關(guān)注的是最具挑戰(zhàn)的"Slot filling"任務(wù)冗尤,即填充文本中實體之間的關(guān)系。
相似工作有:
- Zelenko et al., 2003 Kernel Methods for Relation Extraction
- Mintz et al., 2009 Distant supervision for relation extrac- tion without labeled data
- Adel et al., 2016 Comparing convolutional neural networks to traditional models for slot filling.
但他們的工作并沒有達到足夠的召回率和精確度胀溺。
同時裂七,有標簽的訓(xùn)練數(shù)據(jù)是很稀缺的,遠程監(jiān)督技術(shù)可以擴充訓(xùn)練數(shù)據(jù)仓坞,但它容易產(chǎn)生噪聲數(shù)據(jù)背零。
作者分析沒有可靠的方法的原因:
(1)過往使用的模型并不能很好適用于信息提取任務(wù);
(2)缺少訓(xùn)練數(shù)據(jù)扯躺,尤其是深度學(xué)習(xí)這樣需要足夠多樣本的模型
針對上述兩個問題捉兴,作者做了兩方面工作:
提出了一個新的,用于關(guān)系分類的神經(jīng)網(wǎng)絡(luò)序列模型录语。它的結(jié)構(gòu)更適應(yīng)槽位填充任務(wù):因為詞的分布式表示考慮了詞的位置關(guān)系。
另外 禾乘,用眾包的方式澎埠,生成了大量的標注數(shù)據(jù),作者將這個數(shù)據(jù)集命名為TAC Relation Extraction Dataset (TACRED)
2. 關(guān)系提取的位置感知神經(jīng)序列模型
已經(jīng)有人用CNNs或RNNs或它們的組合方式去做知識提取任務(wù)始藕,但這些模型對于長句子(真實文本中長句子是很常見的)的泛化能力較弱蒲稳。
作者分析現(xiàn)有模型遭遇的問題:
(1)盡管現(xiàn)在的序列模型氮趋,比如LSTM等采用門控機制(gating mechanisms)通過控制個體單詞之間的相互影響最終對句子的表示產(chǎn)生影響,但這種控制無法作用到整個句子江耀;
(2)這些模型沒有顯式對實體位置進行建模剩胁,或只建模了局部區(qū)域的位置信息。
本文作者在LSTM模型的基礎(chǔ)上引入了位置注意力機制祥国,從而可以:
(1)模型看完整個語句后評估各個詞之間的相互貢獻昵观;
(2)這種評估不僅考慮了序列的語義,還對實體的全局位置信息加以考慮舌稀。
下面對作者的模型進行說明:
-
表示語句啊犬,
表示第
個token
-
主實體(subject entity)
-
從實體(object entity)
-
相對主實體
的位置序列,定義為:
,
分別表示實體的首尾位置索引壁查。
-
相對從實體
的位置序列
-
句子的詞向量表示觉至,通過詞嵌入句子
獲取
-
位置嵌入向量,通過位置嵌入矩陣
獲取
訓(xùn)練的任務(wù)是:給定一個語句和實體位置
和
睡腿,要預(yù)測實體之間的關(guān)系
语御,
要么屬于
(
實體間關(guān)系的集合),要么實體間不存在任何關(guān)系席怪。
模型結(jié)構(gòu)如下圖所示:
定義 表示整個語句的信息 沃暗,基于每個隱狀態(tài)
,計算其attention:
其中:
-
—— 隱藏層單元維度
-
—— 位置嵌入向量維度
-
—— Attention層單元維度
-
—— 詞嵌入矩陣何恶,
表示字典
-
—— 位置嵌入矩陣孽锥,
最大句長
注意力可以看做是特定單詞對句向量的貢獻,最終句向量可表示為:
得到后细层,將
喂給一個全連接層惜辑,并接上Softmax層預(yù)測關(guān)系分類。
對比Bahdanau et al. (2015)和Zhou et al. (2016) 提出的注意力模型疫赎,作者認為自己模型與他們模型的最大區(qū)別是:在計算注意力權(quán)值時用到了概要向量和位置嵌入
盛撑。
對模型的理解:
對注意力
的計算可以看做是從文本中挑選相關(guān)內(nèi)容而摒棄無關(guān)內(nèi)容;
概要向量
幫助模型基于整個語句的語義信息選取相關(guān)內(nèi)容捧搞;
位置向量
抵卫,
提供了詞和實體之間的空間位置信息
3. TAC關(guān)系提取數(shù)據(jù)集
已有研究表明,監(jiān)督數(shù)據(jù)對于槽位填充(slot filling)系統(tǒng)大有裨益胎撇。但是現(xiàn)有的關(guān)系提取數(shù)據(jù)集介粘,比如SemEval-2010 Task 8 dataset 以及Automatic Content Extraction (ACE) 對這樣的任務(wù)卻幫助不大,作者分析原因如下:
(1)這些數(shù)據(jù)集相對較小晚树,表2給出了對比姻采;
(2)它們捕捉的關(guān)系與我們的需求不太一致。
一種可以方便獲取大量訓(xùn)練數(shù)據(jù)集的方法是使用遠程監(jiān)督自動構(gòu)建訓(xùn)練數(shù)據(jù)集爵憎。但是在實際使用中慨亲,遠程監(jiān)督會產(chǎn)生大量噪聲數(shù)據(jù)婚瓜。為了解決上述問題,作者收集了一個大型數(shù)據(jù)集刑棵,取名為TACRED(TAC Relation Extraction Dataset
- 數(shù)據(jù)收集
作者用到了2009~2015年間TAC KBP評測任務(wù)的查詢實體(年均100個實體名巴刻,包含人名和組織機構(gòu)名)以及系統(tǒng)的輸出實體及它們之間的關(guān)系。同時蛉签,作者利用Mechanical Turk讓眾包人員對語料庫中的實體及關(guān)系進行標注胡陪。
- 數(shù)據(jù)子集劃分
作者共采集到119474個樣本,作者根據(jù)年限劃分為訓(xùn)練集正蛙、開發(fā)集和測試集督弓,詳細統(tǒng)計見下表:
- 探討
下表是從TACRED數(shù)據(jù)集采樣的幾個樣本:
作者總結(jié)了TACRED的4點優(yōu)勢:
- 從表2可以看到,TACRED數(shù)據(jù)集包含的關(guān)系實例相較另外兩個數(shù)據(jù)集乒验,多了一個數(shù)量級愚隧;
- 用到了TAC KBP任務(wù)的實體和關(guān)系類型,作者任務(wù)這樣的實體關(guān)系類型對于下游應(yīng)用是有幫助的锻全;
- 我們對所有負樣本進行了標注狂塘,因此基于TACRED數(shù)據(jù)訓(xùn)練的模型,在預(yù)測真實文本時不會偏向預(yù)測為假陽性鳄厌;
- TACRED數(shù)據(jù)集中語句的平均長度是36.2荞胡,相較SemEval數(shù)據(jù)集的19.1,TACRED數(shù)據(jù)集更能體現(xiàn)真實文本中實體間的復(fù)雜關(guān)系了嚎。
4. 實驗
為了驗證作者提出的模型以及數(shù)據(jù)集TACRED泪漂,作者分別做了兩組實驗:
(1)用TACRED評估模型在信息提取任務(wù)上的表現(xiàn);
(2)對基于TACRED訓(xùn)練的模型歪泳,評估其在TAC KBP 2015 cold start slot filling任務(wù)上的表現(xiàn)萝勤。
4.1 基線模型
-
TAC KBP 2015年度獲勝系統(tǒng)
該系統(tǒng)的核心包含兩個關(guān)系提取器:一個基于模式的提取器和一個邏輯回歸分類器。
-
CNNs
Nguyen and Grishman (2015)構(gòu)建了一個一維CNN網(wǎng)絡(luò)用于關(guān)系提取呐伞。同時他們也引入了位置嵌入(position embedding)敌卓,作者把他們這種引入位置嵌入的CNN網(wǎng)絡(luò)稱為“CNN-PE”.
-
最短依存路徑RNN
Xu et al. (2015b)提出了一個叫“SDP-LSTM”的模型,它將主實體(subject entity)和從實體(object entity)到最低共同祖節(jié)點的路徑分別喂給LSTM網(wǎng)絡(luò)伶氢,讓后經(jīng)過最大池化層后拼接在一起構(gòu)成最終表示趟径。
同時,作者也把無位置Attention的LSTM模型作為基線模型癣防。
4.2 實現(xiàn)細節(jié)
- 訓(xùn)練集中出現(xiàn)頻數(shù)小于2的單詞設(shè)為特殊標記
;
- 用了GloVe詞嵌入蜗巧;
- 用的是兩層的LSTMs,作者對比發(fā)現(xiàn)要比一層LSTMs效果更好劣砍;
- 用交叉熵作為損失函數(shù)惧蛹,用AdaGrad優(yōu)化損失函數(shù);
- 對LSTMs和CNNs均施行了Dropout(rate=0.5);
- 同時對單詞也進行了Dropout刑枝,即隨機將部分單詞設(shè)置為
;
-
實體掩碼(Entity Masking)
將原始語句中的主實體替換為
香嗓,其中
對應(yīng)TACRED中的命名實體簽名。同樣地對從實體進行替換装畅。作者認為這樣做有兩點好處:
(1)可以提供實體類型信息靠娱;
(2)避免過擬合
-
多通道增強(Multi-channel augmentation )
除了將詞向量作為輸入,同時還將POS和NER Embedding作為輸入掠兄。
4.3 在TACRED數(shù)據(jù)集上的評測
作者對各個模型都進行了5次訓(xùn)練像云,在開發(fā)集上做了早停,然后進行比較:
通過比較分析蚂夕,可以發(fā)現(xiàn):
神經(jīng)網(wǎng)絡(luò)模型的
確實要比邏輯回歸和模型系統(tǒng)高迅诬;
對于純CNN模型,引入位置嵌入婿牍,
能提高
左右侈贷;
我們的模型要比所有的基線模型都要好;通過集成的方式等脂,
還能提高俏蛮;
同時,發(fā)現(xiàn)不同神經(jīng)網(wǎng)絡(luò)模型 上遥,它們的查準率和召回率有不同的側(cè)重搏屑。基于CNN的模型相對有更高的查準率粉楚,而基于RNN的模型有相對更高的召回率辣恋。則可以簡單理解為CNN的卷積核相當于是一種N-Gram模式。
4.4 在TAC KBP槽位填充任務(wù)上的測評
作者用各個模型在TAC KBP2015冷啟動槽位填充任務(wù)上進行了測試模软。
該任務(wù)是給定一個查詢實體伟骨,第一步根據(jù)給定關(guān)系找出查詢實體對應(yīng)的從實體,稱為hop-0 slot撵摆;第二步底靠,將第一步的輸出作為查詢實體,然后找到對應(yīng)的從實體特铝,稱為hop-1 slot.
對信息提取系統(tǒng)的槽位填充任務(wù)的評測面臨兩個挑戰(zhàn):
- 系統(tǒng)得分綜合了系統(tǒng)各個模塊的表現(xiàn)(比如:實體識別 暑中、實體連接和關(guān)系提取)鲫剿;
- hop-0 slot的錯誤會傳導(dǎo)到hop-1 slot.
為了公平評測關(guān)系提取模塊鳄逾,作者用斯坦福的參賽系統(tǒng)作為基礎(chǔ)pipeline,然后在它的基礎(chǔ)上加上關(guān)系抽取模塊灵莲,保持其他模塊不變雕凹。
評測結(jié)果見下表:
對結(jié)果分析可得:
(1)在TACRED上訓(xùn)練的LR模型結(jié)合模式,要比斯坦福參賽系統(tǒng)高,但hop-all
得分要低些枚抵;
(2)作者提出的位置感知注意力模型在Hop-0 slot线欲、Hop-1 slot以及Hop-all slot上的得分都要比當時最優(yōu)系統(tǒng)的得分要高;如果與模式相結(jié)合汽摹,效果更好李丰!
4.5 分析
1. Model ablation
下表展示了模型在TACRED數(shù)據(jù)集上的分解測試結(jié)果,結(jié)果表明Attention機制貢獻了1.5%的提升逼泣。
2. 負樣本的影響
作者探討了負樣本數(shù)量對模型的影響趴泌,實驗結(jié)果見下圖:
通過曲線走勢可以看出:
(1)對于hop-0,隨著負樣本的增加拉庶,準確率不斷上升嗜憔,但召回率變化不大,也上升氏仗;
(2)對于hop-all吉捶,負樣本的數(shù)量從20%升到100%,提升了約10%廓鞠。
3. 句長影響
下圖展示了句長對模型的影響:
(1)隨著句子變長帚稠,所有模型的效果都會下降;
(2)相比LR模型床佳,所有的神經(jīng)網(wǎng)絡(luò)模型對于長句子表現(xiàn)更好滋早;
(3)相比CNN-PE模型,基于RNN的模型對于長句子更具魯棒性砌们,同時SDP-LSTM模型對句長不那么敏感杆麸;
(4)作者提出的模型,除了超過60個單詞長的語句浪感,表現(xiàn)都很好昔头。
4. 注意力可視化
下圖是注意力的一個可視化結(jié)果。從圖中可以看到影兽,模型會對哪些對關(guān)系有指向性的詞更多的注意力揭斧。同時,模型會對哪些目標實體(Object entity)更多注意力峻堰。
5. 結(jié)論
結(jié)論本文提出了一個用于關(guān)系抽取的認知位置的神經(jīng)序列模型讹开,以及一個大規(guī)模、多來源捐名、顯著提升關(guān)系實例數(shù)的數(shù)據(jù)集——TACRED旦万。二者相結(jié)合,在冷啟動槽填充評測中可以提升約4.5%的值镶蹋。