論文標(biāo)題:Bidirectional Recurrent Convolutional Neural Network for Relation Classification
來源:ACL 2016
問題:基于深度學(xué)習(xí)的關(guān)系抽取
主要方法
? ? 本文提出了一個(gè)基于最短依賴路徑(SDP)的深度學(xué)習(xí)關(guān)系分類模型,文中稱為雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)模型(BRCNN)吼畏,結(jié)構(gòu)如下圖窜醉。
文中提出雙向模型疗认,和以往的論文一樣,考慮到了實(shí)體之間關(guān)系的方向性打肝,如下圖2 SDP反向延旧,將原來(K + 1)個(gè)realtion 類擴(kuò)充到(2K + 1)個(gè)類(other 不考慮方向性),BRCNN分為兩個(gè)RCNN哨啃,一個(gè)前向(SDP為輸入),一個(gè)后向(反向的SDP為輸入)写妥。
在每個(gè)RCNN中拳球,將SDP中的words和 words之間的dependency relation 分別用embeddings表示,并且將SDP中的words之間的dependency relation 和words分開到兩個(gè)獨(dú)立channel的LSTM珍特,使它們?cè)谶f歸傳播的時(shí)候不互相干擾醇坝。在convolution層把相鄰詞對(duì)應(yīng)的LSTM輸出和它們的dependency relation的LSTM輸出連結(jié)起來作為convolution層的輸入,在convolution層后接max pooling次坡。在pooling層后接softmax分類呼猪,共有三個(gè)softmax分類器,兩個(gè)RCNN的pooling分別接一個(gè)softmax做考慮方向的(2K + 1)個(gè)關(guān)系分類砸琅,兩個(gè)RCNN的pooling連到一個(gè)softmax做不考慮方向的(K + 1)個(gè)關(guān)系分類宋距。損失函數(shù)為三個(gè)softmax的cross-entropy 加上正則項(xiàng):
word embeddings 使用 word2vec 在 Gigaword 訓(xùn)練得到的200維的詞向量初始化, dependency relation embeddings 使用50維的隨機(jī)數(shù)初始化症脂,同一 dependency relation不同方向采用不同的 embeddings.
實(shí)驗(yàn)數(shù)據(jù)
基于經(jīng)典數(shù)據(jù)集SemEval-2010 Task8,取得了86.3的F1-score谚赎,下面是數(shù)據(jù)對(duì)比。
相關(guān)工作
基于深度學(xué)習(xí)的關(guān)系抽取這篇文章對(duì)關(guān)系抽取的監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)相關(guān)工作做了比較詳細(xì)的介紹诱篷。
傳統(tǒng)的有監(jiān)督的關(guān)系抽取系統(tǒng)需要大量的人工標(biāo)注的訓(xùn)練數(shù)據(jù)壶唤,從練數(shù)據(jù)中自動(dòng)學(xué)習(xí)關(guān)系對(duì)應(yīng)的抽取模式。有監(jiān)督關(guān)系抽取方法主要包括:基于核函數(shù)的方法[Zhao and Grishman 2005; Bunescu and Mooney 2006]棕所,基于邏輯回歸的方法[Kambhatla 2004]闸盔,基于句法解析增強(qiáng)的方法[Milleret al. 2000]和基于條件隨機(jī)場(chǎng)的方法[Culotta et al. 2006]。針對(duì)人工標(biāo)注訓(xùn)練數(shù)據(jù)需要花費(fèi)大量的時(shí)間和精力這個(gè)缺陷琳省,Mintz等人[Mintz et al. 2009]提出了遠(yuǎn)程監(jiān)督(Distant Supervision)的思想迎吵。作者們將紐約時(shí)報(bào)新聞文本與大規(guī)模知識(shí)圖譜Freebase(包含7300多個(gè)關(guān)系和超過9億的實(shí)體)進(jìn)行實(shí)體對(duì)齊。遠(yuǎn)程監(jiān)督假設(shè)针贬,一個(gè)同時(shí)包含兩個(gè)實(shí)體的句子蘊(yùn)含了該實(shí)體對(duì)在Freebase中的關(guān)系击费,并將該句子作為該實(shí)體對(duì)所對(duì)應(yīng)關(guān)系的訓(xùn)練正例。作者在遠(yuǎn)程監(jiān)督標(biāo)注的數(shù)據(jù)上提取文本特征并訓(xùn)練關(guān)系分類模型桦他,有效解決了關(guān)系抽取的標(biāo)注數(shù)據(jù)規(guī)模問題蔫巩。
傳統(tǒng)的有監(jiān)督的關(guān)系抽取嚴(yán)重依賴詞性標(biāo)注、句法解析等自然語(yǔ)言處理標(biāo)注提供分類特征快压,但是這些特征往往存在大量的錯(cuò)誤圆仔,在之后的訓(xùn)練過程中,這些錯(cuò)誤會(huì)影響關(guān)系抽取的結(jié)果嗓节。
很多研究人員開始考慮將深度學(xué)習(xí)運(yùn)用到關(guān)系抽取中荧缘,[Socher et al. 2012]提出使用遞歸神經(jīng)網(wǎng)絡(luò)來解決關(guān)系抽取問題,主要使用句子的句法信息拦宣,實(shí)體的位置和語(yǔ)義信息截粗,結(jié)合詞向量,通過遞歸神經(jīng)網(wǎng)絡(luò)來得到句子的向量表示鸵隧,再用于關(guān)系分類绸罗。[Zeng et al. 2014]提出采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取。他們采用詞匯向量和詞的位置向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入豆瘫,通過卷積層珊蟀、池化層和非線性層得到句子表示。[Santos et al. 2015]還提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,其中采用了一種新的ranking損失函數(shù)育灸。[Miwa et al. 2016]提出了一種基于端到端神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型腻窒。該模型使用雙向LSTM(Long-Short Term Memory,長(zhǎng)短時(shí)記憶模型)和樹形LSTM同時(shí)對(duì)實(shí)體和句子進(jìn)行建模磅崭。[Lin et al. 2016]提出了一種基于句子級(jí)別注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型來解決這個(gè)問題儿子,該方法能夠根據(jù)特定關(guān)系為實(shí)體對(duì)的每個(gè)句子分配權(quán)重。
簡(jiǎn)評(píng)
正如論文中提到砸喻,論文主要有兩個(gè)新穎點(diǎn):第一柔逼,使用兩個(gè)channel LSTM分別encode SDP的words 信息和dependency relation信息,使用convolution layer將兩部分連接起來割岛,使用LSTM學(xué)習(xí)SDP的全局信息愉适,使用convolution layer提取word之間的局部信息。結(jié)合了[Yan Xu et al. 2015]的多通道LSTM的特點(diǎn)和[Zeng et al. 2014]的卷積關(guān)系抽取的特點(diǎn)癣漆。 第二维咸,提出了雙向結(jié)構(gòu)同時(shí)分別學(xué)習(xí)SDP的前向和后向的句子表示信息,增強(qiáng)了對(duì)實(shí)體關(guān)系方向分類的能力扑媚。
將深度學(xué)習(xí)運(yùn)用到關(guān)系抽取中取得了很好的效果腰湾,但是最近幾年的論文模型的創(chuàng)新點(diǎn)不多,大多是之前的論文模型的結(jié)合和改進(jìn)疆股。大多基于句法樹的樹形LSTM或CNN模型或兩者結(jié)合费坊,將多種信息用于不同的通道。個(gè)人感覺這樣的方式來提升效果將越來越難旬痹,沿著這個(gè)方向的提升空間越來越小附井。目前關(guān)系抽取的深度學(xué)習(xí)模型都依然依賴于句法樹分析,句法樹存在較多錯(cuò)誤两残。有研究表明永毅,如果對(duì)于一個(gè)句子考慮其最可能的多個(gè)句法分析樹,分析結(jié)果準(zhǔn)確率可以得到較大提升人弓。將句子的多個(gè)可能句法樹信息結(jié)合起來用于關(guān)系抽取將是一個(gè)重要的研究方向沼死。
參考文獻(xiàn)
Zhao, Shubin, and RalphGrishman. Extracting relations with integrated information using kernel methods. In Proceedings of ACL, 2005.
Mooney, Raymond J., and Razvan C. Bunescu. Subsequence kernels for relation extraction. In Proceedings ofNIPS, 2005.
Kambhatla, Nanda. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations. ?In Proceedings of ACL, 2004.
Culotta, Aron, Andrew McCallum,and Jonathan Betz. ?Integrating probabilistic extraction models and datamining to discover relations and patterns in text. ?In Proceedings of HLT-NAACL,2006.
Mintz, Mike, Steven Bills, RionSnow, and Dan Jurafsky. ?Distant supervision for relation extraction without labeled data. In Proceedings of ACL-IJCNLP, 2009.
Socher, Richard, et al. Semantic compositionality through recursive matrix-vectorspaces. Proceedings of EMNLP-CoNLL, 2012.
Santos Cicero Nogueira dos, Xiang Bing, Zhou Bowen. Classifying Relations by Ranking with Convolutional Neural Networks. In Proceedings of ACL,2015.
Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao.Relation classification via con- volutional deep neural network. COLING,2014.