標(biāo)簽: paper LSTM
摘要
之前的工作在相關(guān)抽取主要關(guān)注二分類相關(guān)性在一個句子中锤灿。最近NLP進(jìn)展在高值域有很大興趣在更多一般設(shè)置抽取n-ary相關(guān)性在擴(kuò)展多句子衡招。在這個paper州刽,我們探索一個一般相關(guān)抽取記憶網(wǎng)絡(luò)(graph LSTMs)可以簡單的擴(kuò)展cross-sentence n-ary關(guān)系抽取穗椅。這個graph公式提供一個統(tǒng)一方法探索不同LSTM方法并合并不同intra-sentential and inter-sentential依賴匹表,例如序列同步和論述關(guān)系。一個魯棒的內(nèi)容表示被學(xué)習(xí)到實(shí)體苇羡,作為輸入到關(guān)系分類器设江。這個簡化處理關(guān)系伴隨隨機(jī)數(shù)量,可以多重任務(wù)學(xué)習(xí)伴隨相關(guān)關(guān)系歼捏。我們評估這個框架在兩個重要的精準(zhǔn)醫(yī)學(xué)設(shè)置,表明它的效率伴隨傳統(tǒng)監(jiān)督學(xué)習(xí)和遠(yuǎn)方監(jiān)督。Cross-sentence抽取產(chǎn)生更大知識基礎(chǔ)和多任務(wù)學(xué)習(xí)重大的改進(jìn)抽取準(zhǔn)確率安聘。一個徹底分析各種LSTM方法產(chǎn)生有用洞悉語言分析在抽取準(zhǔn)確率的影響。
1 介紹
相關(guān)抽取已有很大步在新聞專線和網(wǎng)絡(luò)領(lǐng)域念颈。最近嗡靡,有增進(jìn)的興趣在應(yīng)用相關(guān)抽取在高值領(lǐng)域例如生物醫(yī)學(xué)讨彼。價值1000美元的人類基因發(fā)布精準(zhǔn)醫(yī)學(xué)的黎明的出現(xiàn),但是個性化癌癥治療的進(jìn)展已經(jīng)妨礙通過繁雜任務(wù)在解釋基因數(shù)據(jù)用在先知知識蜜自。例如,給出一個瘤序列珠漂,一個分子腫瘤模板需要決定哪個基因和轉(zhuǎn)換是重要的荞彼,什么藥是可用的在治療它們暮蹂。已經(jīng)這個研究文學(xué)有一個富有的相關(guān)知識仰泻,并生長在一個極大的速率集侯。PubMed浓体,在線生物醫(yī)學(xué)文章信息庫辈讶,加上兩個新paper每分鐘命浴,或者一百萬每年。因此迫切的去增進(jìn)相關(guān)抽取對于機(jī)器閱讀。
在大量文學(xué)在相關(guān)抽取生闲,之前的工作關(guān)注于只要在二元相關(guān)在一個句子媳溺,限制信息可用性」蚋梗考慮下列例子:“The deletion mutation on exon-19 of EGFR gene was present in 16 patients, while the L858E point mutation on exon-21 was noted in 10. All patients were treated with gefitinib and showed a partial response.”。集體的,這兩個句子傳達(dá)了這里有三元交互在三個實(shí)體用黑體,不是在每個句子單獨(dú)表達(dá)的鳄虱。也就是倍踪,腫瘤伴隨L858E變異在EGFR基因中可以被gefitinib治療。抽取這些知識顯然需要轉(zhuǎn)移超過二元關(guān)系和單個句子秉宿。
N-ary關(guān)系和cross-sentence抽取收到了相當(dāng)小的關(guān)注在之前。之前的工作在n-ary關(guān)系抽取關(guān)注在單個句子或者實(shí)體中心的貢獻(xiàn)可被抽取大量依賴的撵彻。先前的工作在cross-sentence抽取經(jīng)常使用coreference去獲得參數(shù)在不同句子不帶真實(shí)模型inter-sentence關(guān)系模式。一個值得注意的是應(yīng)用遠(yuǎn)方監(jiān)督到cross-sentence關(guān)系抽取,但是限制到二元關(guān)系澜建。
在這個paper咽筋,我們探索一個一般框架對于交叉句子n元關(guān)系抽取部翘,基于graphLSTMs邀窃。通過采用graph公式掏父,我們的框架歸入先前方法基于鏈或樹LSTMs,可以合作一個重組的語言分析集去幫助關(guān)系抽取。關(guān)系分類輸入實(shí)體表示學(xué)習(xí)于整個文本,可以簡單的擴(kuò)展用于隨機(jī)關(guān)系數(shù)量n嫁蛇。這個方法還促進(jìn)加入學(xué)習(xí)伴隨相似關(guān)系其中監(jiān)督信號更充足。
我們執(zhí)行擴(kuò)展實(shí)驗(yàn)在兩個重要領(lǐng)域在精準(zhǔn)醫(yī)學(xué)揽趾。同時在弱監(jiān)督和監(jiān)督學(xué)習(xí)設(shè)置粱挡,graph LSTMs編碼富語言知識好于其他神經(jīng)網(wǎng)絡(luò)變量勇蝙,也是一個設(shè)計(jì)好的基于特征的分類器。多任務(wù)學(xué)習(xí)伴隨副關(guān)系導(dǎo)向更遠(yuǎn)改進(jìn)未蝌。句法分析授予一個重大的利益到graph LSTMs的表現(xiàn)癌别,特別是當(dāng)句法準(zhǔn)確性很高時板鬓。
在分子腫瘤版領(lǐng)域,PubMedscale抽取使用弱監(jiān)督從一個小的已知的交互產(chǎn)生的巨大更多知識序列集奏寨,和cross-sentence抽取三倍這個結(jié)果對比到單個句子抽取。人工評估證實(shí)準(zhǔn)確性是高的盡管缺乏樣例標(biāo)注。
2 交叉句子n元關(guān)系抽取
使$e_1,···,e_m$是實(shí)體標(biāo)記在文本$T$闰围。關(guān)系抽取可以構(gòu)想為分類問題決定是否一個關(guān)系$R$持有$e_1,···,e_m$在$T$肤视。例如,給出一個腫瘤病人伴隨變異$v$在基因$g$,一個分子腫瘤板發(fā)現(xiàn)是否這個種類的腫瘤可以對藥$d$反映酗宋。文學(xué)伴隨這種知識已經(jīng)增長迅速业筏;我們可以幫助腫瘤板通過檢查是否反映關(guān)系持有$(d,g,v)$三元。
傳統(tǒng)關(guān)系抽取方法關(guān)注二元關(guān)系其中所有試題出現(xiàn)在相同句子(也就是$m=2$且$T$是一個句子)蒜胖,且不可以解決上述的 三元關(guān)系消别。更多的抛蚤,正如我們關(guān)注的更復(fù)雜的關(guān)系和n增長,它變得漸漸稀有在關(guān)系實(shí)體將會被包括整個的在一個句子中寻狂。在這篇paper岁经,我們一般化抽取到交叉句子,n元關(guān)系蛇券,其中$m>2$且$T$可以包括多重句子缀壤。正如將被展示在我們的實(shí)驗(yàn)部分,n元關(guān)系是關(guān)鍵的對于高價值領(lǐng)域例如生物醫(yī)學(xué)纠亚,和擴(kuò)展于句子便捷使得抽取更多知識塘慕。
在二元關(guān)系設(shè)置的標(biāo)準(zhǔn),主導(dǎo)方法是一般定義依據(jù)最短依賴路徑在兩個問題實(shí)體之間蒂胞,要么通過源于富特征來自路徑或者通過建模它使用深度神經(jīng)網(wǎng)絡(luò)苍糠。
更多的,詞匯和句法模式放大關(guān)系將會匱乏啤誊。解決匱乏性,傳統(tǒng)基于特征的方法需要擴(kuò)展工程和大量數(shù)據(jù)拥娄。不幸的是蚊锹,這個挑戰(zhàn)變得更嚴(yán)重在交叉句子抽取當(dāng)文本跨越多重句子。
為了克服這個挑戰(zhàn)稚瘾,我們探索一個一般關(guān)系抽取框架基于graph LSTMs牡昆。通過學(xué)習(xí)一個連續(xù)表示用于詞和實(shí)體,LSTMs可以解決虧發(fā)行有效的不帶需求強(qiáng)烈的特征工程摊欠。這個graph構(gòu)想歸入先驗(yàn)LSTM方法基于鏈或樹丢烘,可以合并富語言分析。
這個方法還可以有機(jī)會共同學(xué)習(xí)伴隨相關(guān)關(guān)系些椒。例如播瞳,Response關(guān)系基于$d,g,v$還暗示一個二元副關(guān)系在藥$d$和變異$v$,伴隨基因指定免糕。甚至伴隨弱監(jiān)督赢乓,監(jiān)督信號對于n元關(guān)系將會很可能更稀少相比它們的二元副關(guān)系。我們的方法使得它非常容易的使用多任務(wù)學(xué)習(xí)對于n原關(guān)系和它們的副關(guān)系石窑。
3 Graph LSTMs
學(xué)習(xí)一個連續(xù)表示可以有效的解決詞匯和句法稀少牌芋。對于序列數(shù)據(jù)例如文本,循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs是相當(dāng)流行松逊。它們類似隱藏馬爾科夫模型HMMs躺屁,除了分離隱藏狀態(tài)被替代為連續(xù)向量,排放物和轉(zhuǎn)換概率伴隨神經(jīng)網(wǎng)絡(luò)经宏。常規(guī)RNNs伴隨sigmoid單元經(jīng)歷梯度擴(kuò)散或者爆炸犀暑,使得訓(xùn)練非常難驯击。LSTMs對付這些問題通過使用一系列門去避免放大或者阻止梯度在反向傳播時。因此母怜,LSTMs更有效在捕獲長距離依賴余耽,且已經(jīng)被采用到這種NLP任務(wù)。然而苹熏,大多方法是基于線性鏈且僅僅明確的模型這個線性文本碟贾,從而忽略一些列語言分析,例如語義和辯論依賴轨域。
在這個部分袱耽,我們提出一個一般框架一般貨LSTMs到graph。同時這里有一些先驗(yàn)工作在學(xué)習(xí)樹LSTMs干发,to the best of our knowledge朱巨,graph LSTMs還沒有被用到任何NLP任務(wù)。Figure 2顯示了這個方法的結(jié)構(gòu)枉长。輸入層是輸入文本的詞embedding冀续。下一個graph LSTM學(xué)習(xí)一個上下文表示對于每個詞。對于問題中的實(shí)體必峰,它們的上下文表示是聯(lián)結(jié)的且變得輸入到關(guān)系分類器洪唐。對于一個多詞實(shí)體,我們簡單使用它的詞表示的平均并使得探索更多復(fù)雜的聚集方法作為未來工作吼蚁。這個層被訓(xùn)練共同的伴隨反向傳播凭需。這個框架是不可知論的分類器的選擇。共同的設(shè)計(jì)分類器伴隨graph LSTMs將會利于將來工作肝匆。
在graph LSTM的核實(shí)一個文檔graph捕獲各種依賴在輸入詞中間粒蜈。通過選擇依賴去包括這個文檔graph,graph LSTMs自然地歸入線性鏈或樹LSTMs旗国。
對比傳統(tǒng)LSTMs枯怖,graph變異呈現(xiàn)新的挑戰(zhàn)。由于潛在循環(huán)在graph中粗仓,一個簡單的反向傳播設(shè)置可能需要許多迭代去達(dá)到固定點(diǎn)嫁怀。更多的,在潛在的大量邊緣種類(鄰近詞借浊,句法依賴等等)的數(shù)量的呈現(xiàn)塘淑,參數(shù)化變成一個關(guān)鍵問題。
在這個部分的剩余蚂斤,我們首先介紹文檔graph且展示如何執(zhí)行反向傳播在graph LSTMs存捺。我們之后討論兩個策略用于參數(shù)化循環(huán)單元。最后,我們展示如何執(zhí)行多任務(wù)學(xué)習(xí)伴隨這個框架捌治。
3.1 文檔graph
去建模各種依賴從語言分析在我們的處理中岗钩,我們跟隨Quirk and Poon (2017)且介紹一個文檔graph去捕獲intra- and inter-sentential依賴。一個文檔graph包括節(jié)點(diǎn)辨識詞和邊表示各種依賴?yán)缇€性上下文(鄰近詞)肖油,句法依賴兼吓,和語篇關(guān)系。Figure 1顯示文檔graph對于我們的訓(xùn)練樣例森枪,這個實(shí)例顯示腫瘤伴隨L858E變異在EGFR基因反應(yīng)到這個藥gefitinib视搏。
這個文檔graph表現(xiàn)為基于graph LSTM的支柱被構(gòu)造。如果它包含僅僅邊在鄰近詞之間县袱,我們恢復(fù)線性鏈LSTMs浑娜。簡單的,其他先驗(yàn)LSTM方法可以捕獲在這個框架通過約束邊對那些最短依賴路徑或者句法分析樹式散。
3.2 反向傳播在graph LSTMs
常規(guī)LSTMs本質(zhì)上是深度前向神經(jīng)網(wǎng)絡(luò)筋遭。例如,一個左到右線性LSTM有一個隱藏向量對每個詞暴拄。這個向量通過神經(jīng)網(wǎng)絡(luò)(循環(huán)單元)產(chǎn)生漓滔,詞的embedding和之前詞的隱藏向量作為輸入。在判別學(xué)習(xí)中乖篷,這些隱藏向量作為輸入對于最后分類器次和,從梯度是反向傳播通過整個網(wǎng)絡(luò)。
歸納這個策略到graph伴隨循環(huán)特別是需要展開再現(xiàn)對于一個步驟的數(shù)字那伐。本質(zhì)上,graph的復(fù)制被創(chuàng)造對于每步作為文本的輸入石蔗。這個結(jié)果是feed-forward神經(jīng)網(wǎng)絡(luò)通過時間罕邀,且反向傳播被執(zhí)行依據(jù)的。
原則上养距,我們可以采用同樣的策略诉探。有效的,梯度是反向傳播在相似于loopy belief propagation (LBP)方法棍厌。然而肾胯,這使得學(xué)習(xí)更昂貴由于每個更新步驟需要多重迭代反向傳播。更多的耘纱,loopy backpropagation面臨LBP中同樣問題敬肚,例如擺動或者不能相聚。
我們觀測到依賴?yán)缁⒑驼Z篇關(guān)系一般是稀有的束析,所以文檔graph的脊柱包括線性鏈和句法依賴樹艳馒。例如belief propagation,如此結(jié)構(gòu)可以更多有效的杠桿去反向傳播通過替換同步更新,正如在展開的策略中弄慰,伴隨同步更新第美,作為線性鏈LSTMs。這打開了許多機(jī)會對于各種策略對于排序反向傳播更新陆爽。
在這個paper什往,我們采用相似策略呈現(xiàn)相當(dāng)好的在初步試驗(yàn),留下更多探索在之后的工作慌闭。特別的别威,我們分割這個文檔graph到兩個directed acyclic graphs (DAGs)。一個DAG包括從左到右線性鏈贡必,同時其他前向指針依賴兔港。另一個DAG覆蓋從右到左線性鏈且反向指針依賴。Figure 3展示這個策略仔拟。有效的衫樊,我們分離原始graph到前向(從左到右),隨著通過反向(從右到左)利花,構(gòu)造LSTMs依據(jù)的科侈。當(dāng)文檔graph僅僅包括線性鏈邊,graph LSTMs確切的是一個雙向LSTMs炒事。
3.3 基本循環(huán)傳播單元
一個標(biāo)準(zhǔn)LSTM單元包括輸入向量(詞embedding)臀栈,一個記憶單元和一個輸出向量(文本表示),以及一些門挠乳。這個輸入門和輸出門控制信息流入和流出cell权薯,然而遺忘門可以選擇的除去信息來自循環(huán)鏈接前一個單元。
在線性鏈LSTMs睡扬,每個單元包括僅僅一個遺忘門盟蚣,它僅僅一個前向(鄰近詞邊指向之前的詞)。在graph LSTMs卖怜,然而屎开,一個單元可能有幾個前向,包括鏈接同樣的詞通過不同邊马靠。我們因此介紹一個遺忘門對每個前例奄抽,相似的方法用于樹LSTMs。
編碼富語言分析介紹許多明顯邊類別除了詞鄰近甩鳄,例如句法依賴逞度,打開許多可能對于參數(shù)化。這不是之前被認(rèn)為的syntax-aware LSTM方法妙啃。在這個paper第晰,我們探索兩個計(jì)劃介紹了更多fined-grained參數(shù)基于邊類別。
全參數(shù)
我們的第一個提議簡單的介紹一個不同的參數(shù)集對于每個邊類別,伴隨特別的計(jì)算如下茁瘦。
正如標(biāo)準(zhǔn)鏈LSTMs品抽,$x_t$是輸入詞向量對于點(diǎn)$t$,$h_t$是隱藏層狀態(tài)向量對于點(diǎn)$t$甜熔,$W$等是輸入權(quán)重矩陣圆恤,$b$等是偏執(zhí)向量。$\sigma \tanh$和$⊙$表示sigmoid函數(shù)腔稀,雙曲正切函數(shù)和Hadamard積盆昙。主要的區(qū)別在循環(huán)期間。在graph LSTMs焊虏,一個單元可能有多重前向($P(t)$)淡喜,對每個$j$有一個遺忘門$f_{tj}$,一個類別權(quán)重矩陣$U^{m(t,j)}$诵闭,其中$m(t,j)$表明類型$t,j$之間的關(guān)系炼团。輸入輸出門$(i_t,o_t)$依賴所有先驅(qū),然而遺忘門$(f_{tj})$僅僅依賴相關(guān)門的先驅(qū)疏尿。$c_t$和$\tilde{c}_t$表示中間計(jì)算結(jié)果在記憶單元瘟芝,考慮到輸入和遺忘門,將會合并輸出門產(chǎn)生隱藏表示$h_t$褥琐。
完全參數(shù)化是簡單的锌俱,但是它需要大量參數(shù)當(dāng)有許多邊種類。例如敌呈,許多句法邊類型贸宏,每個對應(yīng)Stanford依賴標(biāo)記。作為結(jié)果磕洪,我們的實(shí)驗(yàn)使用僅僅粗粒度種類:詞鄰近锚赤,句法依賴等等。接下來褐鸥,我們將會考慮更細(xì)粒度的方法通過學(xué)習(xí)邊類型embedding。
邊類別embedding
去減少參數(shù)數(shù)量且杠桿潛在相關(guān)性在細(xì)粒度邊類型之間赐稽,我們學(xué)習(xí)低緯度邊類型embedding叫榕,執(zhí)行一個先驅(qū)隱藏向量的外積和邊類型embedding去產(chǎn)生類型隱藏表示,是一個向量姊舵。新的計(jì)算如下:
其中$U$等是$l×l×d$張量($l$是隱藏向量的維度晰绎,$d$是邊類型embedding的維度),$h_j?e_j$是張量積產(chǎn)生$l×d$矩陣括丁。$×T$表示張量點(diǎn)乘積定義為$T×TA=\sum_d(T{:,:,d} \cdot A{:,d})$荞下,產(chǎn)生l維度向量。邊類型embedding$e_j$共同訓(xùn)練伴隨其他參數(shù)。
3.4 先驅(qū)LSTM方法對比
主要的優(yōu)勢對于graph公式是它的一般性和靈活性尖昏。如在部分3.1線性鏈LSTMs是一個特別的例子當(dāng)文檔graph是鄰近詞的線性鏈仰税。相似的,樹LSTM是特別的例子當(dāng)文檔graph是分析樹抽诉。
在graph LSTMs,元知識的編碼受影響來自于反向傳播策略,使得它更靈活坎穿,包括引入循環(huán)湘今。例如,Miwa和Bansal執(zhí)行共同的實(shí)體和二院關(guān)系抽取通過聚集LSTM關(guān)系抽取在其他LSTM的最上方對于實(shí)體辨識唉窃。在graph LSTMs耙饰,這兩個可以合并通過一個文檔graph組合詞近鄰鏈和依賴路徑在兩個實(shí)體之間。
文檔graph可以合并其他語言信息纹份。例如苟跪,互參和語篇分析直覺的相關(guān)于交叉句子關(guān)系抽取。盡管現(xiàn)存系統(tǒng)還沒有展示改進(jìn)交叉句子關(guān)系抽泣矮嫉,它保留一個重要的未來方向去探索合并分析削咆,特別的采用這些之后到生物醫(yī)學(xué)領(lǐng)域。
3.5 多任務(wù)學(xué)習(xí)伴隨副關(guān)系
多任務(wù)學(xué)習(xí)已經(jīng)展示有用的在馴良神經(jīng)網(wǎng)絡(luò)中蠢笋。通過學(xué)習(xí)文本實(shí)體表示拨齐,我們的框架使得它簡單的執(zhí)行多任務(wù)學(xué)習(xí)。唯一的改變是增加分別得分類器對每個相關(guān)的輔助關(guān)系昨寞。所有分類器共享相同的graph LSTMs表示學(xué)習(xí)器和詞embedding瞻惋,可以潛在的不想幫助通過池化他們的監(jiān)督信號。
在分子腫瘤板領(lǐng)域援岩,我們應(yīng)用這個范例共同的學(xué)習(xí)三元關(guān)系(藥-基因-變異)和二院副關(guān)系(藥物-變異)歼狼。實(shí)驗(yàn)結(jié)果展示這提供重大的獲得在兩個任務(wù)。
4 實(shí)驗(yàn)細(xì)節(jié)
我們實(shí)施我們的方法使用Theano library享怀。我們使用了邏輯回歸對于我們的關(guān)系分類器羽峰。超參數(shù)被設(shè)置基于初步實(shí)驗(yàn)在小的Dev數(shù)據(jù)集。訓(xùn)練被完成使用mini-batch隨機(jī)梯度下降SGD伴隨batch大小8添瓷。我們使用學(xué)習(xí)率0.02訓(xùn)練最多30次梅屉,提早結(jié)束基于Dev數(shù)據(jù)。隱藏向量維度在LSTM單元設(shè)置為150鳞贷,edge-type embedding的維度設(shè)置為3坯汤。詞embedding初始化伴隨公開的可用的100維度GloVe詞向量訓(xùn)練在6百萬詞來自維基百科和網(wǎng)絡(luò)。其他模型參數(shù)初始化隨機(jī)樣例選取均勻的在范圍$[-1,1]$搀愧。
在多任務(wù)訓(xùn)練惰聂,我們交替在所有任務(wù)疆偿,每個時間通過所有數(shù)據(jù)對于一個任務(wù),更新參數(shù)依據(jù)的搓幌。重復(fù)30詞杆故。
5 領(lǐng)域:分子腫瘤板
我們的主要實(shí)驗(yàn)關(guān)注在抽取三元交互作用在藥物,基因鼻种,變異反番,對于分子腫瘤板是重要的。一個藥物基因變異交互關(guān)系是大體的構(gòu)建為一個聯(lián)系在藥物功效和變異和給出的基因之間叉钥。這里有標(biāo)書數(shù)據(jù)集對這個問題罢缸。然而,由于這種知識的重要性投队,腫瘤學(xué)家已經(jīng)細(xì)心地宗閱讀paper中curating已知關(guān)系枫疆。如此人工方法不能趕上急速增長研究文學(xué),覆蓋是一般稀少的且沒有更新敷鸦。然而息楔,curated知識可被用在若監(jiān)督。
5.1 數(shù)據(jù)集
我們獲得生物醫(yī)學(xué)文學(xué)來自PubMed Central扒披,構(gòu)成大約一百萬全文本標(biāo)題在2015值依。注意到僅僅一部分paper包括知識關(guān)于藥物-基因-變異交互關(guān)系。抽取如此知識來自大量生物醫(yī)學(xué)paper的內(nèi)容確切的是個挑戰(zhàn)碟案。就如我們將會看到的在接下啦的部分愿险,若監(jiān)督使得我們產(chǎn)生一個相當(dāng)?shù)挠?xùn)練集來自小量的人工curated因素,學(xué)習(xí)模型可以抽取大量因素的序列价说。在將來的工作辆亏,我們將會探索合并更多因素對于若監(jiān)督和抽取來自更多全文本標(biāo)題。
我們執(zhí)行標(biāo)記化鳖目,部分語音標(biāo)記扮叨,和句法分析使用SPLAT,獲得Stanford依賴使用Stanford CoreNLP领迈。我們使用實(shí)體標(biāo)記器來自Literome'去表人藥物彻磁,基因,變異狸捅。
我們使用 Gene Drug Knowledge Database (GDKD) 和Clini- cal Interpretations of Variants In Cancer (CIVIC)用于弱監(jiān)督衷蜓。我們在這個paper中不使用基于細(xì)粒度交互類別知識。
5.2 弱監(jiān)督
在文本中辨認(rèn)了藥物薪贫,基因和變異之后,共同發(fā)生三倍伴隨已知交互被選擇為正向例子刻恭。然而瞧省,不像單個句子設(shè)置在標(biāo)準(zhǔn)托監(jiān)督扯夭,選擇候選是必須小心。由于三倍可以屬于在不同句子中鞍匾,一個不受限制的文本范圍選擇會影響引入許多顯然的錯誤例子交洗。我們因此跟隨Quirk和Poon在限制候選到那些存在在最小范圍的,也就是橡淑,我們保留一個候選僅僅如果沒有其他共同發(fā)生的同樣實(shí)體在重復(fù)文本范圍伴隨小數(shù)量連續(xù)句子构拳。更多,我們避免選擇不可能的候選其中三元分的很遠(yuǎn)在文檔中梁棠。特別的置森,我們考慮實(shí)體三元在K個連續(xù)句子中,忽略段落邊界符糊。K=1對應(yīng)基準(zhǔn)抽取在單個句子凫海。我們探索$K \le 3$,捕獲大部分候選不帶引入許多不可能的男娄。
僅僅59個分別的藥-基因-變異三元來自知識基準(zhǔn)配對到文本行贪。甚至來自如此小的獨(dú)特三元集,我們獲得3462三元關(guān)系實(shí)例可以作為正向例子模闲。對于多任務(wù)學(xué)習(xí)建瘫,我們還考慮藥-基因和藥變異副關(guān)系,產(chǎn)生137469藥-基因和3192藥-變異關(guān)系實(shí)例作為正向樣例尸折。
我們產(chǎn)生負(fù)向樣例通過隨機(jī)采樣共同發(fā)生的實(shí)體三元不帶已知交互啰脚,取決于和上面相同限制。我們采樣同樣數(shù)字作為正向樣例去獲得平衡的數(shù)據(jù)集翁授。
5.3 自動評估
對比各種模型在我們提出的框架中拣播,我們執(zhí)行five-fold cross-validation,對待正向和負(fù)向樣例從弱監(jiān)督作為金標(biāo)注收擦。為了避免訓(xùn)練測試集污染贮配,所有樣例來自一個文檔被賦予相同的fold。由于我們的數(shù)據(jù)集通過構(gòu)建平衡了塞赂,我們簡單報告平均測試準(zhǔn)確率在held-out fold泪勒。顯然,這個結(jié)果可以有噪音(也就是實(shí)體三元不被認(rèn)為一個交互可能擁有一個)宴猾,但是這個評估是自動且快速評估各種設(shè)計(jì)選擇的影響圆存。
我們評估兩個各種各樣的graph LSTMs:“Graph LSTM-FULL” 有全參數(shù)化和 “Graph LSTM-EMBED” 伴隨邊類型embedding。我們對比graph LSTMs伴隨三個強(qiáng)基準(zhǔn)系統(tǒng):一個設(shè)計(jì)好的基于特征的分類器仇哆,一個CNN沦辙,一個BiLSTM。隨著Wang等讹剔,我們使用輸入attention對于CNN和一個輸入窗口大小5油讯。Quirk和Poon僅僅抽取二院關(guān)系详民。我們擴(kuò)展到三元關(guān)系通過剝離特征到每個實(shí)體對(伴隨增加標(biāo)注去增大兩個實(shí)體類別),池化所有對的特征陌兑。
對于二元關(guān)系抽取沈跨,先驗(yàn)syntax-aware方法直接適當(dāng)?shù)摹K晕覀冞€對比當(dāng)前的樹LSTM系統(tǒng)和BiLSTM在最短依賴路徑在兩個實(shí)體之間兔综。
Table 1展示交叉句子的結(jié)果饿凛,三元關(guān)系抽取。所有神經(jīng)網(wǎng)絡(luò)基于模型表現(xiàn)好于基于特征的分類器软驰,表明它們在處理稀有語言模型不帶需要的強(qiáng)度特征工程的優(yōu)勢涧窒。所有LSTMs顯著地好于CNN在交叉句子設(shè)置,正式捕獲長距離依賴的重要性碌宴。
兩個graph LSTMs的變種執(zhí)行在每個杀狡,盡管Graph LSTM-FULL擁有一個小的優(yōu)勢,認(rèn)為更多探索參數(shù)化策略可以有用贰镣。特別的呜象,edge-type embedding可能增強(qiáng)通過預(yù)訓(xùn)練在未標(biāo)記文本伴隨句法分析。
兩個graph變種顯著的表現(xiàn)好于BiLSTMs($p < 0.05$通過McNemar's chi-square測試)碑隆,盡管區(qū)別很小恭陡。結(jié)果令人振奮。在Quirk和Poon上煤,最好的系統(tǒng)合并句法依賴且表現(xiàn)好于線性鏈變體通過一個大的margin休玩。所以為什么graph LSTMs不能獲得一個相等的顯著結(jié)果通過建模句法依賴。
一個原因是線性鏈LSTMs可以已經(jīng)捕獲一些長距離依賴可用在句法分析劫狠。BiLSTMs顯著的表現(xiàn)好于基于特征的分類器拴疤,甚至不帶獨(dú)特的句法依賴建模。結(jié)果不能完全貢獻(xiàn)到詞embedding由于LSTMs表現(xiàn)好于CNNs独泞。
另一個原因是句法分析比生物醫(yī)學(xué)領(lǐng)域少正確率呐矾。分析錯誤使困難graph LSTM學(xué)習(xí),限制潛在的獲得懦砂。在部分6蜒犯,我們展示支持的證據(jù)在金分析可用的領(lǐng)域。
我們還報告準(zhǔn)確率在單個句子的實(shí)例上荞膘,展示廣泛的相似的集的趨勢罚随。注意到單個句子和交叉句子準(zhǔn)確率不是直接對比的,由于測試集不同(一個歸納入另一個)羽资。
我們執(zhí)行同樣的實(shí)驗(yàn)在二元副關(guān)系在藥物-變異對淘菩。Table 2展示結(jié)果,相似于三元例子:Graph LSTM-FULL一貫的表現(xiàn)的最好對于單個句子和價差句子實(shí)例屠升。BiLSTMs在最短路徑顯著的表現(xiàn)差于BiLSTMs或者graph LSTMs潮改,大約差了4-5點(diǎn)的準(zhǔn)確率费奸,可以貢獻(xiàn)于低分析質(zhì)量的生物醫(yī)學(xué)領(lǐng)域。有趣的进陡,現(xiàn)存的樹LSTMs也表現(xiàn)差于graph LSTMs,盡管他們編碼本質(zhì)的同樣的語言結(jié)構(gòu)(詞鄰近和句法依賴)微服。我們貢獻(xiàn)獲得的事實(shí)Miwa和Bansal使用的分離的LSTMs對于線性鏈和依賴樹趾疚,然而graph LSTMs學(xué)習(xí)單個表示對于兩個。
去評估是否共同學(xué)習(xí)伴隨副關(guān)系可以幫助以蕴,我們執(zhí)行多任務(wù)學(xué)習(xí)使用Graph LSTM-FULL共同訓(xùn)練抽取器對三元交互關(guān)系和藥物-變異糙麦,藥物-基因從屬關(guān)系。Table 3展示了結(jié)果丛肮。多任務(wù)學(xué)習(xí)結(jié)果重大的獲得對于三元交互關(guān)系和藥物-變異交互關(guān)系赡磅。有趣的,graph LSTMs對于BiLSTMs的優(yōu)勢是減少多任務(wù)學(xué)習(xí)宝与,揭示伴隨更多監(jiān)督信號焚廊,甚至線性鏈LSTMs可以學(xué)習(xí)捕獲長范圍依賴,通過分析graph LSTMs的特征的證據(jù)习劫。注意到有許多實(shí)例對于藥物-基因交互關(guān)系相比其他咆瘟,所以我們僅僅采樣相當(dāng)大小的子集。因此诽里,我們不評估藥物-基因交互關(guān)系的表現(xiàn)袒餐,在實(shí)踐中,可以簡單學(xué)習(xí)所有可用數(shù)據(jù)谤狡,子樣例結(jié)果不可比灸眼。
我們包括互參和語篇關(guān)系在我們的文檔graph。然而墓懂,我們沒有觀察任何重大的獲得焰宣,相似的觀察在Quirk和Poon。我們留在更多的探索在之后的工作拒贱。
5.4 PubMed-Scale抽取
我們最終的任務(wù)是抽取所有知識來自可用的文本宛徊。我們因此重新訓(xùn)練我們的模型使用最好的系統(tǒng)來自自動評估(也就是Graph LSTM-FULL)在所有可用的數(shù)據(jù)。結(jié)果模型用來抽取關(guān)系來自所有PubMed Central文章逻澳。
Table 4展示候選數(shù)量和抽取的交互關(guān)系闸天。59個獨(dú)立基因-藥物-變異三元來自兩個數(shù)據(jù)集,我們學(xué)習(xí)到抽取巨大更多獨(dú)一無二交互關(guān)系順序斜做。結(jié)果還強(qiáng)調(diào)交叉句子抽取的有用性苞氮,產(chǎn)生3到5次更多關(guān)系相比單個句子抽取。
Table 5執(zhí)行相似對比在唯一的藥物瓤逼,基因笼吟,變異的數(shù)量库物。再一次,機(jī)器閱讀覆蓋更多唯一實(shí)體贷帮,特別是伴隨句子抽取戚揭。
5.5 人工評估
我們自動評估對比計(jì)算方法是有用的,但是可能不反應(yīng)真分類器精準(zhǔn)由于標(biāo)記有噪音撵枢。因此民晒,我們隨機(jī)采樣抽取關(guān)系實(shí)例并找三個知識的研究員在精準(zhǔn)醫(yī)學(xué)去評估它們的正確性。對于實(shí)例锄禽,標(biāo)注被呈現(xiàn)伴隨起源:句子伴隨藥物潜必。基因和變異被強(qiáng)調(diào)沃但。標(biāo)注著決定每個例子不管這個實(shí)例暗示給出的實(shí)體是相關(guān)的磁滚。注意到評估不試圖辨認(rèn)是否關(guān)系是真的或復(fù)制在接下來的paper;當(dāng)然宵晚,它關(guān)注在是否關(guān)系是需要的通過文本垂攘。
我們關(guān)注我們的評估成就在交叉句子三元關(guān)系設(shè)置。我們考慮三個可能threshold:0.9對于高precision但是可能的低recall設(shè)置淤刃,0.5搜贤,和隨機(jī)的所有候選的樣例。對每個例子钝凶,150樣例被選擇對于所有450個標(biāo)注仪芒。一個150實(shí)例的子集被兩個標(biāo)注者檢查,inter-annotator同意達(dá)88%耕陷。
Table 6展示分類器確實(shí)過濾掉大部分潛在候選掂名,伴隨評估實(shí)例準(zhǔn)確率64%在threshold0.5,和75%在0.9哟沫。有趣的是饺蔑,LSTMs是有效率的在篩選出許多實(shí)體提及錯誤,可能因?yàn)樗麄儼◤V泛文本特征嗜诀。
6 領(lǐng)域:基因途徑
我們還執(zhí)行實(shí)驗(yàn)在抽取基因途徑交互關(guān)系使用GENIA事件抽取數(shù)據(jù)集猾警。這個數(shù)據(jù)集包括金句法分析對于句子,賦予一個唯一機(jī)會去調(diào)查句法分析的影響在graph LSTMs隆敢。它還允許我們測試我們的框架在監(jiān)督學(xué)習(xí)发皿。
原始共享任務(wù)評估在復(fù)雜疊套的事件對九事件類別,許多是一元關(guān)系拂蝎。跟隨Poon等穴墅,我們關(guān)注在基因標(biāo)準(zhǔn)化并減少它的二元關(guān)系分類對于head-to-head對比。我們跟隨他們的實(shí)驗(yàn)準(zhǔn)則通過sub采樣負(fù)向樣例到三次正向樣例。
由于數(shù)據(jù)集不是完全平衡的玄货,我們報告precision, recall, and F1皇钞。我們使用我們最好的graph LSTM表現(xiàn)來自之前實(shí)驗(yàn)。默認(rèn)的松捉,自動分析被用在文檔graph夹界,然而在Graph LSTM(GOLD),gold分析被使用隘世。Table 7展示結(jié)果掉盅。再一次,盡管缺乏強(qiáng)度特征工程以舒,線性鏈LSTMs呈現(xiàn)在對上伴隨基于特征分類器。Graph LSTMs展示更多優(yōu)勢在線性鏈LSTMs在這個領(lǐng)域慢哈,顯著的表現(xiàn)好于后者($p < 0.01$通過McNemar's chi-square測試)蔓钟。最有趣的是,graph LSTMs使用gold分析顯著的表現(xiàn)好于使用的自動分析卵贱,揭示編碼高度質(zhì)量分析是十分有用的滥沫。
7 相關(guān)工作
大多在關(guān)系抽取已經(jīng)應(yīng)用到單個句子的實(shí)體的二元關(guān)系。我們首先檢查相關(guān)工作在單個句子二元關(guān)系抽取任務(wù)键俱,接著檢查相關(guān)工作n元交叉句子關(guān)系抽取兰绣。
二元關(guān)系抽取 傳統(tǒng)基于特征的方法依賴仔細(xì)的設(shè)計(jì)特征學(xué)習(xí)好的模型,經(jīng)常融入多樣的證據(jù)來源例如詞序列和句法文本编振∽罕纾基于核方法設(shè)計(jì)各種sub序列或者樹核去捕獲結(jié)構(gòu)信息。最近踪央,模型基于神經(jīng)網(wǎng)絡(luò)增進(jìn)現(xiàn)存通過自動學(xué)習(xí)有力的特征表示臀玄。
大多神經(jīng)結(jié)構(gòu)集結(jié)Figure 2,其中有核表示學(xué)習(xí)器(藍(lán)色)去詞embedding作為輸入并產(chǎn)生文本實(shí)體表示畅蹂。如此表示取關(guān)系分類器產(chǎn)生最終預(yù)測健无。有效的表示詞序列,同時卷積和基于RNN的結(jié)構(gòu)都成功液斜。大多關(guān)注模型既是表面詞序列或是等級句法結(jié)構(gòu)累贤。Miwa和Bansal提出按個結(jié)構(gòu)利于兩種信息類型,使用表面序列層少漆,跟隨依賴樹序列層臼膏。
n元關(guān)系抽取 早期工作在抽取關(guān)系,在多于兩個參數(shù)之間在MUC-7示损,重點(diǎn)關(guān)注事實(shí)/事件抽取來自新聞標(biāo)題讶请。情感角色標(biāo)記在Propbank或者FrameNet風(fēng)格以及n元關(guān)系抽取實(shí)例,伴隨抽取事件表達(dá)在單個句子。McDonald等抽取n元關(guān)系在生物醫(yī)學(xué)領(lǐng)域夺溢,首先考慮n元關(guān)系配對關(guān)系在所有實(shí)體對之間论巍,接著構(gòu)建最大相關(guān)的實(shí)體圈子。最近风响,神經(jīng)模型應(yīng)用情感角色標(biāo)記嘉汰。這些工作學(xué)習(xí)神經(jīng)表示通過有效的分解n元關(guān)系到二元關(guān)系在謂語和每個主題之間,通過embedding這個依賴路徑在每個對之間状勤,或者通過合并兩個使用前向網(wǎng)絡(luò)的特征鞋怀。盡管一些再排序或者共同inference模型已經(jīng)被采用,個體主題的表示不會相互影響持搜。對比的密似,我們提出一個神經(jīng)結(jié)果共同的表示n實(shí)體mention,考慮長距離依賴和inter句子信息葫盼。
交叉句子關(guān)系抽取 幾個關(guān)系抽取任務(wù)有利來自交叉句子抽取残腌,包括MUC因素和事件抽取,記錄抽取來自web pages贫导,生物醫(yī)學(xué)領(lǐng)域因素抽取抛猫,并語義角色標(biāo)記覆蓋含蓄inter句子主題擴(kuò)展。這些先前的工作要么依賴特別的共同reference標(biāo)注孩灯,或者假設(shè)全部文檔refer到單個coherent時間闺金,去簡化問題并減少需求對強(qiáng)大的多句子文本實(shí)體mention的表示。最近峰档,交叉句子關(guān)系抽取模型已經(jīng)被學(xué)習(xí)伴隨弱監(jiān)督败匹,且使用整體的文本多重類型證據(jù)不帶依賴在這些假設(shè)上,但是工作關(guān)注在二院關(guān)系僅僅且特別的工程稀少指示器特征讥巡。
關(guān)系抽取使用弱監(jiān)督 弱監(jiān)督應(yīng)用到抽取二元和n元關(guān)系哎壳,傳統(tǒng)的使用手工工程特征。神經(jīng)結(jié)構(gòu)最近應(yīng)用弱監(jiān)督抽取二元關(guān)系尚卫。我們的工作是首先提出一個神經(jīng)結(jié)構(gòu)用于n元關(guān)系抽取归榕,其中tuple個實(shí)體的表示不可分解到獨(dú)立表示的個體實(shí)體或?qū)嶓w對,整體多樣信息來自多句子文本吱涉。為了利用訓(xùn)練數(shù)據(jù)更有效刹泄,我們展示如何多任務(wù)學(xué)習(xí)對組成的二元sub關(guān)系可以曾倩表現(xiàn)。我們學(xué)習(xí)的表示合并信息源帶著單個句子在一個更整體和一般化相比先前方法怎爵,可以增強(qiáng)單個句子二元關(guān)系抽取的表現(xiàn)特石。
8 結(jié)論
我們探索一個一般框架對交叉句子n元關(guān)系抽取基于graph LSTMs。graph公式化歸納線性鏈和樹LSTMs且使得它簡單合并富語言分析鳖链。實(shí)驗(yàn)在生物醫(yī)學(xué)領(lǐng)域展示抽取超過句子便捷產(chǎn)生更大知識姆蘸,并編碼富語言知識提供的連續(xù)增長墩莫。
當(dāng)有許多空間增強(qiáng)recall和precision,我們的結(jié)果表明極其閱讀