? 發(fā)表:ACL 2022
? 引用:Lu Y, Liu Q, Dai D, et al. Unified structure generation for universal information extraction[J]. arXiv preprint arXiv:2203.12277, 2022.
? 論文地址:https://arxiv.org/pdf/2203.12277.pdf
? 代碼地址:https://github.com/universal-ie/UIE
1 背景與問題
信息提取 (Information extraction,IE) 旨在從非結(jié)構(gòu)化文本中識別和構(gòu)建用戶指定的信息(Andersen et al., 1992; Grishman, 2019)。IE 任務(wù)由于其不同的目標(entity、relation拥坛、event铜犬、sentiment 等)该押、異構(gòu)結(jié)構(gòu)(spans穴店、triplets、records 等)骑篙。
目前,大多數(shù) IE 方法都是任務(wù)專業(yè)化的森书。對應(yīng)不同的抽取方式靶端。由此產(chǎn)生了幾個問題:
- 為各種 IE 任務(wù)/設(shè)置/場景開發(fā)專用架構(gòu)比較復(fù)雜
- 孤立的模型限制了相關(guān)任務(wù)和設(shè)置之間的模型共享
- 構(gòu)建專門用于不同 IE 任務(wù)的數(shù)據(jù)集和知識源耗時耗力
因此谎势,開發(fā)一種通用 IE 架構(gòu)將有很大好處,可以統(tǒng)一建模不同的 IE 任務(wù)躲查,自適應(yīng)地預(yù)測異構(gòu)結(jié)構(gòu)并從各種資源中有效地學(xué)習(xí)它浅,本文稱之為 Universal IE。
所有 IE 任務(wù)都可以被建模為文本到結(jié)構(gòu)的轉(zhuǎn)換( text-to-structure transformations)镣煮,具有不同的任務(wù)對應(yīng)于不同的結(jié)構(gòu)姐霍。
例如,如圖 1 所示典唇,entity 是命名為 span structure镊折,event 是 schema-defined record structure。IE 中的這些文本到結(jié)構(gòu)的轉(zhuǎn)換可以進一步分解為幾個原子轉(zhuǎn)換操作:
- Spotting介衔,它定位與給定特定語義類型相關(guān)的desirable spans(Kripke 和 Munitz恨胚,1971;Chen 和 Yuille炎咖,2004)赃泡。例如,locating span "Steve" as a Person entity and locating "excited" as a sentiment expression乘盼。
-
Associating升熊,通過將跨度分配給預(yù)定義模式中的語義角色來連接spans (Onyshkevych,1994绸栅;Milward 和 Thomas级野,2000)。例如粹胯,associating "Steve" and "Apple" by assigning them as the Arg1 and the Arg2 of a Work-for relation蓖柔。
不同的IE任務(wù)可以分解為一系列原子文本到結(jié)構(gòu)的轉(zhuǎn)換,所有IE模型共享相同的底層發(fā)現(xiàn)和關(guān)聯(lián)能力风纠。例如况鸣,實體提取可以看作是發(fā)現(xiàn)相應(yīng)實體類型的提及跨度(spotting mention spans),而事件檢測可以重新表述為發(fā)現(xiàn)具有事件類型的觸發(fā)器跨度(spotting triggers spans)竹观。并且這兩個任務(wù)之間共享發(fā)現(xiàn)能力懒闷。
解決方法
基于上述觀察,本文提出了 UIE栈幸,這是一種統(tǒng)一的文本到結(jié)構(gòu)生成架構(gòu)(unified text-to-structure generation architecture)愤估,可以普遍對不同的 IE 任務(wù)進行建模,自適應(yīng)地生成目標結(jié)構(gòu)速址,并協(xié)同學(xué)習(xí)來自不同知識源的一般 IE 能力玩焰。
- 為了模擬異構(gòu) IE 結(jié)構(gòu)(heterogeneous IE structures),本文設(shè)計了一種結(jié)構(gòu)提取語言(structural extraction language 芍锚,SEL)昔园,可以有效地將不同的 IE 結(jié)構(gòu)編碼為統(tǒng)一的表示蔓榄,以便可以在相同的文本到結(jié)構(gòu)生成框架中普遍建模各種 IE 任務(wù)。
- 為了自適應(yīng)地為不同的 IE 任務(wù)生成目標結(jié)構(gòu)默刚,同時本文還提出了 structural schema instructor (SSI)甥郑,這是一種基于模式的提示機制,用于控制要發(fā)現(xiàn)的內(nèi)容荤西、要關(guān)聯(lián)的內(nèi)容以及 UIE 中生成的內(nèi)容澜搅。
為了訓(xùn)練 UIE 的常見 IE 能力,本文從大規(guī)模異構(gòu)數(shù)據(jù)集上預(yù)訓(xùn)練 UIE邪锌。
以下介紹具體的方法勉躺。
2 Unified Structure Generation for Universal Information Extraction
由于 IE 任務(wù)的多樣性,有許多不同的目標結(jié)構(gòu)來提取觅丰,例如實體饵溅、關(guān)系、事件等妇萄。其次蜕企,IE 任務(wù)通常是特定于需求的,使用不同的模式定義冠句,因此我們需要自適應(yīng)地控制提取過程轻掩。
2.1 Structured Extraction Language for Uniform Structure Encoding
IE 結(jié)構(gòu)生成可以分解為兩個原子操作:
- Spotting 表示從句子中定位目標信息片段,例如事件中的實體和觸發(fā)詞轩端。
- Associating 表示根據(jù)理想的關(guān)聯(lián)連接不同的信息片段,例如實體對之間的關(guān)系或事件與其參數(shù)之間的角色逝变。然后可以將不同的 IE 結(jié)構(gòu)表示為原子結(jié)構(gòu)生成操作的組合基茵。
如圖 2a 所示,每個 SEL 表達式包含三種類型的語義單元:
- SPOTNAME 表示源文本中存在的點名類型有一個特定的信息片段宴咧;
- ASSONAME 表示源文本中存在一個特定的信息片段根灯,它與結(jié)構(gòu)中其 upper-level Spotted 信息的關(guān)聯(lián);
- INFOSPAN 表示對應(yīng)于源文本中特定發(fā)現(xiàn)或關(guān)聯(lián)信息片段的文本跨度掺栅。此外烙肺,SEL 中的“:”表示從 InfoSpan 到其發(fā)現(xiàn)或關(guān)聯(lián)名稱的映射,兩個結(jié)構(gòu)指標 “(" 和 ")” 用于形成提取信息之間的層次結(jié)構(gòu)氧卧。
使用 SEL桃笙,圖 2b 顯示了如何表示實體、關(guān)系和事件結(jié)構(gòu)沙绝。
有三個實體搏明,每個實體表示為一個spotting structure鼠锈, such as "person:Steve", "organization:Apple", and "time:1997"; one relation which is represented as an association structure between "Steve" and "Apple" with association name work for; and one event which is represented as an association structure, where the trigger is a spotting structure "start-position:became", and its arguments are associated with the trigger: Steve as employee, Apple as employer, 1997 as time.
SEL 的優(yōu)點是:
1)統(tǒng)一編碼不同的 IE 結(jié)構(gòu),因此不同的 IE 任務(wù)可以建模為相同的文本到結(jié)構(gòu)的生成過程星著;
2)有效地表示同一結(jié)構(gòu)中句子的所有提取結(jié)果购笆,從而可以自然進行聯(lián)合提取虚循;
3)生成的輸出結(jié)構(gòu)非常緊湊同欠,大大降低了解碼的復(fù)雜度。
2.2 Structural Schema Instructor for Controllable IE Structure Generation
由于不同的 IE 任務(wù)具有不同的模式邮丰,這里的一個挑戰(zhàn)是如何自適應(yīng)地控制我們在提取過程中想要生成的哪些信息行您。
例如,給定一個句子“Steve became CEO of Apple in 1997.”剪廉。entity recognition system將生成“((person: Steve) (organization: Apple) (Time: 1997))”娃循,系統(tǒng)將生成 “(start position: became (employee: Steve) (employer: Apple))”。
為此斗蒋,本文提出了 structural schema instructor (SSI)捌斧,這是一種基于 prompt 的機制,用于控制需要發(fā)現(xiàn)和關(guān)聯(lián)哪些類型的信息泉沾。
圖 3 顯示了 UIE 的總體框架捞蚂。
2.2.1 Structural Schema Instructor
為了描述任務(wù)的提取目標姓迅,structural schema instructor 構(gòu)建了一個 schema-based prompt,并在生成期間將其用作前綴俊马。
SSI 包含三種類型的 token segments:
1)SPOTNAME:特定信息提取任務(wù)中的目標定位名稱丁存,例如 NER 任務(wù)中的“person”;
2)ASSONAME:目標關(guān)聯(lián)名稱柴我,例如關(guān)系提取任務(wù)中的“work for”解寝;
3)Special Symbols ([spot], [asso], [text]) 在每個 SPOTNAME、ASSONAME 和輸入文本序列之前添加艘儒。SSI 中的所有標記都被連接起來并放在原始文本序列之前聋伦。
如圖3所示,UIE的整個輸入形式為:
s⊕x =
??=
例如翻斟,SSI "[spot] person [spot] company [asso] work for [text]" 表示從句子中提取關(guān)系模式“the person for the company”的記錄抑片。給定SSI,UIE首先對文本 x 進行編碼杨赤,然后使用 encoder decoder 的架構(gòu)在線性化SEL中生成目標記錄 y敞斋。
基于模式的提示的優(yōu)點有:
1)有效地指導(dǎo)UIE的 SEL 生成截汪,使通用IE能力可以轉(zhuǎn)移到新的IE任務(wù)中;
2)自適應(yīng)控制哪個發(fā)現(xiàn)哪個關(guān)聯(lián)植捎,哪些要生成衙解,以便可以更好地共享跨不同標簽和任務(wù)的語義知識。
2.2.2 Structure Generation with UIE
給定 SSI s 和文本 x 作為輸入的結(jié)構(gòu)生成焰枢,UIE 通過生成線性化 SEL 來提取目標信息蚓峦。本文使用編碼器-解碼器風(fēng)格的架構(gòu)制定了這種文本到文本的 SEL 生成過程。
首先計算隱藏表示 H :
然后 UIE 將輸入文本以自回歸的方式解碼為線性化SEL济锄。在解碼的第 i 步暑椰,UIE 生成 SEL 中的第 i 個token 和 decoder 狀態(tài) :
通過語言和生成標簽和結(jié)構(gòu),此方法可以有效地將知識從預(yù)訓(xùn)練的語言模型(例如 BART (Lewis et al., 2020)荐绝、T5 (Raffel et al., 2020))轉(zhuǎn)移到相關(guān)任務(wù)可以很容易地共享知識一汽,因為它們的標簽具有相似的語義(例如,location 和 place)低滩,并共享常見的 label-text associations(例如召夹,victim for different event types)。
3 Pre-training and Fine-tuning for UIE
1)如何預(yù)訓(xùn)練一個大規(guī)模的 UIE 模型恕沫,該模型捕獲不同 IE 任務(wù)的常見 IE 能力监憎;
2)如何通過快速微調(diào)使 UIE 適應(yīng)不同設(shè)置中的不同 IE 任務(wù)。具體來說婶溯,我們首先從 Web 收集幾個大規(guī)模數(shù)據(jù)集鲸阔,包括結(jié)構(gòu)化(例如知識庫)、非結(jié)構(gòu)化(例如原始文本)和并行(例如 Wikipedia-Wikidata 鏈接)數(shù)據(jù)迄委,然后我們在這些異構(gòu)數(shù)據(jù)集上統(tǒng)一預(yù)訓(xùn)練我們的 UIE 模型褐筛。
3)最后,我們通過按需微調(diào)將預(yù)訓(xùn)練的UIE模型應(yīng)用于特定的下游IE任務(wù)跑筝。
3.1 Pre-training Corpus Construction
UIE 需要對文本進行編碼死讹、將文本映射到結(jié)構(gòu)并解碼有效結(jié)構(gòu)瞒滴。
是文本結(jié)構(gòu)并行數(shù)據(jù)曲梗,其中每個實例都是一個并行對(標記序列 x,結(jié)構(gòu)化記錄 y)——用于預(yù)訓(xùn)練 UIE 的文本到結(jié)構(gòu)的轉(zhuǎn)換能力妓忍。
是結(jié)構(gòu)數(shù)據(jù)集虏两,其中每個實例都是結(jié)構(gòu)化記錄 y——用于預(yù)訓(xùn)練UIE的結(jié)構(gòu)解碼能力。
是非結(jié)構(gòu)化文本數(shù)據(jù)集(維基百科)——用于預(yù)訓(xùn)練UIE的語義編碼能力世剖。
3.2 Pre-training
使用上述預(yù)訓(xùn)練數(shù)據(jù)集的三個序列生成任務(wù)對UIE進行預(yù)訓(xùn)練定罢。
,對于每個平行對 (x, y)旁瘫,提取記錄 y 中的 spot type 和 associating type 作為正樣本 祖凫。為了學(xué)習(xí)泛化能力琼蚯,同時自動為每一對構(gòu)造負樣本,則 連接起來惠况。
例如遭庶,person 和 work 是記錄“((person: Steve (work for: Apple)))”中的樣本,對 vehicle 進行采樣并 located in 為負樣本以構(gòu)建 meta 稠屠。
最后峦睡,文本到結(jié)構(gòu)預(yù)訓(xùn)練的目標是:
Structure Generation Pre-training with
為了預(yù)訓(xùn)練生成由 SEL 和模式定義的有效結(jié)構(gòu)的能力,將UIE decoder 預(yù)訓(xùn)練為結(jié)構(gòu)化語言模型权埠,其中 中的每個記錄都是SEL的表達式:
通過對結(jié)構(gòu)生成的預(yù)訓(xùn)練榨了,decoder 可以捕獲SEL的規(guī)律性和不同標簽之間的交互。
Retrofitting Semantic Representation using
在文本到結(jié)構(gòu)的預(yù)訓(xùn)練過程中攘蔽,在 上不斷地用掩碼語言模型任務(wù)(masked language model tasks)(Raffel et al.龙屉, 2020)對UIE進行預(yù)訓(xùn)練,以改進UIE的語義表示秩彤。
在預(yù)訓(xùn)練階段添加了基于跨度的掩碼語言建模目標:
其中 x′ is the corrupted source text叔扼,x′′ is corrupted target spans。
這種預(yù)訓(xùn)練可以有效地緩解 tokens 的災(zāi)難性遺忘漫雷,尤其是在 SPOTNAME 和 ASSONAME tokens 上瓜富。
Final Pre-training Criteria
本文用 T5-v1.1-base 和 T5-v1.1-large (Raffel et al., 2020) 初始化 UIE-base 和 UIE-large,模型架構(gòu)如表 7 所示降盹。
將所有預(yù)訓(xùn)練數(shù)據(jù)統(tǒng)一表示為三元組与柑。
詳細的如算法 1 所示。
3.3 On-Demand Fine-tuning
通過模型微調(diào)快速適應(yīng)不同的IE任務(wù)和設(shè)置蓄坏。
給定一個標記語料庫 价捧,使用 teacher-forcing cross-entropy 損失微調(diào) UIE 模型:
同時設(shè)計了一種 rejection 機制來有效地微調(diào)。例如涡戳,在表 1 中结蟋,facility is the negative spot in the schema prompt, i.e., there is no facility entity in the sentence "Steve became CEO of Apple in 1997".
4 實驗
4.1 Experimental Settings
Datasets、Tasks
13 IE benchmarks datasets渔彰,比如 ACE04 (Mitchell et al., 2005)等嵌屎;
4 IE tasks (including entity extraction, relation extraction, event extraction, structured sentiment extraction) and their combinations (e.g., joint entity-relation extraction).
4.2 Experiments on Supervised Settings
表 2 顯示了 UIE 在 4 個任務(wù)中的 13 個 IE 數(shù)據(jù)集上的性能。
可以發(fā)現(xiàn):
1)通過將 IE 建模為文本到結(jié)構(gòu)的生成并使用有效的 SEL 語言進行編碼恍涂,UIE 模型在幾乎所有數(shù)據(jù)集和任務(wù)上都實現(xiàn)了最先進的性能宝惰,即使沒有預(yù)訓(xùn)練 (SEL)。
2)大規(guī)模預(yù)訓(xùn)練模型為通用 IE 提供了堅實的基礎(chǔ)再沧。與基線相比尼夺,預(yù)訓(xùn)練模型在大多數(shù)數(shù)據(jù)集上實現(xiàn)了最先進的性能,平均提高了 1.42% F1。
3)通過在大規(guī)模數(shù)據(jù)集上普遍建模IE任務(wù)和預(yù)訓(xùn)練淤堵,UIE可以有效地 cpature寝衫、share 和 transfer IE 能力。預(yù)訓(xùn)練同時改進了所有任務(wù)拐邪,尤其是事件和情感知識很少出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)集中竞端。
4.3 Experiments on Low-resource Settings
為了驗證 UIE 的快速適應(yīng)能力,本文對 4 個任務(wù)中原始訓(xùn)練集(1/5/10-shot庙睡,1/5/10%比)的六個不同分區(qū)進行了低資源實驗事富。
對于 few-shot 實驗,本文為訓(xùn)練集中的每個實體/關(guān)系/事件/情感類型采樣 1/5/10 個句子乘陪。
將UIE與以下預(yù)訓(xùn)練模型進行比較:
1)T5-v1.1-base;
2)Fine-tuned T5-base
3)UIEbase w/o SSI 是UIE在預(yù)訓(xùn)練階段沒有SSI的遠程監(jiān)督版本统台,用于驗證在低資源環(huán)境下調(diào)整 UIE 時 SSI 的必要性。
4.4 Ablations on Pre-training Tasks
為了研究不同預(yù)訓(xùn)練任務(wù)的效果贱勃,表 4 顯示了UIE-base在四個下游任務(wù)上的消融實驗結(jié)果。
2)使用掩碼語言模型任務(wù) () 對語義進行改造對于復(fù)雜的提取任務(wù)更為重要。
3)使用 映射預(yù)訓(xùn)練使模型能夠?qū)W習(xí)提取的能力流部。
4.5 Effects of Rejection Noise
表 5 顯示了不同預(yù)訓(xùn)練模型在 10-shot 設(shè)置下在 CoNLL 03 數(shù)據(jù)集上的結(jié)果戚绕。錯誤生成的標簽對所提出的生成方法的精度有負面影響,導(dǎo)致大量錯誤提取結(jié)果枝冀。5 Related Work
近年來舞丛,構(gòu)建和預(yù)訓(xùn)練 NLP 任務(wù)的通用模型引起了很多關(guān)注,例如多模態(tài)(Li et al., 2021b; Cho et al., 2021)和多語言(Conneau et al., 2020; Xue et al., 2021)果漾。
IE 已經(jīng)提出了幾種特定于任務(wù)的預(yù)訓(xùn)練技術(shù)(Mengge et al., 2020; Wang et al., 2021b; Qin et al., 2021)球切。
基于生成的 IE 方法,有通過標記生成文本跨度(Straková et al., 2019; Ma et al., 2019)绒障、索引指針(Ren et al., 2021; Yan et al., 2021b)或復(fù)制機制(Zeng et al., 2018)吨凑,這些方法通常使用特定的分類器來表示標簽』瑁可以使用標簽?zāi)0?(Li et al., 2021a; Liu et al., 2021; Cui et al., 2021)鸵钝、模式 (Lu et al., 2021; Ahmad et al., 2021) 和增強語言方法 (Paolini et al., 2021) 來增強生成。
與之前專注于開發(fā)更有效的任務(wù)專用的 IE 研究相比焕妙,本文旨在在統(tǒng)一的文本到結(jié)構(gòu)框架中普遍建模各種 IE 任務(wù)蒋伦。
6 貢獻
本文的主要貢獻是:
- 提出了 UIE弓摘,這是一種統(tǒng)一的文本到結(jié)構(gòu)的生成架構(gòu)(unified text-to-structure generation)焚鹊,可以普遍建模不同的 IE 任務(wù),自適應(yīng)地生成目標結(jié)構(gòu),并從不同的知識源協(xié)作學(xué)習(xí)通用 IE 能力末患。
- 設(shè)計了一個統(tǒng)一的結(jié)構(gòu)生成網(wǎng)絡(luò)(unified structure generation)研叫,它通過結(jié)構(gòu)提取語言將異構(gòu) IE 結(jié)構(gòu)編碼為統(tǒng)一的表示,并控制 UIE 模型璧针,以識別哪些關(guān)聯(lián)嚷炉,并通過結(jié)構(gòu)模式指導(dǎo)機制生成。
3)通過統(tǒng)一的預(yù)訓(xùn)練算法預(yù)訓(xùn)練一個大規(guī)模的文本到結(jié)構(gòu)生成模型探橱。這是第一個文本到結(jié)構(gòu)的預(yù)訓(xùn)練提取模型申屹。