MetaPAD: Meta Pattern Discovery from Massive Text Corpora
背景
本文來(lái)自公子開(kāi)明的博客
傳統(tǒng)的文本序列挖掘方法已經(jīng)公開(kāi)了大量的序列集合飞醉,但是很少有方法能夠提取出具有語(yǔ)義類型的任意序列拌夏。
Hearst patterns使用諸如“NP such as NP, NP, and NP”挖掘上下為關(guān)系;TextRunner和ReVerb對(duì)其詞匯模式中的類型信息一無(wú)所知;NELL[8]學(xué)習(xí)基于一組固定的預(yù)設(shè)關(guān)系來(lái)提取名詞短語(yǔ)對(duì)挖腰,這些關(guān)系具有實(shí)體類型:如country:president→$Country×?$Politician;
一個(gè)例外是PATTY提出地SQL模式饺谬,依賴于句法分析器婿屹,并利用來(lái)自知識(shí)庫(kù)或類型系統(tǒng)的類型信息皆警,是在單個(gè)句子的解析樹(shù)上用兩個(gè)類型實(shí)體之間的最短路徑自動(dòng)生成的珊皿。但SOL-模式在從大規(guī)模文本語(yǔ)料庫(kù)中挖掘類型文本模式時(shí)有三個(gè)限制萨咳,如下所示懊缺。
- 一個(gè)好的文本文本應(yīng)該是信息豐富的、自身包含上下文信息某弦。PATTY中的依賴分析失去了圍繞實(shí)體的豐富上下文桐汤,例如句子1中“Barack Obama”旁邊的“president”和句子2中的“president”和“prime_minister”而克。此外,SOL 模式僅限于兩個(gè)實(shí)體之間的依賴路徑怔毛,但不表示諸如$Digit表示“55”和$ Month? $; Day?$Year之類的數(shù)據(jù)類型员萍。此外,解析過(guò)程代價(jià)高昂:它的復(fù)雜度是句子長(zhǎng)度的三次方拣度,這對(duì)于新聞和科學(xué)語(yǔ)料庫(kù)來(lái)說(shuō)代價(jià)太高碎绎,因?yàn)樗鼈兌加泻荛L(zhǎng)的句子。我們期待一種針對(duì)海量語(yǔ)料庫(kù)的文本挖掘方法抗果。
- 其次筋帖,為了處理模式稀疏性,為了擴(kuò)展知識(shí)庫(kù)和問(wèn)答系統(tǒng)冤馏,需要對(duì)同義文本模式進(jìn)行識(shí)別和分組日麸,并對(duì)它們抽取的信息進(jìn)行聚合。如圖1所示逮光,country:president 和person:age兩個(gè)同義模式組代箭。然而,找到這些同義模式組的過(guò)程是非常重要的涕刚。應(yīng)考慮多方面的信息:(1)同義詞應(yīng)共享相同的實(shí)體類型或數(shù)據(jù)類型嗡综;(2)即使對(duì)于同一實(shí)體(如巴拉克奧巴馬),也應(yīng)允許對(duì)其進(jìn)行不同的分組和概括(如<United States, Barack Obama> vs. <Barack Obama, 55>)杜漠;(3)共享詞(如“president”)或語(yǔ)義相似的上下文詞語(yǔ)(如“age”和“-year-old”)可能在同義模式分組中發(fā)揮重要作用极景。PATTY在對(duì)同義模式進(jìn)行分組時(shí)不探索多方面的信息,因此不能聚合這樣的提取驾茴。
- 第三盼樟,文本模式中的實(shí)體類型應(yīng)該是精確的。在不同的模式中锈至,即使同一個(gè)實(shí)體也可以在不同的類型級(jí)別上進(jìn)行類型化恤批。例如,實(shí)體“Barack Obama”應(yīng)該在由第1-2句生成的模式中以細(xì)粒度(Politician)輸入裹赴,在由第3-4句生成的模式中以粗粒度(Person)輸入。然而诀浪,PATTY并沒(méi)有尋找合適的實(shí)體類型粒度棋返。
定義(Meta Pattern):是指實(shí)體類型(例如,$ Person雷猪,$ Politician睛竣,$Country)或數(shù)據(jù)類型(例如,$Digit求摇,$Month射沟,$Year)殊者、單詞(例如,“politician”验夯,“age”)或短語(yǔ)(例如猖吴,“prime minister”)的頻繁、具有信息性和精確的子序列挥转,可能還有標(biāo)點(diǎn)符號(hào)(例如海蔽,“,”绑谣,“(”)党窜,作為一個(gè)整體特定語(yǔ)境中的語(yǔ)義單位。
為什么要挖掘元模式和同義元模式分組借宵?-因?yàn)閷⒃J酵诰蚝头纸M為同義組可能有助于信息提取并將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)幌衣。例如,我們從一個(gè)新聞?wù)Z料庫(kù)中得到一句話壤玫,“President Blaise Compaore′’s government of Burkina Faso was founded …”豁护,如果我們發(fā)現(xiàn)了元模式““president $Politician’s government of $Country”,我們就可以識(shí)別并分類一個(gè)新的實(shí)體(即“Blaise Compaore′”$Politician和““Burkina Faso”作為$Country)垦细,以前的研究需要人類在語(yǔ)言規(guī)則方面的專業(yè)知識(shí)或大量的標(biāo)注數(shù)據(jù)學(xué)習(xí)择镇。如果我們將模式與同義模式(如“$Country president $Politician”)組合,我們可以將事實(shí)元組<Burkina nafaso, president, Blaise Compaore′>合并到屬性類型<country:president>的大量事實(shí)集合中.
為了系統(tǒng)地解決元模式挖掘和同義模式分組的難題括改,我們開(kāi)發(fā)了一個(gè)稱為MetaPAD(Meta Pattern Discovery)的新框架腻豌。我們的MetaPAD沒(méi)有處理每一個(gè)單獨(dú)的句子,而是利用大量的句子中豐富的模式來(lái)表示大量實(shí)例的屬性或關(guān)系嘱能。首先吝梅,MetaPAD使用高效的順序模式挖掘生成元模式候選,具有豐富的領(lǐng)域無(wú)關(guān)上下文特征的用于直觀的想法(例如惹骂,頻率苏携、信息性)學(xué)習(xí)一個(gè)質(zhì)量評(píng)估函數(shù)來(lái)評(píng)估候選模式,然后通過(guò)評(píng)估引導(dǎo)的上下文感知分割挖掘高質(zhì)量元模式对粪。其次右冻,MetaPAD將同義元模式的分組過(guò)程作為一項(xiàng)學(xué)習(xí)任務(wù)來(lái)制定,并通過(guò)集成實(shí)體類型著拭、數(shù)據(jù)類型纱扭、模式上下文和提取的實(shí)例等多個(gè)方面的特征來(lái)解決這個(gè)問(wèn)題。第三儡遮,MetaPAD檢查從每個(gè)元模式組中提取的實(shí)體的類型分布乳蛾,并尋找模式t最合適的類型級(jí)別。這包括自上而下和自下而上的方案,它們遍歷類型本體以獲得模式的精確性肃叶。
相關(guān)工作
開(kāi)放域信息抽取工具
TextRunner:開(kāi)放域信息抽取工具蹂随,提取文本語(yǔ)料庫(kù)中實(shí)體之間的字符串,并對(duì)這些字符串進(jìn)行聚類和簡(jiǎn)化以生成關(guān)系提及因惭。
ReVerb:開(kāi)放域信息抽取工具岳锁,自動(dòng)識(shí)別和提取英語(yǔ)句子中的二元關(guān)系,限制以介詞結(jié)尾的動(dòng)詞或動(dòng)詞短語(yǔ)的模式筛欢。
不足:這些規(guī)則或者模式是沒(méi)有實(shí)體信息的字符串/短語(yǔ)浸锨。
屬性抽取工具
Biperpedia:谷歌,從用戶的查詢(“president of united states” and “barack oabma’s wife”)中將實(shí)體替換為E版姑,名詞性屬性替換為A產(chǎn)生E-A pattern柱搜,如A of E,E's A;
ReNoun:從預(yù)先定義的屬性名稱子集上的標(biāo)注語(yǔ)料庫(kù)(例如剥险,“Barack Obama’s wife is Michelle Obama” and “Larry Page, CEO of Google”)通過(guò)將實(shí)體/主題替換為“S”聪蘸,將屬性名稱替換為“A”,將值/對(duì)象替換為“O”表制,生成S-A-O模式(例如健爬,“S's A is O”和“O,A of S”)。
不足:但是么介,查詢?nèi)罩竞妥⑨屚ǔ2豢捎没虼鷥r(jià)高昂娜遵。此外,查詢?nèi)罩咀值姆植寂c普通的書面語(yǔ)言相比壤短,具有很強(qiáng)的約束性设拟。因此,大多數(shù)S-A-O模式久脯,如“S-A-O”和“S-A-O”纳胧,在應(yīng)用于文本語(yǔ)料庫(kù)時(shí)會(huì)產(chǎn)生噪聲。
其他信息抽取工具
NELL:永動(dòng)學(xué)習(xí)機(jī)帘撰,利用一個(gè)初始的本體和二元關(guān)系跑慕,和一些標(biāo)記和大量Web網(wǎng)頁(yè)抽取模版;其中一個(gè)步驟就是學(xué)習(xí)規(guī)則來(lái)標(biāo)注新的實(shí)例摧找。
OntExt:一次對(duì)給定實(shí)體類型的名詞短語(yǔ)對(duì)進(jìn)行頻繁的共現(xiàn)聚類核行,但不能擴(kuò)展到挖掘大型語(yǔ)料庫(kù)。
PATTY:第一個(gè)利用類型系統(tǒng)挖掘?qū)嶓w類型的關(guān)系模式的蹬耘。
元模式挖掘
數(shù)據(jù)預(yù)處理: Harnessing Typing Systems
為了找到文本類型的元模式钮科,我們采用了一種有效的文本挖掘方法,將一個(gè)語(yǔ)料庫(kù)預(yù)處理成一個(gè)細(xì)粒度類型語(yǔ)料庫(kù)婆赠,輸入步驟如下,分成3步:
以 U.S. President Barack Obama and Prime Minister Justin Trudeau of Canada met in … 為例子
使用一個(gè)短語(yǔ)挖掘方法,將一個(gè)句子分解成短語(yǔ)休里、單詞和標(biāo)點(diǎn)符號(hào)蛆挫,這樣就可以找到比PATTY中頻繁項(xiàng)集挖掘的頻繁n-grams更多的真實(shí)短語(yǔ),如“barack obama”, “prime minister”妙黍。
我們使用基于遠(yuǎn)程監(jiān)控的方法來(lái)聯(lián)合識(shí)別實(shí)體及其粗粒度類型(即$Person悴侵,$Location和$Organization)。
-
采用細(xì)粒度的實(shí)體類型系統(tǒng)來(lái)區(qū)分2級(jí)本體和112種實(shí)體類型(如$Polotical拭嫁,$Country可免,$Company);我們進(jìn)一步使用一組語(yǔ)言規(guī)則區(qū)分6種數(shù)據(jù)類型(包括$Digit做粤,$DigitUnit浇借,$DigitRank,$Month怕品,$Day晕城,$Year)蔚润。其中,
$DigitUnit: “percent”, “%”, “hundred”, “thousand”, “million”, “billion”, “trillion”…,$DigitRank: “first”, “1st”, “second”, “2nd”, “44th”…
現(xiàn)在我們有了一個(gè)細(xì)粒度的锣险、類型化的語(yǔ)料庫(kù),它由元模式中定義的相同類型的標(biāo)記組成:實(shí)體類型拉鹃、數(shù)據(jù)類型窘疮、短語(yǔ)、單詞和標(biāo)點(diǎn)符號(hào)炫乓。
問(wèn)題定義
Problem(Meta Pattern Discovery):給定一個(gè)細(xì)粒度的刚夺、類型化的大量句子的語(yǔ)料庫(kù),而且每個(gè)句子都被表示為
厢岂,其中
光督,
是第 k 個(gè)token,
是實(shí)體類型和數(shù)據(jù)類型的集合塔粒,
是短語(yǔ)和單詞的集合结借。
是標(biāo)點(diǎn)符號(hào)的集合。任務(wù)是找到尋找高質(zhì)量的同義元模式分組卒茬。一個(gè)元模式
是來(lái)自
集合的token的子序列船老。一個(gè)同義元模式分組表示為
,其中每一對(duì)模式圃酵,如
和
柳畔,是同義的。
什么樣的模式才是一個(gè)高質(zhì)量的元模式呢郭赐?在這里薪韩,我們把句子當(dāng)做一系列的標(biāo)記。已有的序列模式挖掘算法在事務(wù)序列數(shù)據(jù)庫(kù)中挖掘滿足單個(gè)度量(最小支持閾值)的頻繁子序列。然而俘陷,對(duì)于文本序列數(shù)據(jù)罗捎,我們提出的文本模式元模式的質(zhì)量應(yīng)該像短語(yǔ)挖掘一樣,按照以下四個(gè)標(biāo)準(zhǔn)來(lái)評(píng)估拉盾。
例子. 一個(gè)模式的質(zhì)量評(píng)估標(biāo)準(zhǔn)如下:(前一個(gè)模式的質(zhì)量高于后一個(gè)模式)
- 頻率:“$DigitRank president of $ Country” vs.“young president of $Country”桨菜;
- 完整性:“$Country president $Politician” vs. “$Country president”、“$Person's wife,$Person” vs. “$Person's wife”捉偏;
- 信息性:“$Person's wife,$Person”vs.“$Person and Person”倒得;
- 精確性:“$Country president $Politician” vs. “$Location president $Politician”,“$$Person's wife,$Person” vs. “$Politician's wife,$Person”夭禽,“population of $Location” vs. “population of $Country”霞掺。
什么才是同義的元模式呢?事務(wù)數(shù)據(jù)集中的頻繁序列模式集合是巨大的驻粟;來(lái)自大量語(yǔ)料庫(kù)的元模式數(shù)目也是巨大的根悼。由于在自然語(yǔ)言中表達(dá)相同或相似含義有多種方式,許多元模式可能具有相同或幾乎相同的含義蜀撑。示例如圖1所示挤巡。對(duì)同義元模式進(jìn)行分組有助于從不同的句子中提取大量的不同模式】崧螅總的抽取的信息的類型分布可以幫助我們調(diào)整組中的元模式以獲得精確性矿卑。
MetaPAD 框架
MetaPAD的框架分為3個(gè)部分。
- 它開(kāi)發(fā)了一種上下文感知的分割方法沃饶,以確定子序列的邊界母廷,并生成元模式的頻率、完整性和信息性糊肤。
- 它將同義元模式分組琴昆。
- 對(duì)于每個(gè)同義模式組,它會(huì)根據(jù)適當(dāng)?shù)牧6日{(diào)整實(shí)體類型的級(jí)別馆揉,以具有精確的元模式业舍。
通過(guò)上下文感知算法生成元模式
候選模式生成
我們采用標(biāo)準(zhǔn)的頻繁序列模式挖掘算法來(lái)尋找滿足最小sup閾值的模式候選。實(shí)際上升酣,可以設(shè)置最大模式長(zhǎng)度ω來(lái)限制模式中的token數(shù)量舷暮。與非常長(zhǎng)的句子的句法分析不同,我們的元模式挖掘探索的模式結(jié)構(gòu)是局部的噩茄,但仍然具有廣泛的上下文:在我們的實(shí)驗(yàn)中下面,我們?cè)O(shè)置ω=20。
元模式質(zhì)量評(píng)估
考慮到大量的候選模式可能很混亂(例如绩聘,“of $Country” and“$political and”)沥割,理想情況是用很少的訓(xùn)練標(biāo)簽來(lái)評(píng)估候選模式的質(zhì)量耗啦,但具有挑戰(zhàn)性。根據(jù)質(zhì)量標(biāo)準(zhǔn)驯遇,我們引入了一組豐富的上下文特征如下芹彬,并訓(xùn)練一個(gè)分類器,以估計(jì)質(zhì)量函數(shù),其中mp是一個(gè)候選元模式:
頻率:一個(gè)好的元模式
應(yīng)該在給定類型的預(yù)料中有著足夠的出現(xiàn)此書
-
一致性:如果由于偶然性会喝,token組合的頻率明顯高于預(yù)期陡叠,則元模式
具有良好的一致性。為了從統(tǒng)計(jì)學(xué)上解釋這種一致性肢执,我們考慮了一個(gè)空假設(shè):語(yǔ)料庫(kù)是由一系列獨(dú)立的伯努利試驗(yàn)產(chǎn)生的枉阵。假設(shè)語(yǔ)料庫(kù)中的token數(shù)是L,可以假定它相當(dāng)大预茄。在我們的零假設(shè)下兴溜,一對(duì)子模式
的期望頻率是
<centor>
</centor>
其中
,是模式的經(jīng)驗(yàn)概率耻陕。使用Z指數(shù)來(lái)衡量一對(duì)子模式
構(gòu)成語(yǔ)料庫(kù)中作為mp的最佳搭配
<centor>
</centor>
其中
表示頻率的標(biāo)準(zhǔn)差拙徽,Z指數(shù)較高的表明模式在上下文中充當(dāng)一個(gè)完整的語(yǔ)義單位:其組成的子模式高度相關(guān)。
信息性:一個(gè)好的模式
應(yīng)該具有上下文信息诗宣。我們檢查不同類型的token(例如膘怕,類型、單詞召庞、短語(yǔ)岛心、非停用詞、符號(hào))的計(jì)數(shù)篮灼。例如忘古,模式“$Person's wide$Person”是“wife”的上下文信息,而“$Person was born in $City”是“born in”的意思诅诱,而“$Person,$Digit,”也是兩種不同類型和兩個(gè)逗號(hào)的信息髓堪。
完整性:我們使用模式候選(例如“$Country president $Politician”)和其子模式(例如“$Country president”)的頻率之間的比率。如果比率很高逢艘,候選模式很可能是完整的旦袋。我們還使用了候選模式的頻率與其父模式頻率之間的比率。如果比率很高它改,候選模式很可能是不完整的疤孕。此外,我們期望元模式不受停用詞的限制央拖。例如祭阀,“$Country president $Politician”和“$Country president and”都沒(méi)有受限
覆蓋范圍:一個(gè)好類型的模式可以提取多個(gè)實(shí)例鹉戚。例如,$Politician類型在模式“Politician's healthcare law”中僅指一個(gè)實(shí)體“巴拉克奧巴馬”专控,因此在語(yǔ)料庫(kù)中的覆蓋率太低抹凳。
我們訓(xùn)練了一個(gè)基于隨機(jī)森林的分類器,用以學(xué)習(xí)具有上述豐富上下文特征集合的元概率質(zhì)量函數(shù)伦腐。我們的實(shí)驗(yàn)表明赢底,使用100個(gè)元模式標(biāo)簽可以達(dá)到與使用300個(gè)標(biāo)簽相似的精度和召回率。請(qǐng)注意柏蘑,學(xué)習(xí)結(jié)果可以轉(zhuǎn)移到其他領(lǐng)域:低質(zhì)量的模式“$Politician and $Country”和“$Bacteria and $Antibiotics”的特征相似幸冻;高質(zhì)量的patterns“$Politician is president of $Country”和“$Bacteria is resistant to$Antibiotics”的特征相似。
使用
和反饋上下文感知分割
利用模式質(zhì)量函數(shù)從豐富的上下文特征集合中學(xué)習(xí)咳焚,提出了一種自下而上的分割算法洽损,以構(gòu)造高質(zhì)量分?jǐn)?shù)的最佳分割。如圖4所示革半,我們使用
來(lái)確定分段的邊界:我們以“$Country president $political”作為元模式碑定,因?yàn)橘|(zhì)量分?jǐn)?shù)高;我們不選擇候選模式“and prime_minister_$political of $Country”又官,因?yàn)槠滟|(zhì)量分?jǐn)?shù)低延刘。
由于是用包括原始頻率
在內(nèi)的特征來(lái)學(xué)習(xí)的,因此質(zhì)量分?jǐn)?shù)可能被高估或低估:原則是每一個(gè)token的出現(xiàn)應(yīng)該只分配給一個(gè)模式赏胚,但是原始頻率可以多次對(duì)這個(gè)token計(jì)數(shù)访娶。幸運(yùn)的是,在分割之后觉阅,我們可以將頻率校正為
崖疤,例如在圖4中,分割避免了高估頻率/質(zhì)量的“$Politicion and prime_minister $Politician”(見(jiàn)表1)典勇。
一旦頻率特征被提取出來(lái)劫哼,我們就用作為反饋重新學(xué)習(xí)質(zhì)量函數(shù)
,并用它重新分割語(yǔ)料庫(kù)割笙。這可能是一個(gè)迭代過(guò)程权烧,但我們發(fā)現(xiàn)只需要一次迭代,結(jié)果收斂伤溉。算法1顯示了細(xì)節(jié)般码。
算法1
同義元模式分組
對(duì)于同一種關(guān)系,可能有許多元模式乱顾。如果我們對(duì)所有這些元模式進(jìn)行分組板祝,我們就可以從大量的語(yǔ)料庫(kù)中聚合所有這些關(guān)系的提取。PATTY對(duì)它們基于依賴路徑的SOL模式的同義模式有一個(gè)狹義的定義:如果兩個(gè)模式從語(yǔ)料庫(kù)中生成相同的提取集走净,那么它們就是同義的券时。在這里孤里,我們開(kāi)發(fā)了一種學(xué)習(xí)方法來(lái)整合三個(gè)方面的信息:(1)模式中的實(shí)體/數(shù)據(jù)類型,(2)模式中的上下文單詞/短語(yǔ)橘洞,以及(3)模式提取的信息捌袜,以將元模式分配到組中。我們的方法基于以下三個(gè)假設(shè)(見(jiàn)圖5):
A1:同義元模式必須有相同的實(shí)體或者數(shù)據(jù)類型炸枣,像元模式“$Person's age is $Digit” 和“$Person's wife is $Person”虏等;
A2:如果兩個(gè)元模式具有相同的上下文單詞或短語(yǔ),那么他們很可能是同義的适肠,像模式“$Country president $Politician”和“president $ Politician of $Country”有同樣的單詞“president”博其;
A3:如果兩個(gè)模式抽取出更多相同的信息,它們更可能是同義的迂猴,像“$Person's age is $Digit”和“$Person, $Digit”都抽取出<Barack Obama,55>背伴。
由于事先無(wú)法知道有多少組沸毁,我們建議先構(gòu)造一個(gè)模式-模式圖,其中每個(gè)模式之間的邊滿足A1傻寂,并且預(yù)測(cè)為同義的模式息尺。然后使用圖團(tuán)體檢測(cè)技術(shù)將所有的團(tuán)作為同義元模式分組。在這團(tuán)中疾掰,每一對(duì)模式
是同義的搂誉。
對(duì)于圖的構(gòu)建,我們訓(xùn)練了一個(gè)支持向量回歸機(jī)學(xué)習(xí)基于A2和A3的一對(duì)pattern的以下特征:(1)每個(gè)模式擁有的和共享的單詞静檬,非停用詞炭懊,短語(yǔ)數(shù)量;(2)兩個(gè)模式非停用單詞或短語(yǔ)之間的最大相似性得分拂檩;(3)每個(gè)模式抽取的信息和共同抽取的信息侮腹。其中,單詞/短語(yǔ)之間的相似性由其word2vec嵌入的余弦相似性表示稻励。
調(diào)整實(shí)體類型以提高精度
給定一組同義的元模式父阻,我們希望這些模式是精確的:需要確定模式中實(shí)體類型的級(jí)別以獲得適當(dāng)?shù)牧6取S捎谕x元模式的分組過(guò)程望抽,我們從大量的抽取信息的集合中獲得了豐富的實(shí)體類型分布加矛。
如圖所示,給定一個(gè)實(shí)體類型的本體(如$Location,$Country,$State,$City..., $Person:$Artist,$Athlete,$Politician, ...)煤篙,對(duì)于同義模式組“president $Person of $Location”斟览,“$Location's president $Person”和“Location president $Person”,這些模式里的實(shí)體類型舰蟆,$Location $Person是否恰當(dāng)能夠確保這些模式是精確的趣惠。如果我們觀察這些模式提取中實(shí)體的類型分布狸棍,很明顯,$Location的大多數(shù)實(shí)體在細(xì)粒度級(jí)別上被鍵入$Country(例如味悄,“United States”)或$Ethnicity(例如草戈,“Russian”),而$Person的大多數(shù)實(shí)體也具有細(xì)粒度類型$Politician侍瑟。因此唐片,與“$Location總統(tǒng)$Person”相比,“$Country總統(tǒng)$Politician”和“$Ethnicity總統(tǒng)$Politician”這兩個(gè)細(xì)粒度的元模式更加精確涨颜;
我們對(duì)同義群中的其他元模式也有相同的主張费韭。另一方面,對(duì)于同義元模式組person:age庭瑰,我們可以看到大多數(shù)實(shí)體在粗粒度級(jí)別上被輸入為$Person星持,而不是$Athlete或$Politician。所以模式中的實(shí)體類型最好是$Person弹灭。根據(jù)這一觀察督暂,給定元模式組中的實(shí)體類型T,我們提出了一個(gè)稱為graininess的度量穷吮,它定義為T類型的實(shí)體的分?jǐn)?shù)逻翁,這些實(shí)體可以細(xì)化為T的子類型:
如果比閾值
更高,我們就選擇更深層的細(xì)粒度類型的類型本體捡鱼。
假設(shè)我們已經(jīng)使用粒度度量在元模式組中確定了適當(dāng)?shù)念愋图?jí)別八回。然而,并不是每一個(gè)級(jí)別的類型都可以用來(lái)構(gòu)造精確的元模式驾诈。例如缠诅,我們可以從圖6中看到總統(tǒng)的模式,$Location的很少實(shí)體被輸入為$City翘鸭,$Person的很少實(shí)體被輸入為$Artist滴铅。與$Country、$Ethnicity和$Politician相比就乓,這些細(xì)粒度類型處于相同的級(jí)別汉匙,但對(duì)提取的信息支持太少。我們把他們排除在元模式組之外生蚁∝洌基于這一思想,對(duì)于實(shí)體類型T邦投,我們提出了另一個(gè)度量伤锚,稱為支持,它定義為T類型的實(shí)體數(shù)與T的同級(jí)類型的最大實(shí)體數(shù)之比:
如果比閾值
更高志衣,我們?cè)谠J椒纸M中考慮類型
屯援,否則丟棄它猛们。
利用這兩個(gè)度量,我們開(kāi)發(fā)了一個(gè)自頂向下的方案狞洋,首先對(duì)粗粒度類型的元模式進(jìn)行分段和同義模式分組弯淘,然后檢查細(xì)粒度類型是否有意義,以及模式是否可以拆分到細(xì)粒度級(jí)別吉懊;我們還開(kāi)發(fā)了一個(gè)自下而上的方案庐橙,該方案首先處理細(xì)粒度類型的元模式,然后檢查模式是否可以合并到粗粒度級(jí)別借嗽。
實(shí)驗(yàn)
數(shù)據(jù)集
- APR:美聯(lián)社和路透社2015年的新聞态鳖;
- TWT:2015年6月至2015年9月通過(guò)Twitter API收集的推文;
- CVD:PubMed數(shù)據(jù)庫(kù)中有關(guān)心血管疾病的論文標(biāo)題和摘要恶导。
新聞和生物醫(yī)學(xué)論文語(yǔ)料庫(kù)中經(jīng)常出現(xiàn)長(zhǎng)句浆竭,這對(duì)文本模式挖掘具有很大的挑戰(zhàn)性。例如惨寿,PATTY中的句法依賴分析部分具有單個(gè)句子長(zhǎng)度的三次計(jì)算復(fù)雜度兆蕉。我們的MetaPAD中的預(yù)處理技術(shù)采用了與外部數(shù)據(jù)庫(kù)的遠(yuǎn)程監(jiān)督,用于實(shí)體識(shí)別和細(xì)粒度類型缤沦。對(duì)于一般的語(yǔ)料庫(kù),比如新聞和推文易稠,我們使用DBpedia和Freebase缸废;對(duì)于生物醫(yī)學(xué)語(yǔ)料庫(kù),我們使用公共MeSH數(shù)據(jù)庫(kù)驶社。
實(shí)驗(yàn)設(shè)置
我們?cè)趯?shí)驗(yàn)中執(zhí)行兩項(xiàng)任務(wù)企量。第一個(gè)任務(wù)是從大量語(yǔ)料庫(kù)中發(fā)現(xiàn)類型化的文本模式,并將這些模式組織成同義組亡电。在模式質(zhì)量和同義模式群質(zhì)量上届巩,我們與目前最先進(jìn)的SOL模式綜合集挖掘方法PATTY進(jìn)行了比較。由于類型化文本模式?jīng)]有標(biāo)準(zhǔn)的基本事實(shí)份乒,我們報(bào)告了對(duì)這三個(gè)數(shù)據(jù)集的大量定性分析恕汇。
第二個(gè)任務(wù)是提取<實(shí)體、屬性或辖、值>(EAV)元組信息瘾英。對(duì)于競(jìng)爭(zhēng)方法從新聞和推特中生成的每個(gè)同義模式集,如果合適的話颂暇,我們將其分配給表3中集合中的一個(gè)屬性類型缺谴。我們從提取中收集5621個(gè)EAV元組,將它們標(biāo)記為true或false耳鸯,最后湿蛔,我們得到3345個(gè)真正的EAV元組膀曾。我們有2400個(gè)從APR中提取的正確的EAV元組和2090個(gè)從TWT中提取正確的元組。它們的大多數(shù)都不在現(xiàn)存的知識(shí)庫(kù)中阳啥,我們正在探索從新的文本語(yǔ)料庫(kù)中提取的新內(nèi)容添谊。
我們從精確度和召回率兩個(gè)方面來(lái)評(píng)估性能。精確度定義為預(yù)測(cè)的EAV元組中為真的比值苫纤。召回率被定義為碉钠,標(biāo)記為真的EAV元組的部分被預(yù)測(cè)為真EAV元組的比值。我們使用(1)F1分?jǐn)?shù)卷拘,即精確性和召回率的調(diào)和平均值喊废,以及(2)精確性召回曲線下的面積(AUC)。所有值都在0到1之間栗弟,值越大表示性能越好污筷。在第二個(gè)任務(wù)中,除了PATTY之外乍赫,元組提取的競(jìng)爭(zhēng)性方法有:Ollie[37]是一個(gè)開(kāi)放的IE系統(tǒng)瓣蛀,它可以提取具有句法和詞匯模式的關(guān)系元組;ReNoun[40]通過(guò)帶注釋的語(yǔ)料庫(kù)學(xué)習(xí)“S-A-O”模式雷厂,如“S A, O”和“A of S is O”惋增。兩個(gè)方法都忽略實(shí)體類型信息。我們開(kāi)發(fā)了四種MetaPAD替代品改鲫,如下所示:
- MetaPAD-T:只進(jìn)行分割诈皿,實(shí)體類型粗粒度;
- MetaPAD-TS:基于MetaPAD-T的同義分組等其他3個(gè)MetaPAD的核心組件
- MetaPAD-B:只進(jìn)行分割像棘,實(shí)體類型細(xì)粒度
- MetaPAD-BS:基于MetaPAD-B的同義分組等其他3個(gè)MetaPAD的核心組件
閾值設(shè)置:
最長(zhǎng)的pattern長(zhǎng)度:
graininess指數(shù):
support指數(shù):
文本模式挖掘?qū)嶒?yàn)結(jié)果
如圖所示:兩種屬性coutry: president稽亏,company:ceo
- meta pattern來(lái)自于類型化語(yǔ)料,而不是句法依賴分樹(shù)中的最短路徑缕题;因此這些模式可以保留豐富截歉,廣泛的上下文信息;
- meta pattern擁有具有高質(zhì)量的信息性烟零、完整性等等瘪松,使用者很容易就能知道為什么這個(gè)pattern作為完整的語(yǔ)義單元被提取锨阿;
- 盡管像“$Politician was elected as the president of $Country”這樣的模式數(shù)量少而且長(zhǎng)凉逛,但是它們可以分類到與其同義模式一組中,這樣對(duì)于一個(gè)實(shí)體屬性的所有抽取都可以聚合到一個(gè)集合里群井。這就是為什么MetaPAD可以成功地發(fā)現(xiàn)像Burkina Faso這樣地小國(guó)地總統(tǒng)状飞,和新創(chuàng)公司地CEO;
- MetaPAD從并不存在于現(xiàn)有知識(shí)庫(kù)的新的語(yǔ)料中發(fā)現(xiàn)了豐富地person: data_of_birth 信息,這是因?yàn)镸etaPAD不僅僅使用實(shí)體類型信息诬辈,而且使用數(shù)據(jù)類型信息酵使,像$Month$Day$Year。
表4顯示我們的MetaPAD還可以從生物醫(yī)學(xué)領(lǐng)域發(fā)現(xiàn)同義元模式組和提取焙糟。如果沒(méi)有對(duì)特定領(lǐng)域知識(shí)的大量注釋口渔,我們可以找到$Treatment可以治療什么$Disease和什么$Bacteria對(duì)什么$Antibiotics有抵抗力的所有模式。
下圖顯示了PATTY從這四個(gè)句子生成的SOL模式語(yǔ)法集穿撮。首先缺脉,依賴路徑失去了第一個(gè)示例中的“president”和最后一個(gè)示例中的“ceo”等實(shí)體周圍的豐富上下文。其次悦穿,SOL模式synset不能對(duì)真正同義類型的文本模式進(jìn)行分組攻礼。我們可以看到生成元模式并將它們分組為同義簇的優(yōu)勢(shì)。在簡(jiǎn)介部分中栗柒,我們還展示了MetaPAD可以為屬性類型(如person:age和person:date_of_birth)找到包含豐富上下文信息的元模式礁扮。
EAV元組抽取結(jié)果
除了直接比較挖掘同義類型文本模式的質(zhì)量外,我們還應(yīng)用了不同系統(tǒng)的模式Ollie瞬沦、ReNoun和PATTY太伊,從兩個(gè)通用語(yǔ)料庫(kù)APR(news)和TWT(tweets)中提取元組信息。
表6總結(jié)了每個(gè)文本模式系統(tǒng)從新聞和tweet數(shù)據(jù)集中提取的元組信息的比較結(jié)果逛钻。圖8展示了精確召回曲線僚焦,進(jìn)一步證明了MetaPAD方法的有效性。我們的觀察和分析如下曙痘。
- 總的來(lái)說(shuō)叠赐,MetaPAD-TS和MetaPAD-BS在兩個(gè)數(shù)據(jù)集上都比baseline要好。
- MetaPAD-T和MetaPAD-B僅僅分割而沒(méi)有分組就比PATTY要好屡江。
- MetaPAD-TS and MetaPAD-BS比起MetaPAD-T and MetaPAD-B要好一些,說(shuō)明了分組和調(diào)整實(shí)體類型層級(jí)是有效的赛不。
- 在tweet數(shù)據(jù)集上惩嘉。很多人物地點(diǎn)組織實(shí)體都沒(méi)有辦法進(jìn)行細(xì)粒度的劃分,所有MetaPAD-T(S)比起MetaPAD-B(S)要好踢故。而新聞數(shù)據(jù)包含大量可以細(xì)分粒度的實(shí)體文黎,所以MetaPAD-B(S)表現(xiàn)更好。
MetaPAD在所有類型的屬性抽取上都比其他方法要好殿较,雖然不能提高非常多耸峭。
效率
具體來(lái)說(shuō),對(duì)于31G的tweet數(shù)據(jù)淋纲,MetaPAD不到2小時(shí)劳闹,而PATTY需要Stanford parser需要7.3小時(shí),Ollie需要28.4小時(shí)。注意本涕,對(duì)于包含許多長(zhǎng)句的較小的新聞數(shù)據(jù)业汰,PATTY需要更多的時(shí)間,10.1小時(shí)菩颖。