MetaPAD: 從大量文本語(yǔ)料庫(kù)中發(fā)現(xiàn)元模式

MetaPAD: Meta Pattern Discovery from Massive Text Corpora

背景

本文來(lái)自公子開(kāi)明的博客

傳統(tǒng)的文本序列挖掘方法已經(jīng)公開(kāi)了大量的序列集合飞醉,但是很少有方法能夠提取出具有語(yǔ)義類型的任意序列拌夏。

Hearst patterns使用諸如“NP such as NP, NP, and NP”挖掘上下為關(guān)系;TextRunnerReVerb對(duì)其詞匯模式中的類型信息一無(wú)所知;NELL[8]學(xué)習(xí)基于一組固定的預(yù)設(shè)關(guān)系來(lái)提取名詞短語(yǔ)對(duì)挖腰,這些關(guān)系具有實(shí)體類型:如country:president→$Country×?$Politician;

一個(gè)例外是PATTY提出地SQL模式饺谬,依賴于句法分析器婿屹,并利用來(lái)自知識(shí)庫(kù)或類型系統(tǒng)的類型信息皆警,是在單個(gè)句子的解析樹(shù)上用兩個(gè)類型實(shí)體之間的最短路徑自動(dòng)生成的珊皿。但SOL-模式在從大規(guī)模文本語(yǔ)料庫(kù)中挖掘類型文本模式時(shí)有三個(gè)限制萨咳,如下所示懊缺。

image
  1. 一個(gè)好的文本文本應(yīng)該是信息豐富的、自身包含上下文信息某弦。PATTY中的依賴分析失去了圍繞實(shí)體的豐富上下文桐汤,例如句子1中“Barack Obama”旁邊的“president”和句子2中的“president”和“prime_minister”而克。此外,SOL 模式僅限于兩個(gè)實(shí)體之間的依賴路徑怔毛,但不表示諸如$Digit表示“55”和$ Month? $; Day?$Year之類的數(shù)據(jù)類型员萍。此外,解析過(guò)程代價(jià)高昂:它的復(fù)雜度是句子長(zhǎng)度的三次方拣度,這對(duì)于新聞和科學(xué)語(yǔ)料庫(kù)來(lái)說(shuō)代價(jià)太高碎绎,因?yàn)樗鼈兌加泻荛L(zhǎng)的句子。我們期待一種針對(duì)海量語(yǔ)料庫(kù)的文本挖掘方法抗果。
  2. 其次筋帖,為了處理模式稀疏性,為了擴(kuò)展知識(shí)庫(kù)和問(wèn)答系統(tǒng)冤馏,需要對(duì)同義文本模式進(jìn)行識(shí)別和分組日麸,并對(duì)它們抽取的信息進(jìn)行聚合。如圖1所示逮光,country:president 和person:age兩個(gè)同義模式組代箭。然而,找到這些同義模式組的過(guò)程是非常重要的涕刚。應(yīng)考慮多方面的信息:(1)同義詞應(yīng)共享相同的實(shí)體類型或數(shù)據(jù)類型嗡综;(2)即使對(duì)于同一實(shí)體(如巴拉克奧巴馬),也應(yīng)允許對(duì)其進(jìn)行不同的分組和概括(如<United States, Barack Obama> vs. <Barack Obama, 55>)杜漠;(3)共享詞(如“president”)或語(yǔ)義相似的上下文詞語(yǔ)(如“age”和“-year-old”)可能在同義模式分組中發(fā)揮重要作用极景。PATTY在對(duì)同義模式進(jìn)行分組時(shí)不探索多方面的信息,因此不能聚合這樣的提取驾茴。
  3. 第三盼樟,文本模式中的實(shí)體類型應(yīng)該是精確的。在不同的模式中锈至,即使同一個(gè)實(shí)體也可以在不同的類型級(jí)別上進(jìn)行類型化恤批。例如,實(shí)體“Barack Obama”應(yīng)該在由第1-2句生成的模式中以細(xì)粒度(Politician)輸入裹赴,在由第3-4句生成的模式中以粗粒度(Person)輸入。然而诀浪,PATTY并沒(méi)有尋找合適的實(shí)體類型粒度棋返。

定義(Meta Pattern):是指實(shí)體類型(例如,$ Person雷猪,$ Politician睛竣,$Country)或數(shù)據(jù)類型(例如,$Digit求摇,$Month射沟,$Year)殊者、單詞(例如,“politician”验夯,“age”)或短語(yǔ)(例如猖吴,“prime minister”)的頻繁、具有信息性和精確的子序列挥转,可能還有標(biāo)點(diǎn)符號(hào)(例如海蔽,“,”绑谣,“(”)党窜,作為一個(gè)整體特定語(yǔ)境中的語(yǔ)義單位。

為什么要挖掘元模式和同義元模式分組借宵?-因?yàn)閷⒃J酵诰蚝头纸M為同義組可能有助于信息提取并將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)幌衣。例如,我們從一個(gè)新聞?wù)Z料庫(kù)中得到一句話壤玫,“President Blaise Compaore′’s government of Burkina Faso was founded …”豁护,如果我們發(fā)現(xiàn)了元模式““president $Politician’s government of $Country”,我們就可以識(shí)別并分類一個(gè)新的實(shí)體(即“Blaise Compaore′”$Politician和““Burkina Faso”作為$Country)垦细,以前的研究需要人類在語(yǔ)言規(guī)則方面的專業(yè)知識(shí)或大量的標(biāo)注數(shù)據(jù)學(xué)習(xí)择镇。如果我們將模式與同義模式(如“$Country president $Politician”)組合,我們可以將事實(shí)元組<Burkina nafaso, president, Blaise Compaore′>合并到屬性類型<country:president>的大量事實(shí)集合中.

為了系統(tǒng)地解決元模式挖掘和同義模式分組的難題括改,我們開(kāi)發(fā)了一個(gè)稱為MetaPAD(Meta Pattern Discovery)的新框架腻豌。我們的MetaPAD沒(méi)有處理每一個(gè)單獨(dú)的句子,而是利用大量的句子中豐富的模式來(lái)表示大量實(shí)例的屬性或關(guān)系嘱能。首先吝梅,MetaPAD使用高效的順序模式挖掘生成元模式候選,具有豐富的領(lǐng)域無(wú)關(guān)上下文特征的用于直觀的想法(例如惹骂,頻率苏携、信息性)學(xué)習(xí)一個(gè)質(zhì)量評(píng)估函數(shù)來(lái)評(píng)估候選模式,然后通過(guò)評(píng)估引導(dǎo)的上下文感知分割挖掘高質(zhì)量元模式对粪。其次右冻,MetaPAD將同義元模式的分組過(guò)程作為一項(xiàng)學(xué)習(xí)任務(wù)來(lái)制定,并通過(guò)集成實(shí)體類型著拭、數(shù)據(jù)類型纱扭、模式上下文和提取的實(shí)例等多個(gè)方面的特征來(lái)解決這個(gè)問(wèn)題。第三儡遮,MetaPAD檢查從每個(gè)元模式組中提取的實(shí)體的類型分布乳蛾,并尋找模式t最合適的類型級(jí)別。這包括自上而下和自下而上的方案,它們遍歷類型本體以獲得模式的精確性肃叶。

相關(guān)工作

開(kāi)放域信息抽取工具

TextRunner:開(kāi)放域信息抽取工具蹂随,提取文本語(yǔ)料庫(kù)中實(shí)體之間的字符串,并對(duì)這些字符串進(jìn)行聚類和簡(jiǎn)化以生成關(guān)系提及因惭。

ReVerb:開(kāi)放域信息抽取工具岳锁,自動(dòng)識(shí)別和提取英語(yǔ)句子中的二元關(guān)系,限制以介詞結(jié)尾的動(dòng)詞或動(dòng)詞短語(yǔ)的模式筛欢。

不足:這些規(guī)則或者模式是沒(méi)有實(shí)體信息的字符串/短語(yǔ)浸锨。

屬性抽取工具

Biperpedia:谷歌,從用戶的查詢(“president of united states” and “barack oabma’s wife”)中將實(shí)體替換為E版姑,名詞性屬性替換為A產(chǎn)生E-A pattern柱搜,如A of E,E's A;

ReNoun:從預(yù)先定義的屬性名稱子集上的標(biāo)注語(yǔ)料庫(kù)(例如剥险,“Barack Obama’s wife is Michelle Obama” and “Larry Page, CEO of Google”)通過(guò)將實(shí)體/主題替換為“S”聪蘸,將屬性名稱替換為“A”,將值/對(duì)象替換為“O”表制,生成S-A-O模式(例如健爬,“S's A is O”和“O,A of S”)。

不足:但是么介,查詢?nèi)罩竞妥⑨屚ǔ2豢捎没虼鷥r(jià)高昂娜遵。此外,查詢?nèi)罩咀值姆植寂c普通的書面語(yǔ)言相比壤短,具有很強(qiáng)的約束性设拟。因此,大多數(shù)S-A-O模式久脯,如“S-A-O”和“S-A-O”纳胧,在應(yīng)用于文本語(yǔ)料庫(kù)時(shí)會(huì)產(chǎn)生噪聲。

其他信息抽取工具

NELL:永動(dòng)學(xué)習(xí)機(jī)帘撰,利用一個(gè)初始的本體和二元關(guān)系跑慕,和一些標(biāo)記和大量Web網(wǎng)頁(yè)抽取模版;其中一個(gè)步驟就是學(xué)習(xí)規(guī)則來(lái)標(biāo)注新的實(shí)例摧找。

OntExt:一次對(duì)給定實(shí)體類型的名詞短語(yǔ)對(duì)進(jìn)行頻繁的共現(xiàn)聚類核行,但不能擴(kuò)展到挖掘大型語(yǔ)料庫(kù)。

PATTY:第一個(gè)利用類型系統(tǒng)挖掘?qū)嶓w類型的關(guān)系模式的蹬耘。

元模式挖掘

數(shù)據(jù)預(yù)處理: Harnessing Typing Systems

為了找到文本類型的元模式钮科,我們采用了一種有效的文本挖掘方法,將一個(gè)語(yǔ)料庫(kù)預(yù)處理成一個(gè)細(xì)粒度類型語(yǔ)料庫(kù)婆赠,輸入步驟如下,分成3步:

以 U.S. President Barack Obama and Prime Minister Justin Trudeau of Canada met in … 為例子

  1. 使用一個(gè)短語(yǔ)挖掘方法,將一個(gè)句子分解成短語(yǔ)休里、單詞和標(biāo)點(diǎn)符號(hào)蛆挫,這樣就可以找到比PATTY中頻繁項(xiàng)集挖掘的頻繁n-grams更多的真實(shí)短語(yǔ),如“barack obama”, “prime minister”妙黍。

  2. 我們使用基于遠(yuǎn)程監(jiān)控的方法來(lái)聯(lián)合識(shí)別實(shí)體及其粗粒度類型(即$Person悴侵,$Location和$Organization)。

  3. 采用細(xì)粒度的實(shí)體類型系統(tǒng)來(lái)區(qū)分2級(jí)本體和112種實(shí)體類型(如$Polotical拭嫁,$Country可免,$Company);我們進(jìn)一步使用一組語(yǔ)言規(guī)則區(qū)分6種數(shù)據(jù)類型(包括$Digit做粤,$DigitUnit浇借,$DigitRank,$Month怕品,$Day晕城,$Year)蔚润。其中,
    $DigitUnit: “percent”, “%”, “hundred”, “thousand”, “million”, “billion”, “trillion”…,

    $DigitRank: “first”, “1st”, “second”, “2nd”, “44th”…

    現(xiàn)在我們有了一個(gè)細(xì)粒度的锣险、類型化的語(yǔ)料庫(kù),它由元模式中定義的相同類型的標(biāo)記組成:實(shí)體類型拉鹃、數(shù)據(jù)類型窘疮、短語(yǔ)、單詞和標(biāo)點(diǎn)符號(hào)炫乓。

image

問(wèn)題定義

Problem(Meta Pattern Discovery):給定一個(gè)細(xì)粒度的刚夺、類型化的大量句子的語(yǔ)料庫(kù)C=[...,S,...],而且每個(gè)句子都被表示為 S=t_1t_2...t_n 厢岂,其中t_k \in \mathcal T \cup \mathcal P \cup \mathcal M 光督,t_k 是第 k 個(gè)token,\mathcal T是實(shí)體類型和數(shù)據(jù)類型的集合塔粒,\mathcal P是短語(yǔ)和單詞的集合结借。\mathcal M是標(biāo)點(diǎn)符號(hào)的集合。任務(wù)是找到尋找高質(zhì)量的同義元模式分組卒茬。一個(gè)元模式mp是來(lái)自\mathcal T \cup \mathcal P \cup \mathcal M集合的token的子序列船老。一個(gè)同義元模式分組表示為\mathcal MPG =[...,mp_i,...,mp_j..],其中每一對(duì)模式圃酵,如mp_imp_j柳畔,是同義的。

什么樣的模式才是一個(gè)高質(zhì)量的元模式呢郭赐?在這里薪韩,我們把句子當(dāng)做一系列的標(biāo)記。已有的序列模式挖掘算法在事務(wù)序列數(shù)據(jù)庫(kù)中挖掘滿足單個(gè)度量(最小支持閾值)的頻繁子序列。然而俘陷,對(duì)于文本序列數(shù)據(jù)罗捎,我們提出的文本模式元模式的質(zhì)量應(yīng)該像短語(yǔ)挖掘一樣,按照以下四個(gè)標(biāo)準(zhǔn)來(lái)評(píng)估拉盾。

例子. 一個(gè)模式的質(zhì)量評(píng)估標(biāo)準(zhǔn)如下:(前一個(gè)模式的質(zhì)量高于后一個(gè)模式)

  • 頻率:“$DigitRank president of $ Country” vs.“young president of $Country”桨菜;
  • 完整性:“$Country president $Politician” vs. “$Country president”、“$Person's wife,$Person” vs. “$Person's wife”捉偏;
  • 信息性:“$Person's wife,$Person”vs.“$Person and Person”倒得;
  • 精確性:“$Country president $Politician” vs. “$Location president $Politician”,“$$Person's wife,$Person” vs. “$Politician's wife,$Person”夭禽,“population of $Location” vs. “population of $Country”霞掺。

什么才是同義的元模式呢?事務(wù)數(shù)據(jù)集中的頻繁序列模式集合是巨大的驻粟;來(lái)自大量語(yǔ)料庫(kù)的元模式數(shù)目也是巨大的根悼。由于在自然語(yǔ)言中表達(dá)相同或相似含義有多種方式,許多元模式可能具有相同或幾乎相同的含義蜀撑。示例如圖1所示挤巡。對(duì)同義元模式進(jìn)行分組有助于從不同的句子中提取大量的不同模式】崧螅總的抽取的信息的類型分布可以幫助我們調(diào)整組中的元模式以獲得精確性矿卑。

MetaPAD 框架

MetaPAD的框架分為3個(gè)部分。

  1. 它開(kāi)發(fā)了一種上下文感知的分割方法沃饶,以確定子序列的邊界母廷,并生成元模式的頻率、完整性和信息性糊肤。
  2. 它將同義元模式分組琴昆。
  3. 對(duì)于每個(gè)同義模式組,它會(huì)根據(jù)適當(dāng)?shù)牧6日{(diào)整實(shí)體類型的級(jí)別馆揉,以具有精確的元模式业舍。
image

通過(guò)上下文感知算法生成元模式

候選模式生成

我們采用標(biāo)準(zhǔn)的頻繁序列模式挖掘算法來(lái)尋找滿足最小sup閾值的模式候選。實(shí)際上升酣,可以設(shè)置最大模式長(zhǎng)度ω來(lái)限制模式中的token數(shù)量舷暮。與非常長(zhǎng)的句子的句法分析不同,我們的元模式挖掘探索的模式結(jié)構(gòu)是局部的噩茄,但仍然具有廣泛的上下文:在我們的實(shí)驗(yàn)中下面,我們?cè)O(shè)置ω=20。

元模式質(zhì)量評(píng)估

考慮到大量的候選模式可能很混亂(例如绩聘,“of $Country” and“$political and”)沥割,理想情況是用很少的訓(xùn)練標(biāo)簽來(lái)評(píng)估候選模式的質(zhì)量耗啦,但具有挑戰(zhàn)性。根據(jù)質(zhì)量標(biāo)準(zhǔn)驯遇,我們引入了一組豐富的上下文特征如下芹彬,并訓(xùn)練一個(gè)分類器,以估計(jì)質(zhì)量函數(shù)Q(mp)\in [0叉庐,1],其中mp是一個(gè)候選元模式:

  1. 頻率:一個(gè)好的元模式mp 應(yīng)該在給定類型的預(yù)料中有著足夠的出現(xiàn)此書c(mp)

  2. 一致性:如果由于偶然性会喝,token組合的頻率明顯高于預(yù)期陡叠,則元模式mp具有良好的一致性。為了從統(tǒng)計(jì)學(xué)上解釋這種一致性肢执,我們考慮了一個(gè)空假設(shè):語(yǔ)料庫(kù)是由一系列獨(dú)立的伯努利試驗(yàn)產(chǎn)生的枉阵。假設(shè)語(yǔ)料庫(kù)中的token數(shù)是L,可以假定它相當(dāng)大预茄。在我們的零假設(shè)下兴溜,一對(duì)子模式<mp_l,mp_r>的期望頻率是

    <centor> \mu_0(c(<mp_l,mp_r>))= L\cdot p(mp_l)\cdot p(mp_r) </centor>

    其中p(mp)=\frac {c(mp)}{L},是模式的經(jīng)驗(yàn)概率耻陕。使用Z指數(shù)來(lái)衡量一對(duì)子模式<mp_l,mp_r>構(gòu)成語(yǔ)料庫(kù)中作為mp的最佳搭配

    <centor>Z(mp)=\mathop{max}\limits_{<mp_l,mp_r>=mp} \frac{c(mp)-\mu_0(c(<mp_l,mp_r>))}{\sigma <mp_l,mp_r>}</centor>

    其中\sigma<mp_l,mp_r>表示頻率的標(biāo)準(zhǔn)差拙徽,Z指數(shù)較高的表明模式在上下文中充當(dāng)一個(gè)完整的語(yǔ)義單位:其組成的子模式高度相關(guān)。

  3. 信息性:一個(gè)好的模式mp應(yīng)該具有上下文信息诗宣。我們檢查不同類型的token(例如膘怕,類型、單詞召庞、短語(yǔ)岛心、非停用詞、符號(hào))的計(jì)數(shù)篮灼。例如忘古,模式“$Person's wide$Person”是“wife”的上下文信息,而“$Person was born in $City”是“born in”的意思诅诱,而“$Person,$Digit,”也是兩種不同類型和兩個(gè)逗號(hào)的信息髓堪。

  4. 完整性:我們使用模式候選(例如“$Country president $Politician”)和其子模式(例如“$Country president”)的頻率之間的比率。如果比率很高逢艘,候選模式很可能是完整的旦袋。我們還使用了候選模式的頻率與其父模式頻率之間的比率。如果比率很高它改,候選模式很可能是不完整的疤孕。此外,我們期望元模式不受停用詞的限制央拖。例如祭阀,“$Country president $Politician”和“$Country president and”都沒(méi)有受限

  5. 覆蓋范圍:一個(gè)好類型的模式可以提取多個(gè)實(shí)例鹉戚。例如,$Politician類型在模式“Politician's healthcare law”中僅指一個(gè)實(shí)體“巴拉克奧巴馬”专控,因此在語(yǔ)料庫(kù)中的覆蓋率太低抹凳。

我們訓(xùn)練了一個(gè)基于隨機(jī)森林的分類器,用以學(xué)習(xí)具有上述豐富上下文特征集合的元概率質(zhì)量函數(shù)Q(mp)伦腐。我們的實(shí)驗(yàn)表明赢底,使用100個(gè)元模式標(biāo)簽可以達(dá)到與使用300個(gè)標(biāo)簽相似的精度和召回率。請(qǐng)注意柏蘑,學(xué)習(xí)結(jié)果可以轉(zhuǎn)移到其他領(lǐng)域:低質(zhì)量的模式“$Politician and $Country”和“$Bacteria and $Antibiotics”的特征相似幸冻;高質(zhì)量的patterns“$Politician is president of $Country”和“$Bacteria is resistant to$Antibiotics”的特征相似。

使用Q(.)和反饋上下文感知分割

利用模式質(zhì)量函數(shù)Q(.)從豐富的上下文特征集合中學(xué)習(xí)咳焚,提出了一種自下而上的分割算法洽损,以構(gòu)造高質(zhì)量分?jǐn)?shù)的最佳分割。如圖4所示革半,我們使用Q(.)來(lái)確定分段的邊界:我們以“$Country president $political”作為元模式碑定,因?yàn)橘|(zhì)量分?jǐn)?shù)高;我們不選擇候選模式“and prime_minister_$political of $Country”又官,因?yàn)槠滟|(zhì)量分?jǐn)?shù)低延刘。
由于Q(mp)是用包括原始頻率c(mp)在內(nèi)的特征來(lái)學(xué)習(xí)的,因此質(zhì)量分?jǐn)?shù)可能被高估或低估:原則是每一個(gè)token的出現(xiàn)應(yīng)該只分配給一個(gè)模式赏胚,但是原始頻率可以多次對(duì)這個(gè)token計(jì)數(shù)访娶。幸運(yùn)的是,在分割之后觉阅,我們可以將頻率校正為c_r(mp)崖疤,例如在圖4中,分割避免了高估頻率/質(zhì)量的“$Politicion and prime_minister $Politician”(見(jiàn)表1)典勇。
一旦頻率特征被提取出來(lái)劫哼,我們就用c(mp)作為反饋重新學(xué)習(xí)質(zhì)量函數(shù)Q(.),并用它重新分割語(yǔ)料庫(kù)割笙。這可能是一個(gè)迭代過(guò)程权烧,但我們發(fā)現(xiàn)只需要一次迭代,結(jié)果收斂伤溉。算法1顯示了細(xì)節(jié)般码。

image
image

算法1

image

同義元模式分組

對(duì)于同一種關(guān)系,可能有許多元模式乱顾。如果我們對(duì)所有這些元模式進(jìn)行分組板祝,我們就可以從大量的語(yǔ)料庫(kù)中聚合所有這些關(guān)系的提取。PATTY對(duì)它們基于依賴路徑的SOL模式的同義模式有一個(gè)狹義的定義:如果兩個(gè)模式從語(yǔ)料庫(kù)中生成相同的提取集走净,那么它們就是同義的券时。在這里孤里,我們開(kāi)發(fā)了一種學(xué)習(xí)方法來(lái)整合三個(gè)方面的信息:(1)模式中的實(shí)體/數(shù)據(jù)類型,(2)模式中的上下文單詞/短語(yǔ)橘洞,以及(3)模式提取的信息捌袜,以將元模式分配到組中。我們的方法基于以下三個(gè)假設(shè)(見(jiàn)圖5):

A1:同義元模式必須有相同的實(shí)體或者數(shù)據(jù)類型炸枣,像元模式“$Person's age is $Digit” 和“$Person's wife is $Person”虏等;

A2:如果兩個(gè)元模式具有相同的上下文單詞或短語(yǔ),那么他們很可能是同義的适肠,像模式“$Country president $Politician”和“president $ Politician of $Country”有同樣的單詞“president”博其;

A3:如果兩個(gè)模式抽取出更多相同的信息,它們更可能是同義的迂猴,像“$Person's age is $Digit”和“$Person, $Digit”都抽取出<Barack Obama,55>背伴。

image

由于事先無(wú)法知道有多少組沸毁,我們建議先構(gòu)造一個(gè)模式-模式圖,其中每個(gè)模式之間的邊滿足A1傻寂,并且預(yù)測(cè)為同義的模式息尺。然后使用圖團(tuán)體檢測(cè)技術(shù)將所有的團(tuán)作為同義元模式分組。在這團(tuán)\mathcal MPG = [...,mp_i,...mp_j...]中疾掰,每一對(duì)模式(mp_i,mp_j)是同義的搂誉。

對(duì)于圖的構(gòu)建,我們訓(xùn)練了一個(gè)支持向量回歸機(jī)學(xué)習(xí)基于A2和A3的一對(duì)pattern的以下特征:(1)每個(gè)模式擁有的和共享的單詞静檬,非停用詞炭懊,短語(yǔ)數(shù)量;(2)兩個(gè)模式非停用單詞或短語(yǔ)之間的最大相似性得分拂檩;(3)每個(gè)模式抽取的信息和共同抽取的信息侮腹。其中,單詞/短語(yǔ)之間的相似性由其word2vec嵌入的余弦相似性表示稻励。

調(diào)整實(shí)體類型以提高精度

給定一組同義的元模式父阻,我們希望這些模式是精確的:需要確定模式中實(shí)體類型的級(jí)別以獲得適當(dāng)?shù)牧6取S捎谕x元模式的分組過(guò)程望抽,我們從大量的抽取信息的集合中獲得了豐富的實(shí)體類型分布加矛。

如圖所示,給定一個(gè)實(shí)體類型的本體(如$Location,$Country,$State,$City..., $Person:$Artist,$Athlete,$Politician, ...)煤篙,對(duì)于同義模式組“president $Person of $Location”斟览,“$Location's president $Person”和“Location president $Person”,這些模式里的實(shí)體類型舰蟆,$Location $Person是否恰當(dāng)能夠確保這些模式是精確的趣惠。如果我們觀察這些模式提取中實(shí)體的類型分布狸棍,很明顯,$Location的大多數(shù)實(shí)體在細(xì)粒度級(jí)別上被鍵入$Country(例如味悄,“United States”)或$Ethnicity(例如草戈,“Russian”),而$Person的大多數(shù)實(shí)體也具有細(xì)粒度類型$Politician侍瑟。因此唐片,與“$Location總統(tǒng)$Person”相比,“$Country總統(tǒng)$Politician”和“$Ethnicity總統(tǒng)$Politician”這兩個(gè)細(xì)粒度的元模式更加精確涨颜;

image

我們對(duì)同義群中的其他元模式也有相同的主張费韭。另一方面,對(duì)于同義元模式組person:age庭瑰,我們可以看到大多數(shù)實(shí)體在粗粒度級(jí)別上被輸入為$Person星持,而不是$Athlete或$Politician。所以模式中的實(shí)體類型最好是$Person弹灭。根據(jù)這一觀察督暂,給定元模式組中的實(shí)體類型T,我們提出了一個(gè)稱為graininess的度量穷吮,它定義為T類型的實(shí)體的分?jǐn)?shù)逻翁,這些實(shí)體可以細(xì)化為T的子類型:

g(T)=\frac{\sum_{T' \in subtype\_of(T)}num\_entity(T')}{\sum_{T' \in subtype\_of(T)\cup\{T\}}num\_entity(T')}

如果g(T)比閾值\theta更高,我們就選擇更深層的細(xì)粒度類型的類型本體捡鱼。

假設(shè)我們已經(jīng)使用粒度度量在元模式組中確定了適當(dāng)?shù)念愋图?jí)別八回。然而,并不是每一個(gè)級(jí)別的類型都可以用來(lái)構(gòu)造精確的元模式驾诈。例如缠诅,我們可以從圖6中看到總統(tǒng)的模式,$Location的很少實(shí)體被輸入為$City翘鸭,$Person的很少實(shí)體被輸入為$Artist滴铅。與$Country、$Ethnicity和$Politician相比就乓,這些細(xì)粒度類型處于相同的級(jí)別汉匙,但對(duì)提取的信息支持太少。我們把他們排除在元模式組之外生蚁∝洌基于這一思想,對(duì)于實(shí)體類型T邦投,我們提出了另一個(gè)度量伤锚,稱為支持,它定義為T類型的實(shí)體數(shù)與T的同級(jí)類型的最大實(shí)體數(shù)之比:

s(T)=\frac{num\_entity(T)}{max_{T' \in sibling-type \_ of(T)\cup{T}} num\_entity(T')}

如果s(T)比閾值\gamma更高志衣,我們?cè)谠J椒纸M中考慮類型T屯援,否則丟棄它猛们。

利用這兩個(gè)度量,我們開(kāi)發(fā)了一個(gè)自頂向下的方案狞洋,首先對(duì)粗粒度類型的元模式進(jìn)行分段和同義模式分組弯淘,然后檢查細(xì)粒度類型是否有意義,以及模式是否可以拆分到細(xì)粒度級(jí)別吉懊;我們還開(kāi)發(fā)了一個(gè)自下而上的方案庐橙,該方案首先處理細(xì)粒度類型的元模式,然后檢查模式是否可以合并到粗粒度級(jí)別借嗽。

實(shí)驗(yàn)

數(shù)據(jù)集

  • APR:美聯(lián)社和路透社2015年的新聞态鳖;
  • TWT:2015年6月至2015年9月通過(guò)Twitter API收集的推文;
  • CVD:PubMed數(shù)據(jù)庫(kù)中有關(guān)心血管疾病的論文標(biāo)題和摘要恶导。
image

新聞和生物醫(yī)學(xué)論文語(yǔ)料庫(kù)中經(jīng)常出現(xiàn)長(zhǎng)句浆竭,這對(duì)文本模式挖掘具有很大的挑戰(zhàn)性。例如惨寿,PATTY中的句法依賴分析部分具有單個(gè)句子長(zhǎng)度的三次計(jì)算復(fù)雜度兆蕉。我們的MetaPAD中的預(yù)處理技術(shù)采用了與外部數(shù)據(jù)庫(kù)的遠(yuǎn)程監(jiān)督,用于實(shí)體識(shí)別和細(xì)粒度類型缤沦。對(duì)于一般的語(yǔ)料庫(kù),比如新聞和推文易稠,我們使用DBpedia和Freebase缸废;對(duì)于生物醫(yī)學(xué)語(yǔ)料庫(kù),我們使用公共MeSH數(shù)據(jù)庫(kù)驶社。

實(shí)驗(yàn)設(shè)置

我們?cè)趯?shí)驗(yàn)中執(zhí)行兩項(xiàng)任務(wù)企量。第一個(gè)任務(wù)是從大量語(yǔ)料庫(kù)中發(fā)現(xiàn)類型化的文本模式,并將這些模式組織成同義組亡电。在模式質(zhì)量和同義模式群質(zhì)量上届巩,我們與目前最先進(jìn)的SOL模式綜合集挖掘方法PATTY進(jìn)行了比較。由于類型化文本模式?jīng)]有標(biāo)準(zhǔn)的基本事實(shí)份乒,我們報(bào)告了對(duì)這三個(gè)數(shù)據(jù)集的大量定性分析恕汇。

第二個(gè)任務(wù)是提取<實(shí)體、屬性或辖、值>(EAV)元組信息瘾英。對(duì)于競(jìng)爭(zhēng)方法從新聞和推特中生成的每個(gè)同義模式集,如果合適的話颂暇,我們將其分配給表3中集合中的一個(gè)屬性類型缺谴。我們從提取中收集5621個(gè)EAV元組,將它們標(biāo)記為true或false耳鸯,最后湿蛔,我們得到3345個(gè)真正的EAV元組膀曾。我們有2400個(gè)從APR中提取的正確的EAV元組和2090個(gè)從TWT中提取正確的元組。它們的大多數(shù)都不在現(xiàn)存的知識(shí)庫(kù)中阳啥,我們正在探索從新的文本語(yǔ)料庫(kù)中提取的新內(nèi)容添谊。

image

我們從精確度和召回率兩個(gè)方面來(lái)評(píng)估性能。精確度定義為預(yù)測(cè)的EAV元組中為真的比值苫纤。召回率被定義為碉钠,標(biāo)記為真的EAV元組的部分被預(yù)測(cè)為真EAV元組的比值。我們使用(1)F1分?jǐn)?shù)卷拘,即精確性和召回率的調(diào)和平均值喊废,以及(2)精確性召回曲線下的面積(AUC)。所有值都在0到1之間栗弟,值越大表示性能越好污筷。在第二個(gè)任務(wù)中,除了PATTY之外乍赫,元組提取的競(jìng)爭(zhēng)性方法有:Ollie[37]是一個(gè)開(kāi)放的IE系統(tǒng)瓣蛀,它可以提取具有句法和詞匯模式的關(guān)系元組;ReNoun[40]通過(guò)帶注釋的語(yǔ)料庫(kù)學(xué)習(xí)“S-A-O”模式雷厂,如“S A, O”和“A of S is O”惋增。兩個(gè)方法都忽略實(shí)體類型信息。我們開(kāi)發(fā)了四種MetaPAD替代品改鲫,如下所示:

  1. MetaPAD-T:只進(jìn)行分割诈皿,實(shí)體類型粗粒度;
  2. MetaPAD-TS:基于MetaPAD-T的同義分組等其他3個(gè)MetaPAD的核心組件
  3. MetaPAD-B:只進(jìn)行分割像棘,實(shí)體類型細(xì)粒度
  4. MetaPAD-BS:基于MetaPAD-B的同義分組等其他3個(gè)MetaPAD的核心組件

閾值設(shè)置:

最長(zhǎng)的pattern長(zhǎng)度:\omega = 20

graininess指數(shù):\theta = 0.8

support指數(shù):\gamma = 0.1

文本模式挖掘?qū)嶒?yàn)結(jié)果

image

如圖所示:兩種屬性coutry: president稽亏,company:ceo

  1. meta pattern來(lái)自于類型化語(yǔ)料,而不是句法依賴分樹(shù)中的最短路徑缕题;因此這些模式可以保留豐富截歉,廣泛的上下文信息;
  2. meta pattern擁有具有高質(zhì)量的信息性烟零、完整性等等瘪松,使用者很容易就能知道為什么這個(gè)pattern作為完整的語(yǔ)義單元被提取锨阿;
  3. 盡管像“$Politician was elected as the president of $Country”這樣的模式數(shù)量少而且長(zhǎng)凉逛,但是它們可以分類到與其同義模式一組中,這樣對(duì)于一個(gè)實(shí)體屬性的所有抽取都可以聚合到一個(gè)集合里群井。這就是為什么MetaPAD可以成功地發(fā)現(xiàn)像Burkina Faso這樣地小國(guó)地總統(tǒng)状飞,和新創(chuàng)公司地CEO;
  4. MetaPAD從并不存在于現(xiàn)有知識(shí)庫(kù)的新的語(yǔ)料中發(fā)現(xiàn)了豐富地person: data_of_birth 信息,這是因?yàn)镸etaPAD不僅僅使用實(shí)體類型信息诬辈,而且使用數(shù)據(jù)類型信息酵使,像$Month$Day$Year。

表4顯示我們的MetaPAD還可以從生物醫(yī)學(xué)領(lǐng)域發(fā)現(xiàn)同義元模式組和提取焙糟。如果沒(méi)有對(duì)特定領(lǐng)域知識(shí)的大量注釋口渔,我們可以找到$Treatment可以治療什么$Disease和什么$Bacteria對(duì)什么$Antibiotics有抵抗力的所有模式。

image

下圖顯示了PATTY從這四個(gè)句子生成的SOL模式語(yǔ)法集穿撮。首先缺脉,依賴路徑失去了第一個(gè)示例中的“president”和最后一個(gè)示例中的“ceo”等實(shí)體周圍的豐富上下文。其次悦穿,SOL模式synset不能對(duì)真正同義類型的文本模式進(jìn)行分組攻礼。我們可以看到生成元模式并將它們分組為同義簇的優(yōu)勢(shì)。在簡(jiǎn)介部分中栗柒,我們還展示了MetaPAD可以為屬性類型(如person:age和person:date_of_birth)找到包含豐富上下文信息的元模式礁扮。

image

EAV元組抽取結(jié)果

除了直接比較挖掘同義類型文本模式的質(zhì)量外,我們還應(yīng)用了不同系統(tǒng)的模式Ollie瞬沦、ReNoun和PATTY太伊,從兩個(gè)通用語(yǔ)料庫(kù)APR(news)和TWT(tweets)中提取元組信息。

表6總結(jié)了每個(gè)文本模式系統(tǒng)從新聞和tweet數(shù)據(jù)集中提取的元組信息的比較結(jié)果逛钻。圖8展示了精確召回曲線僚焦,進(jìn)一步證明了MetaPAD方法的有效性。我們的觀察和分析如下曙痘。

image
  1. 總的來(lái)說(shuō)叠赐,MetaPAD-TS和MetaPAD-BS在兩個(gè)數(shù)據(jù)集上都比baseline要好。
  2. MetaPAD-T和MetaPAD-B僅僅分割而沒(méi)有分組就比PATTY要好屡江。
  3. MetaPAD-TS and MetaPAD-BS比起MetaPAD-T and MetaPAD-B要好一些,說(shuō)明了分組和調(diào)整實(shí)體類型層級(jí)是有效的赛不。
  4. 在tweet數(shù)據(jù)集上惩嘉。很多人物地點(diǎn)組織實(shí)體都沒(méi)有辦法進(jìn)行細(xì)粒度的劃分,所有MetaPAD-T(S)比起MetaPAD-B(S)要好踢故。而新聞數(shù)據(jù)包含大量可以細(xì)分粒度的實(shí)體文黎,所以MetaPAD-B(S)表現(xiàn)更好。

MetaPAD在所有類型的屬性抽取上都比其他方法要好殿较,雖然不能提高非常多耸峭。

image

效率

image

具體來(lái)說(shuō),對(duì)于31G的tweet數(shù)據(jù)淋纲,MetaPAD不到2小時(shí)劳闹,而PATTY需要Stanford parser需要7.3小時(shí),Ollie需要28.4小時(shí)。注意本涕,對(duì)于包含許多長(zhǎng)句的較小的新聞數(shù)據(jù)业汰,PATTY需要更多的時(shí)間,10.1小時(shí)菩颖。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末样漆,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子晦闰,更是在濱河造成了極大的恐慌放祟,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呻右,死亡現(xiàn)場(chǎng)離奇詭異跪妥,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)窿冯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門骗奖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人醒串,你說(shuō)我怎么就攤上這事执桌。” “怎么了芜赌?”我有些...
    開(kāi)封第一講書人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵仰挣,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我缠沈,道長(zhǎng)膘壶,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任洲愤,我火速辦了婚禮颓芭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘柬赐。我一直安慰自己亡问,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布肛宋。 她就那樣靜靜地躺著州藕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪酝陈。 梳的紋絲不亂的頭發(fā)上床玻,一...
    開(kāi)封第一講書人閱讀 51,698評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音沉帮,去河邊找鬼锈死。 笑死贫堰,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的馅精。 我是一名探鬼主播严嗜,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼洲敢!你這毒婦竟也來(lái)了漫玄?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤压彭,失蹤者是張志新(化名)和其女友劉穎睦优,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體壮不,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汗盘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了询一。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隐孽。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖健蕊,靈堂內(nèi)的尸體忽然破棺而出菱阵,到底是詐尸還是另有隱情,我是刑警寧澤缩功,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布晴及,位于F島的核電站,受9級(jí)特大地震影響嫡锌,放射性物質(zhì)發(fā)生泄漏虑稼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一势木、第九天 我趴在偏房一處隱蔽的房頂上張望蛛倦。 院中可真熱鬧,春花似錦啦桌、人聲如沸溯壶。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至躲庄,卻和暖如春查剖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背噪窘。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工笋庄, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓直砂,卻偏偏與公主長(zhǎng)得像菌仁,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子静暂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355