MetaPAD: 從大量文本語(yǔ)料庫(kù)中發(fā)現(xiàn)元模式

MetaPAD: Meta Pattern Discovery from Massive Text Corpora

背景

傳統(tǒng)的文本序列挖掘方法已經(jīng)公開(kāi)了大量的序列集合飞醉，但是很少有方法能夠提取出具有語(yǔ)義類型的任意序列拌夏。

Hearst patterns使用諸如“NP such as NP, NP, and NP”挖掘上下為關(guān)系;TextRunner和ReVerb對(duì)其詞匯模式中的類型信息一無(wú)所知；NELL[8]學(xué)習(xí)基于一組固定的預(yù)設(shè)關(guān)系來(lái)提取名詞短語(yǔ)對(duì)挖腰，這些關(guān)系具有實(shí)體類型：如country:president→$Country×?$Politician;

一個(gè)例外是PATTY提出地SQL模式饺谬，依賴于句法分析器婿屹，并利用來(lái)自知識(shí)庫(kù)或類型系統(tǒng)的類型信息皆警，是在單個(gè)句子的解析樹(shù)上用兩個(gè)類型實(shí)體之間的最短路徑自動(dòng)生成的珊皿。但SOL-模式在從大規(guī)模文本語(yǔ)料庫(kù)中挖掘類型文本模式時(shí)有三個(gè)限制萨咳，如下所示懊缺。

image

一個(gè)好的文本文本應(yīng)該是信息豐富的、自身包含上下文信息某弦。PATTY中的依賴分析失去了圍繞實(shí)體的豐富上下文桐汤，例如句子1中“Barack Obama”旁邊的“president”和句子2中的“president”和“prime_minister”而克。此外，SOL 模式僅限于兩個(gè)實(shí)體之間的依賴路徑怔毛，但不表示諸如$Digit表示“55”和$ Month? $; Day?$Year之類的數(shù)據(jù)類型员萍。此外，解析過(guò)程代價(jià)高昂：它的復(fù)雜度是句子長(zhǎng)度的三次方拣度，這對(duì)于新聞和科學(xué)語(yǔ)料庫(kù)來(lái)說(shuō)代價(jià)太高碎绎，因?yàn)樗鼈兌加泻荛L(zhǎng)的句子。我們期待一種針對(duì)海量語(yǔ)料庫(kù)的文本挖掘方法抗果。
其次筋帖，為了處理模式稀疏性，為了擴(kuò)展知識(shí)庫(kù)和問(wèn)答系統(tǒng)冤馏，需要對(duì)同義文本模式進(jìn)行識(shí)別和分組日麸，并對(duì)它們抽取的信息進(jìn)行聚合。如圖1所示逮光，country：president 和person：age兩個(gè)同義模式組代箭。然而，找到這些同義模式組的過(guò)程是非常重要的涕刚。應(yīng)考慮多方面的信息：（1）同義詞應(yīng)共享相同的實(shí)體類型或數(shù)據(jù)類型嗡综；（2）即使對(duì)于同一實(shí)體（如巴拉克奧巴馬），也應(yīng)允許對(duì)其進(jìn)行不同的分組和概括（如<United States, Barack Obama> vs. <Barack Obama, 55>）杜漠；（3）共享詞（如“president”）或語(yǔ)義相似的上下文詞語(yǔ)（如“age”和“-year-old”）可能在同義模式分組中發(fā)揮重要作用极景。PATTY在對(duì)同義模式進(jìn)行分組時(shí)不探索多方面的信息，因此不能聚合這樣的提取驾茴。
第三盼樟，文本模式中的實(shí)體類型應(yīng)該是精確的。在不同的模式中锈至，即使同一個(gè)實(shí)體也可以在不同的類型級(jí)別上進(jìn)行類型化恤批。例如，實(shí)體“Barack Obama”應(yīng)該在由第1-2句生成的模式中以細(xì)粒度（Politician）輸入裹赴，在由第3-4句生成的模式中以粗粒度（Person）輸入。然而诀浪，PATTY并沒(méi)有尋找合適的實(shí)體類型粒度棋返。

定義（Meta Pattern）:是指實(shí)體類型（例如，$ Person雷猪，$ Politician睛竣，$Country）或數(shù)據(jù)類型（例如，$Digit求摇，$Month射沟，$Year）殊者、單詞（例如，“politician”验夯，“age”）或短語(yǔ)（例如猖吴，“prime minister”）的頻繁、具有信息性和精確的子序列挥转，可能還有標(biāo)點(diǎn)符號(hào)（例如海蔽，“，”绑谣，“（”）党窜，作為一個(gè)整體特定語(yǔ)境中的語(yǔ)義單位。

為什么要挖掘元模式和同義元模式分組借宵？-因?yàn)閷⒃Ｊ酵诰蚝头纸M為同義組可能有助于信息提取并將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)幌衣。例如，我們從一個(gè)新聞?wù)Z料庫(kù)中得到一句話壤玫，“President Blaise Compaore′’s government of Burkina Faso was founded …”豁护，如果我們發(fā)現(xiàn)了元模式““president $Politician’s government of $Country”，我們就可以識(shí)別并分類一個(gè)新的實(shí)體（即“Blaise Compaore′”$Politician和““Burkina Faso”作為$Country）垦细，以前的研究需要人類在語(yǔ)言規(guī)則方面的專業(yè)知識(shí)或大量的標(biāo)注數(shù)據(jù)學(xué)習(xí)择镇。如果我們將模式與同義模式（如“$Country president $Politician”）組合，我們可以將事實(shí)元組<Burkina nafaso, president, Blaise Compaore′>合并到屬性類型<country:president>的大量事實(shí)集合中.

為了系統(tǒng)地解決元模式挖掘和同義模式分組的難題括改，我們開(kāi)發(fā)了一個(gè)稱為MetaPAD（Meta Pattern Discovery）的新框架腻豌。我們的MetaPAD沒(méi)有處理每一個(gè)單獨(dú)的句子，而是利用大量的句子中豐富的模式來(lái)表示大量實(shí)例的屬性或關(guān)系嘱能。首先吝梅，MetaPAD使用高效的順序模式挖掘生成元模式候選，具有豐富的領(lǐng)域無(wú)關(guān)上下文特征的用于直觀的想法（例如惹骂，頻率苏携、信息性）學(xué)習(xí)一個(gè)質(zhì)量評(píng)估函數(shù)來(lái)評(píng)估候選模式，然后通過(guò)評(píng)估引導(dǎo)的上下文感知分割挖掘高質(zhì)量元模式对粪。其次右冻，MetaPAD將同義元模式的分組過(guò)程作為一項(xiàng)學(xué)習(xí)任務(wù)來(lái)制定，并通過(guò)集成實(shí)體類型著拭、數(shù)據(jù)類型纱扭、模式上下文和提取的實(shí)例等多個(gè)方面的特征來(lái)解決這個(gè)問(wèn)題。第三儡遮，MetaPAD檢查從每個(gè)元模式組中提取的實(shí)體的類型分布乳蛾，并尋找模式t最合適的類型級(jí)別。這包括自上而下和自下而上的方案，它們遍歷類型本體以獲得模式的精確性肃叶。

元模式挖掘

數(shù)據(jù)預(yù)處理: Harnessing Typing Systems

為了找到文本類型的元模式钮科，我們采用了一種有效的文本挖掘方法，將一個(gè)語(yǔ)料庫(kù)預(yù)處理成一個(gè)細(xì)粒度類型語(yǔ)料庫(kù)婆赠，輸入步驟如下，分成3步：

以 U.S. President Barack Obama and Prime Minister Justin Trudeau of Canada met in … 為例子

使用一個(gè)短語(yǔ)挖掘方法，將一個(gè)句子分解成短語(yǔ)休里、單詞和標(biāo)點(diǎn)符號(hào)蛆挫，這樣就可以找到比PATTY中頻繁項(xiàng)集挖掘的頻繁n-grams更多的真實(shí)短語(yǔ)，如“barack obama”, “prime minister”妙黍。
我們使用基于遠(yuǎn)程監(jiān)控的方法來(lái)聯(lián)合識(shí)別實(shí)體及其粗粒度類型（即$Person悴侵，$Location和$Organization）。
采用細(xì)粒度的實(shí)體類型系統(tǒng)來(lái)區(qū)分2級(jí)本體和112種實(shí)體類型（如$Polotical拭嫁，$Country可免，$Company）；我們進(jìn)一步使用一組語(yǔ)言規(guī)則區(qū)分6種數(shù)據(jù)類型（包括$Digit做粤，$DigitUnit浇借，$DigitRank，$Month怕品，$Day晕城，$Year）蔚润。其中，
$DigitUnit: “percent”, “%”, “hundred”, “thousand”, “million”, “billion”, “trillion”…，

$DigitRank: “first”, “1st”, “second”, “2nd”, “44th”…

現(xiàn)在我們有了一個(gè)細(xì)粒度的锣险、類型化的語(yǔ)料庫(kù)，它由元模式中定義的相同類型的標(biāo)記組成：實(shí)體類型拉鹃、數(shù)據(jù)類型窘疮、短語(yǔ)、單詞和標(biāo)點(diǎn)符號(hào)炫乓。

image

問(wèn)題定義

Problem（Meta Pattern Discovery）：給定一個(gè)細(xì)粒度的刚夺、類型化的大量句子的語(yǔ)料庫(kù) $C=[...,S,...]$ ，而且每個(gè)句子都被表示為 $S=t_1t_2...t_n$ 厢岂，其中 $t_k \in \mathcal T \cup \mathcal P \cup \mathcal M$ 光督， $t_k$ 是第 k 個(gè)token， $\mathcal T$ 是實(shí)體類型和數(shù)據(jù)類型的集合塔粒， $\mathcal P$ 是短語(yǔ)和單詞的集合结借。 $\mathcal M$ 是標(biāo)點(diǎn)符號(hào)的集合。任務(wù)是找到尋找高質(zhì)量的同義元模式分組卒茬。一個(gè)元模式 $mp$ 是來(lái)自 $\mathcal T \cup \mathcal P \cup \mathcal M$ 集合的token的子序列船老。一個(gè)同義元模式分組表示為 $\mathcal MPG =[...,mp_i,...,mp_j..]$ ，其中每一對(duì)模式圃酵，如 $mp_i$ 和 $mp_j$ 柳畔，是同義的。

什么樣的模式才是一個(gè)高質(zhì)量的元模式呢郭赐？在這里薪韩，我們把句子當(dāng)做一系列的標(biāo)記。已有的序列模式挖掘算法在事務(wù)序列數(shù)據(jù)庫(kù)中挖掘滿足單個(gè)度量（最小支持閾值）的頻繁子序列。然而俘陷，對(duì)于文本序列數(shù)據(jù)罗捎，我們提出的文本模式元模式的質(zhì)量應(yīng)該像短語(yǔ)挖掘一樣，按照以下四個(gè)標(biāo)準(zhǔn)來(lái)評(píng)估拉盾。

例子. 一個(gè)模式的質(zhì)量評(píng)估標(biāo)準(zhǔn)如下：（前一個(gè)模式的質(zhì)量高于后一個(gè)模式）

頻率：“$DigitRank president of $ Country” vs.“young president of $Country”桨菜；
完整性：“$Country president $Politician” vs. “$Country president”、“$Person's wife,$Person” vs. “$Person's wife”捉偏；
信息性：“$Person's wife,$Person”vs.“$Person and Person”倒得；
精確性：“$Country president $Politician” vs. “$Location president $Politician”，“$$Person's wife,$Person” vs. “$Politician's wife,$Person”夭禽，“population of $Location” vs. “population of $Country”霞掺。

什么才是同義的元模式呢？事務(wù)數(shù)據(jù)集中的頻繁序列模式集合是巨大的驻粟；來(lái)自大量語(yǔ)料庫(kù)的元模式數(shù)目也是巨大的根悼。由于在自然語(yǔ)言中表達(dá)相同或相似含義有多種方式，許多元模式可能具有相同或幾乎相同的含義蜀撑。示例如圖1所示挤巡。對(duì)同義元模式進(jìn)行分組有助于從不同的句子中提取大量的不同模式】崧螅總的抽取的信息的類型分布可以幫助我們調(diào)整組中的元模式以獲得精確性矿卑。

MetaPAD 框架

MetaPAD的框架分為3個(gè)部分。

它開(kāi)發(fā)了一種上下文感知的分割方法沃饶，以確定子序列的邊界母廷，并生成元模式的頻率、完整性和信息性糊肤。
它將同義元模式分組琴昆。
對(duì)于每個(gè)同義模式組，它會(huì)根據(jù)適當(dāng)?shù)牧６日{(diào)整實(shí)體類型的級(jí)別馆揉，以具有精確的元模式业舍。

image

通過(guò)上下文感知算法生成元模式

候選模式生成

我們采用標(biāo)準(zhǔn)的頻繁序列模式挖掘算法來(lái)尋找滿足最小sup閾值的模式候選。實(shí)際上升酣，可以設(shè)置最大模式長(zhǎng)度ω來(lái)限制模式中的token數(shù)量舷暮。與非常長(zhǎng)的句子的句法分析不同，我們的元模式挖掘探索的模式結(jié)構(gòu)是局部的噩茄，但仍然具有廣泛的上下文：在我們的實(shí)驗(yàn)中下面，我們?cè)O(shè)置ω=20。

元模式質(zhì)量評(píng)估

考慮到大量的候選模式可能很混亂（例如绩聘，“of $Country” and“$political and”）沥割，理想情況是用很少的訓(xùn)練標(biāo)簽來(lái)評(píng)估候選模式的質(zhì)量耗啦，但具有挑戰(zhàn)性。根據(jù)質(zhì)量標(biāo)準(zhǔn)驯遇，我們引入了一組豐富的上下文特征如下芹彬，并訓(xùn)練一個(gè)分類器，以估計(jì)質(zhì)量函數(shù) $Q(mp)\in [0叉庐，1]$ ，其中mp是一個(gè)候選元模式：

頻率：一個(gè)好的元模式 $mp$ 應(yīng)該在給定類型的預(yù)料中有著足夠的出現(xiàn)此書 $c(mp)$
一致性：如果由于偶然性会喝，token組合的頻率明顯高于預(yù)期陡叠，則元模式 $mp$ 具有良好的一致性。為了從統(tǒng)計(jì)學(xué)上解釋這種一致性肢执，我們考慮了一個(gè)空假設(shè)：語(yǔ)料庫(kù)是由一系列獨(dú)立的伯努利試驗(yàn)產(chǎn)生的枉阵。假設(shè)語(yǔ)料庫(kù)中的token數(shù)是L，可以假定它相當(dāng)大预茄。在我們的零假設(shè)下兴溜，一對(duì)子模式 $<mp_l,mp_r>$ 的期望頻率是

<centor> $\mu_0(c(<mp_l,mp_r>))= L\cdot p(mp_l)\cdot p(mp_r)$ </centor>

其中 $p(mp)=\frac {c(mp)}{L}$ ，是模式的經(jīng)驗(yàn)概率耻陕。使用Z指數(shù)來(lái)衡量一對(duì)子模式 $<mp_l,mp_r>$ 構(gòu)成語(yǔ)料庫(kù)中作為mp的最佳搭配

<centor> $Z(mp)=\mathop{max}\limits_{<mp_l,mp_r>=mp} \frac{c(mp)-\mu_0(c(<mp_l,mp_r>))}{\sigma <mp_l,mp_r>}$ </centor>

其中 $\sigma<mp_l,mp_r>$ 表示頻率的標(biāo)準(zhǔn)差拙徽，Z指數(shù)較高的表明模式在上下文中充當(dāng)一個(gè)完整的語(yǔ)義單位：其組成的子模式高度相關(guān)。
信息性：一個(gè)好的模式 $mp$ 應(yīng)該具有上下文信息诗宣。我們檢查不同類型的token（例如膘怕，類型、單詞召庞、短語(yǔ)岛心、非停用詞、符號(hào)）的計(jì)數(shù)篮灼。例如忘古，模式“$Person's wide$Person”是“wife”的上下文信息，而“$Person was born in $City”是“born in”的意思诅诱，而“$Person,$Digit,”也是兩種不同類型和兩個(gè)逗號(hào)的信息髓堪。
完整性：我們使用模式候選（例如“$Country president $Politician”）和其子模式（例如“$Country president”）的頻率之間的比率。如果比率很高逢艘，候選模式很可能是完整的旦袋。我們還使用了候選模式的頻率與其父模式頻率之間的比率。如果比率很高它改，候選模式很可能是不完整的疤孕。此外，我們期望元模式不受停用詞的限制央拖。例如祭阀，“$Country president $Politician”和“$Country president and”都沒(méi)有受限
覆蓋范圍：一個(gè)好類型的模式可以提取多個(gè)實(shí)例鹉戚。例如，$Politician類型在模式“Politician's healthcare law”中僅指一個(gè)實(shí)體“巴拉克奧巴馬”专控，因此在語(yǔ)料庫(kù)中的覆蓋率太低抹凳。

我們訓(xùn)練了一個(gè)基于隨機(jī)森林的分類器，用以學(xué)習(xí)具有上述豐富上下文特征集合的元概率質(zhì)量函數(shù) $Q(mp)$ 伦腐。我們的實(shí)驗(yàn)表明赢底，使用100個(gè)元模式標(biāo)簽可以達(dá)到與使用300個(gè)標(biāo)簽相似的精度和召回率。請(qǐng)注意柏蘑，學(xué)習(xí)結(jié)果可以轉(zhuǎn)移到其他領(lǐng)域：低質(zhì)量的模式“$Politician and $Country”和“$Bacteria and $Antibiotics”的特征相似幸冻；高質(zhì)量的patterns“$Politician is president of $Country”和“$Bacteria is resistant to$Antibiotics”的特征相似。

使用 $Q(.)$ 和反饋上下文感知分割

利用模式質(zhì)量函數(shù) $Q(.)$ 從豐富的上下文特征集合中學(xué)習(xí)咳焚，提出了一種自下而上的分割算法洽损，以構(gòu)造高質(zhì)量分?jǐn)?shù)的最佳分割。如圖4所示革半，我們使用 $Q(.)$ 來(lái)確定分段的邊界：我們以“$Country president $political”作為元模式碑定，因?yàn)橘|(zhì)量分?jǐn)?shù)高；我們不選擇候選模式“and prime_minister_$political of $Country”又官，因?yàn)槠滟|(zhì)量分?jǐn)?shù)低延刘。
由于 $Q(mp)$ 是用包括原始頻率 $c(mp)$ 在內(nèi)的特征來(lái)學(xué)習(xí)的，因此質(zhì)量分?jǐn)?shù)可能被高估或低估：原則是每一個(gè)token的出現(xiàn)應(yīng)該只分配給一個(gè)模式赏胚，但是原始頻率可以多次對(duì)這個(gè)token計(jì)數(shù)访娶。幸運(yùn)的是，在分割之后觉阅，我們可以將頻率校正為 $c_r(mp)$ 崖疤，例如在圖4中，分割避免了高估頻率/質(zhì)量的“$Politicion and prime_minister $Politician”（見(jiàn)表1）典勇。
一旦頻率特征被提取出來(lái)劫哼，我們就用 $c(mp)$ 作為反饋重新學(xué)習(xí)質(zhì)量函數(shù) $Q(.)$ ，并用它重新分割語(yǔ)料庫(kù)割笙。這可能是一個(gè)迭代過(guò)程权烧，但我們發(fā)現(xiàn)只需要一次迭代，結(jié)果收斂伤溉。算法1顯示了細(xì)節(jié)般码。

image

算法1

image

同義元模式分組

對(duì)于同一種關(guān)系，可能有許多元模式乱顾。如果我們對(duì)所有這些元模式進(jìn)行分組板祝，我們就可以從大量的語(yǔ)料庫(kù)中聚合所有這些關(guān)系的提取。PATTY對(duì)它們基于依賴路徑的SOL模式的同義模式有一個(gè)狹義的定義：如果兩個(gè)模式從語(yǔ)料庫(kù)中生成相同的提取集走净，那么它們就是同義的券时。在這里孤里，我們開(kāi)發(fā)了一種學(xué)習(xí)方法來(lái)整合三個(gè)方面的信息：（1）模式中的實(shí)體/數(shù)據(jù)類型，（2）模式中的上下文單詞/短語(yǔ)橘洞，以及（3）模式提取的信息捌袜，以將元模式分配到組中。我們的方法基于以下三個(gè)假設(shè)（見(jiàn)圖5）：

A1：同義元模式必須有相同的實(shí)體或者數(shù)據(jù)類型炸枣，像元模式“$Person's age is $Digit” 和“$Person's wife is $Person”虏等；

A2：如果兩個(gè)元模式具有相同的上下文單詞或短語(yǔ)，那么他們很可能是同義的适肠，像模式“$Country president $Politician”和“president $ Politician of $Country”有同樣的單詞“president”博其；

A3：如果兩個(gè)模式抽取出更多相同的信息，它們更可能是同義的迂猴，像“$Person's age is $Digit”和“$Person, $Digit”都抽取出<Barack Obama，55>背伴。

image

由于事先無(wú)法知道有多少組沸毁，我們建議先構(gòu)造一個(gè)模式-模式圖，其中每個(gè)模式之間的邊滿足A1傻寂，并且預(yù)測(cè)為同義的模式息尺。然后使用圖團(tuán)體檢測(cè)技術(shù)將所有的團(tuán)作為同義元模式分組。在這團(tuán) $\mathcal MPG = [...,mp_i,...mp_j...]$ 中疾掰，每一對(duì)模式 $(mp_i,mp_j)$ 是同義的搂誉。

對(duì)于圖的構(gòu)建，我們訓(xùn)練了一個(gè)支持向量回歸機(jī)學(xué)習(xí)基于A2和A3的一對(duì)pattern的以下特征：（1）每個(gè)模式擁有的和共享的單詞静檬，非停用詞炭懊，短語(yǔ)數(shù)量；（2）兩個(gè)模式非停用單詞或短語(yǔ)之間的最大相似性得分拂檩；（3）每個(gè)模式抽取的信息和共同抽取的信息侮腹。其中，單詞/短語(yǔ)之間的相似性由其word2vec嵌入的余弦相似性表示稻励。

調(diào)整實(shí)體類型以提高精度

給定一組同義的元模式父阻，我們希望這些模式是精確的：需要確定模式中實(shí)體類型的級(jí)別以獲得適當(dāng)?shù)牧６取Ｓ捎谕x元模式的分組過(guò)程望抽，我們從大量的抽取信息的集合中獲得了豐富的實(shí)體類型分布加矛。

如圖所示，給定一個(gè)實(shí)體類型的本體（如$Location,$Country,$State,$City..., $Person:$Artist,$Athlete,$Politician, ...）煤篙，對(duì)于同義模式組“president $Person of $Location”斟览，“$Location's president $Person”和“Location president $Person”，這些模式里的實(shí)體類型舰蟆，$Location $Person是否恰當(dāng)能夠確保這些模式是精確的趣惠。如果我們觀察這些模式提取中實(shí)體的類型分布狸棍，很明顯，$Location的大多數(shù)實(shí)體在細(xì)粒度級(jí)別上被鍵入$Country（例如味悄，“United States”）或$Ethnicity（例如草戈，“Russian”），而$Person的大多數(shù)實(shí)體也具有細(xì)粒度類型$Politician侍瑟。因此唐片，與“$Location總統(tǒng)$Person”相比，“$Country總統(tǒng)$Politician”和“$Ethnicity總統(tǒng)$Politician”這兩個(gè)細(xì)粒度的元模式更加精確涨颜；

image

我們對(duì)同義群中的其他元模式也有相同的主張费韭。另一方面，對(duì)于同義元模式組person：age庭瑰，我們可以看到大多數(shù)實(shí)體在粗粒度級(jí)別上被輸入為$Person星持，而不是$Athlete或$Politician。所以模式中的實(shí)體類型最好是$Person弹灭。根據(jù)這一觀察督暂，給定元模式組中的實(shí)體類型T，我們提出了一個(gè)稱為graininess的度量穷吮，它定義為T類型的實(shí)體的分?jǐn)?shù)逻翁，這些實(shí)體可以細(xì)化為T的子類型：

$g(T)=\frac{\sum_{T' \in subtype\_of(T)}num\_entity(T')}{\sum_{T' \in subtype\_of(T)\cup\{T\}}num\_entity(T')}$

如果 $g(T)$ 比閾值 $\theta$ 更高，我們就選擇更深層的細(xì)粒度類型的類型本體捡鱼。

假設(shè)我們已經(jīng)使用粒度度量在元模式組中確定了適當(dāng)?shù)念愋图?jí)別八回。然而，并不是每一個(gè)級(jí)別的類型都可以用來(lái)構(gòu)造精確的元模式驾诈。例如缠诅，我們可以從圖6中看到總統(tǒng)的模式，$Location的很少實(shí)體被輸入為$City翘鸭，$Person的很少實(shí)體被輸入為$Artist滴铅。與$Country、$Ethnicity和$Politician相比就乓，這些細(xì)粒度類型處于相同的級(jí)別汉匙，但對(duì)提取的信息支持太少。我們把他們排除在元模式組之外生蚁∝洌基于這一思想，對(duì)于實(shí)體類型T邦投，我們提出了另一個(gè)度量伤锚，稱為支持，它定義為T類型的實(shí)體數(shù)與T的同級(jí)類型的最大實(shí)體數(shù)之比：

$s(T)=\frac{num\_entity(T)}{max_{T' \in sibling-type \_ of(T)\cup{T}} num\_entity(T')}$

如果 $s(T)$ 比閾值 $\gamma$ 更高志衣，我們?cè)谠Ｊ椒纸M中考慮類型 $T$ 屯援，否則丟棄它猛们。

利用這兩個(gè)度量，我們開(kāi)發(fā)了一個(gè)自頂向下的方案狞洋，首先對(duì)粗粒度類型的元模式進(jìn)行分段和同義模式分組弯淘，然后檢查細(xì)粒度類型是否有意義，以及模式是否可以拆分到細(xì)粒度級(jí)別吉懊；我們還開(kāi)發(fā)了一個(gè)自下而上的方案庐橙，該方案首先處理細(xì)粒度類型的元模式，然后檢查模式是否可以合并到粗粒度級(jí)別借嗽。

實(shí)驗(yàn)

數(shù)據(jù)集

APR：美聯(lián)社和路透社2015年的新聞态鳖；
TWT：2015年6月至2015年9月通過(guò)Twitter API收集的推文；
CVD：PubMed數(shù)據(jù)庫(kù)中有關(guān)心血管疾病的論文標(biāo)題和摘要恶导。

image

新聞和生物醫(yī)學(xué)論文語(yǔ)料庫(kù)中經(jīng)常出現(xiàn)長(zhǎng)句浆竭，這對(duì)文本模式挖掘具有很大的挑戰(zhàn)性。例如惨寿，PATTY中的句法依賴分析部分具有單個(gè)句子長(zhǎng)度的三次計(jì)算復(fù)雜度兆蕉。我們的MetaPAD中的預(yù)處理技術(shù)采用了與外部數(shù)據(jù)庫(kù)的遠(yuǎn)程監(jiān)督，用于實(shí)體識(shí)別和細(xì)粒度類型缤沦。對(duì)于一般的語(yǔ)料庫(kù)，比如新聞和推文易稠，我們使用DBpedia和Freebase缸废；對(duì)于生物醫(yī)學(xué)語(yǔ)料庫(kù)，我們使用公共MeSH數(shù)據(jù)庫(kù)驶社。

實(shí)驗(yàn)設(shè)置

我們?cè)趯?shí)驗(yàn)中執(zhí)行兩項(xiàng)任務(wù)企量。第一個(gè)任務(wù)是從大量語(yǔ)料庫(kù)中發(fā)現(xiàn)類型化的文本模式，并將這些模式組織成同義組亡电。在模式質(zhì)量和同義模式群質(zhì)量上届巩，我們與目前最先進(jìn)的SOL模式綜合集挖掘方法PATTY進(jìn)行了比較。由于類型化文本模式?jīng)]有標(biāo)準(zhǔn)的基本事實(shí)份乒，我們報(bào)告了對(duì)這三個(gè)數(shù)據(jù)集的大量定性分析恕汇。

第二個(gè)任務(wù)是提取<實(shí)體、屬性或辖、值>（EAV）元組信息瘾英。對(duì)于競(jìng)爭(zhēng)方法從新聞和推特中生成的每個(gè)同義模式集，如果合適的話颂暇，我們將其分配給表3中集合中的一個(gè)屬性類型缺谴。我們從提取中收集5621個(gè)EAV元組，將它們標(biāo)記為true或false耳鸯，最后湿蛔，我們得到3345個(gè)真正的EAV元組膀曾。我們有2400個(gè)從APR中提取的正確的EAV元組和2090個(gè)從TWT中提取正確的元組。它們的大多數(shù)都不在現(xiàn)存的知識(shí)庫(kù)中阳啥，我們正在探索從新的文本語(yǔ)料庫(kù)中提取的新內(nèi)容添谊。

image

我們從精確度和召回率兩個(gè)方面來(lái)評(píng)估性能。精確度定義為預(yù)測(cè)的EAV元組中為真的比值苫纤。召回率被定義為碉钠，標(biāo)記為真的EAV元組的部分被預(yù)測(cè)為真EAV元組的比值。我們使用（1）F1分?jǐn)?shù)卷拘，即精確性和召回率的調(diào)和平均值喊废，以及（2）精確性召回曲線下的面積（AUC）。所有值都在0到1之間栗弟，值越大表示性能越好污筷。在第二個(gè)任務(wù)中，除了PATTY之外乍赫，元組提取的競(jìng)爭(zhēng)性方法有：Ollie[37]是一個(gè)開(kāi)放的IE系統(tǒng)瓣蛀，它可以提取具有句法和詞匯模式的關(guān)系元組；ReNoun[40]通過(guò)帶注釋的語(yǔ)料庫(kù)學(xué)習(xí)“S-A-O”模式雷厂，如“S A, O”和“A of S is O”惋增。兩個(gè)方法都忽略實(shí)體類型信息。我們開(kāi)發(fā)了四種MetaPAD替代品改鲫，如下所示：

MetaPAD-T：只進(jìn)行分割诈皿，實(shí)體類型粗粒度；
MetaPAD-TS：基于MetaPAD-T的同義分組等其他3個(gè)MetaPAD的核心組件
MetaPAD-B：只進(jìn)行分割像棘，實(shí)體類型細(xì)粒度
MetaPAD-BS：基于MetaPAD-B的同義分組等其他3個(gè)MetaPAD的核心組件

閾值設(shè)置：

最長(zhǎng)的pattern長(zhǎng)度： $\omega = 20$

graininess指數(shù)： $\theta = 0.8$

support指數(shù)： $\gamma = 0.1$

文本模式挖掘?qū)嶒?yàn)結(jié)果

image

如圖所示：兩種屬性coutry: president稽亏，company:ceo

meta pattern來(lái)自于類型化語(yǔ)料，而不是句法依賴分樹(shù)中的最短路徑缕题；因此這些模式可以保留豐富截歉，廣泛的上下文信息；
meta pattern擁有具有高質(zhì)量的信息性烟零、完整性等等瘪松，使用者很容易就能知道為什么這個(gè)pattern作為完整的語(yǔ)義單元被提取锨阿；
盡管像“$Politician was elected as the president of $Country”這樣的模式數(shù)量少而且長(zhǎng)凉逛，但是它們可以分類到與其同義模式一組中，這樣對(duì)于一個(gè)實(shí)體屬性的所有抽取都可以聚合到一個(gè)集合里群井。這就是為什么MetaPAD可以成功地發(fā)現(xiàn)像Burkina Faso這樣地小國(guó)地總統(tǒng)状飞，和新創(chuàng)公司地CEO；
MetaPAD從并不存在于現(xiàn)有知識(shí)庫(kù)的新的語(yǔ)料中發(fā)現(xiàn)了豐富地person: data_of_birth 信息，這是因?yàn)镸etaPAD不僅僅使用實(shí)體類型信息诬辈，而且使用數(shù)據(jù)類型信息酵使，像$Month$Day$Year。

表4顯示我們的MetaPAD還可以從生物醫(yī)學(xué)領(lǐng)域發(fā)現(xiàn)同義元模式組和提取焙糟。如果沒(méi)有對(duì)特定領(lǐng)域知識(shí)的大量注釋口渔，我們可以找到$Treatment可以治療什么$Disease和什么$Bacteria對(duì)什么$Antibiotics有抵抗力的所有模式。

image

下圖顯示了PATTY從這四個(gè)句子生成的SOL模式語(yǔ)法集穿撮。首先缺脉，依賴路徑失去了第一個(gè)示例中的“president”和最后一個(gè)示例中的“ceo”等實(shí)體周圍的豐富上下文。其次悦穿，SOL模式synset不能對(duì)真正同義類型的文本模式進(jìn)行分組攻礼。我們可以看到生成元模式并將它們分組為同義簇的優(yōu)勢(shì)。在簡(jiǎn)介部分中栗柒，我們還展示了MetaPAD可以為屬性類型(如person：age和person：date_of_birth)找到包含豐富上下文信息的元模式礁扮。

image

EAV元組抽取結(jié)果

除了直接比較挖掘同義類型文本模式的質(zhì)量外，我們還應(yīng)用了不同系統(tǒng)的模式Ollie瞬沦、ReNoun和PATTY太伊，從兩個(gè)通用語(yǔ)料庫(kù)APR(news)和TWT(tweets)中提取元組信息。

表6總結(jié)了每個(gè)文本模式系統(tǒng)從新聞和tweet數(shù)據(jù)集中提取的元組信息的比較結(jié)果逛钻。圖8展示了精確召回曲線僚焦，進(jìn)一步證明了MetaPAD方法的有效性。我們的觀察和分析如下曙痘。

image

總的來(lái)說(shuō)叠赐，MetaPAD-TS和MetaPAD-BS在兩個(gè)數(shù)據(jù)集上都比baseline要好。
MetaPAD-T和MetaPAD-B僅僅分割而沒(méi)有分組就比PATTY要好屡江。
MetaPAD-TS and MetaPAD-BS比起MetaPAD-T and MetaPAD-B要好一些，說(shuō)明了分組和調(diào)整實(shí)體類型層級(jí)是有效的赛不。
在tweet數(shù)據(jù)集上惩嘉。很多人物地點(diǎn)組織實(shí)體都沒(méi)有辦法進(jìn)行細(xì)粒度的劃分，所有MetaPAD-T(S)比起MetaPAD-B(S)要好踢故。而新聞數(shù)據(jù)包含大量可以細(xì)分粒度的實(shí)體文黎，所以MetaPAD-B(S)表現(xiàn)更好。

MetaPAD在所有類型的屬性抽取上都比其他方法要好殿较，雖然不能提高非常多耸峭。

image

效率

image

具體來(lái)說(shuō)，對(duì)于31G的tweet數(shù)據(jù)淋纲，MetaPAD不到2小時(shí)劳闹，而PATTY需要Stanford parser需要7.3小時(shí)，Ollie需要28.4小時(shí)。注意本涕，對(duì)于包含許多長(zhǎng)句的較小的新聞數(shù)據(jù)业汰，PATTY需要更多的時(shí)間，10.1小時(shí)菩颖。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末样漆，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子晦闰，更是在濱河造成了極大的恐慌放祟，老刑警劉巖，帶你破解...
沈念sama閱讀 219,110評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件呻右，死亡現(xiàn)場(chǎng)離奇詭異跪妥，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)窿冯，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,443評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門骗奖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人醒串，你說(shuō)我怎么就攤上這事执桌。” “怎么了芜赌？”我有些...
開(kāi)封第一講書人閱讀 165,474評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵仰挣，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我缠沈，道長(zhǎng)膘壶，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書人閱讀 58,881評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任洲愤，我火速辦了婚禮颓芭，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘柬赐。我一直安慰自己亡问，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,902評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布肛宋。她就那樣靜靜地躺著州藕，像睡著了一般。火紅的嫁衣襯著肌膚如雪酝陈。梳的紋絲不亂的頭發(fā)上床玻，一...
開(kāi)封第一講書人閱讀 51,698評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音沉帮，去河邊找鬼锈死。笑死贫堰，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的馅精。我是一名探鬼主播严嗜，決...
沈念sama閱讀 40,418評(píng)論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼洲敢！你這毒婦竟也來(lái)了漫玄？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 39,332評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤压彭，失蹤者是張志新（化名）和其女友劉穎睦优，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體壮不，經(jīng)...
沈念sama閱讀 45,796評(píng)論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡汗盘，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,968評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了询一。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隐孽。...
茶點(diǎn)故事閱讀 40,110評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖健蕊，靈堂內(nèi)的尸體忽然破棺而出菱阵，到底是詐尸還是另有隱情，我是刑警寧澤缩功，帶...
沈念sama閱讀 35,792評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布晴及，位于F島的核電站，受9級(jí)特大地震影響嫡锌，放射性物質(zhì)發(fā)生泄漏虑稼。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,455評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一势木、第九天我趴在偏房一處隱蔽的房頂上張望蛛倦。院中可真熱鬧，春花似錦啦桌、人聲如沸溯壶。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 32,003評(píng)論 0贊 22
一樁弒父案震蒋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至躲庄，卻和暖如春查剖，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背噪窘。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,130評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工笋庄，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,348評(píng)論 3贊 373
代替公主和親
正文我出身青樓直砂，卻偏偏與公主長(zhǎng)得像菌仁，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子静暂，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,047評(píng)論 2贊 355

MetaPAD: 從大量文本語(yǔ)料庫(kù)中發(fā)現(xiàn)元模式

MetaPAD: 從大量文本語(yǔ)料庫(kù)中發(fā)現(xiàn)元模式

背景

相關(guān)工作

開(kāi)放域信息抽取工具

屬性抽取工具

其他信息抽取工具

元模式挖掘

數(shù)據(jù)預(yù)處理: Harnessing Typing Systems

問(wèn)題定義

MetaPAD 框架