資料來(lái)源: Knowledge Graph tutorial (AAAI 2017-part 2)
相關(guān)鏈接:https://kgtutorial.github.io/slides/Part2b_IE.pdf
問(wèn)題背景
知識(shí)抽取(Information Extraction)主要是在完成一系列分詞她渴、詞性標(biāo)注等NLP任務(wù)等的基礎(chǔ)上,從打上詞性標(biāo)簽的句子中提取信息。現(xiàn)有的提取系統(tǒng)主要有:OpenIE癣防,ConceptNet,NELL掌眠,KnowledgeVault劣砍。
知識(shí)圖譜中信息一般以三元組的方式進(jìn)行組織,一般來(lái)說(shuō)有(實(shí)體扇救,關(guān)系刑枝,實(shí)體)和(實(shí)體香嗓,屬性,屬性值)兩種形式装畅。在信息提取的過(guò)程主要包含如下三個(gè)任務(wù):
1. 如何確定領(lǐng)域知識(shí)(Define domain)靠娱?
2.如何提取三元組(Information extraction)?
3.如何評(píng)估提取出的三元組的可靠性(Scoring the candidate facts)掠兄?
針對(duì)每一個(gè)任務(wù)像云,當(dāng)前均有三種解決方式:1. 監(jiān)督(純手工),2.半監(jiān)督(人機(jī)交互)蚂夕,3.無(wú)監(jiān)督(機(jī)器學(xué)習(xí))迅诬。以下將簡(jiǎn)略介紹針對(duì)每一個(gè)任務(wù)的三種解決方式。
任務(wù)1: ?領(lǐng)域知識(shí)的確定
之所以要確定領(lǐng)域知識(shí)婿牍,一方面是為了在信息提取任務(wù)中可以有效避免語(yǔ)義漂流(semantic drift)侈贷,一方面是為了在后期的評(píng)估任務(wù)中可以過(guò)濾掉悖于領(lǐng)域知識(shí)的三元組。
case1: ?監(jiān)督等脂。需要領(lǐng)域?qū)<抑R(shí)來(lái)構(gòu)造高層語(yǔ)義網(wǎng)絡(luò)俏蛮,精度高但代價(jià)昂貴。
case2: ?半監(jiān)督上遥。人工列出所需構(gòu)建的實(shí)體搏屑,和實(shí)體之間的層次關(guān)系。利用機(jī)器學(xué)習(xí)的方式從語(yǔ)料庫(kù)中學(xué)習(xí)實(shí)體之間的關(guān)系粉楚。
case3: ?無(wú)監(jiān)督辣恋。將句子中的任何動(dòng)詞作為關(guān)系,任何名詞作為實(shí)體模软。精度低抑党,容易引入噪聲。
任務(wù)2:三元組的提取
case1:? 無(wú)監(jiān)督撵摆。需要領(lǐng)域?qū)<抑R(shí)手工編寫(xiě)規(guī)則/模式底靠,例如用“A work for B”來(lái)描述雇傭關(guān)系,然后將這樣的規(guī)則/模式應(yīng)用入句子特铝,來(lái)挖掘出具體的三元組暑中。
case2: ?半監(jiān)督。人工給出種子實(shí)例(Seed instances)鲫剿,例如”(John鳄逾,HuaWei),(Alice灵莲,Apple)“雕凹。然后交給機(jī)器,學(xué)習(xí)出這類(lèi)種子實(shí)例中所包含的模式 (Pattern) ——“A work for B”,接著利用該模式挖掘新的符合該模式的實(shí)例枚抵,再將這些新的實(shí)例加入種子實(shí)例中线欲。所以,上述過(guò)程是一個(gè)bootstrap的過(guò)程汽摹。
在這個(gè)過(guò)程中李丰,還可以引入人工互動(dòng)。例如對(duì)機(jī)器學(xué)習(xí)到的模式逼泣,可以進(jìn)行人工的篩選趴泌。對(duì)新學(xué)習(xí)到的三元組實(shí)例可以標(biāo)注正負(fù)例。
case3: ?無(wú)監(jiān)督拉庶。將句子中符合一定語(yǔ)法規(guī)則的動(dòng)詞作為關(guān)系嗜憔,將該動(dòng)詞左右的名詞作為實(shí)體。
任務(wù)三:可靠性評(píng)估
case1:? 無(wú)監(jiān)督氏仗。人工設(shè)計(jì)評(píng)估函數(shù)吉捶。或從大規(guī)模打好標(biāo)簽數(shù)據(jù)中學(xué)習(xí)到特定的評(píng)估函數(shù)廓鞠。耗時(shí)長(zhǎng),精度高谣旁。
case2: ?半監(jiān)督床佳。迭代的方法。打標(biāo)簽的數(shù)據(jù)和未打標(biāo)簽的數(shù)據(jù)共存榄审,不斷迭代砌们,refain。
case3: ?無(wú)監(jiān)督搁进。一個(gè)模式的得分正比于抽取出該模式所使用到的實(shí)例的個(gè)數(shù)浪感。一個(gè)三元組的得分正比于抽取出該三元組所使用到的模式個(gè)數(shù)。