導(dǎo)讀
????????知識(shí)圖譜的構(gòu)建技術(shù)主要有自頂向下和自底向上兩種酌毡。其中自頂向下構(gòu)建是指借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息但校,加入到知識(shí)庫(kù)里螃诅。而自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開(kāi)采集的數(shù)據(jù)中提取出資源模式术裸,選擇其中置信度較高的信息倘是,加入到知識(shí)庫(kù)中。
1.信息抽取
信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體袭艺、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)搀崭。
涉及的關(guān)鍵技術(shù)包括:實(shí)體抽取、關(guān)系抽取和屬性抽取匹表。
1.1實(shí)體抽取
實(shí)體抽取门坷,也稱為命名實(shí)體識(shí)別(named entity recognition,NER)袍镀,是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體默蚌。
1.2關(guān)系抽取
文本語(yǔ)料經(jīng)過(guò)實(shí)體抽取之后,得到的是一系列離散的命名實(shí)體苇羡,為了得到語(yǔ)義信息绸吸,還需要從相關(guān)語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過(guò)關(guān)系將實(shí)體聯(lián)系起來(lái)设江,才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu)锦茁。
1.3屬性抽取
屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,如針對(duì)某個(gè)公眾人物叉存,可以從網(wǎng)絡(luò)公開(kāi)信息中得到其昵稱码俩、生日、國(guó)籍歼捏、教育背景等信息稿存。
2.知識(shí)融合
通過(guò)信息抽取,我們就從原始的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取到了實(shí)體瞳秽、關(guān)系以及實(shí)體的屬性信息瓣履。
如果我們將接下來(lái)的過(guò)程比喻成拼圖的話,那么這些信息就是拼圖碎片练俐,散亂無(wú)章袖迎,甚至還有從其他拼圖里跑來(lái)的碎片、本身就是用來(lái)干擾我們拼圖的錯(cuò)誤碎片腺晾。
也就是說(shuō):
????????拼圖碎片(信息)之間的關(guān)系是扁平化的燕锥,缺乏層次性和邏輯性;
????????拼圖(知識(shí))中還存在大量冗雜和錯(cuò)誤的拼圖碎片(信息)
那么如何解決這一問(wèn)題悯蝉,就是在知識(shí)融合這一步里我們需要做的了归形。
知識(shí)融合包括2部分內(nèi)容:
????????實(shí)體鏈接
????????知識(shí)合并
2.1實(shí)體鏈接
實(shí)體鏈接(entity linking)是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作泉粉。
其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng)连霉,從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過(guò)相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象嗡靡。
2.2知識(shí)合并
實(shí)體鏈接鏈接的是我們從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)那里通過(guò)信息抽取提取出來(lái)的數(shù)據(jù)跺撼。
那么除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)以外,我們還有個(gè)更方便的數(shù)據(jù)來(lái)源——結(jié)構(gòu)化數(shù)據(jù)讨彼,如外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)歉井。
對(duì)于這部分結(jié)構(gòu)化數(shù)據(jù)的處理,就是我們知識(shí)合并的內(nèi)容啦哈误。一般來(lái)說(shuō)知識(shí)合并主要分為兩種:
(1)合并外部知識(shí)庫(kù)哩至,主要處理數(shù)據(jù)層和模式層的沖突
(2)合并關(guān)系數(shù)據(jù)庫(kù),有RDB2RDF等方法
2.3知識(shí)加工
至此蜜自,我們已經(jīng)得到了一系列基本的事實(shí)表達(dá)菩貌。
然而事實(shí)本身并不等于知識(shí)。要想最終獲得結(jié)構(gòu)化重荠,網(wǎng)絡(luò)化的知識(shí)體系箭阶,還需要經(jīng)歷知識(shí)加工的過(guò)程。
知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建戈鲁、知識(shí)推理和質(zhì)量評(píng)估仇参。
2.3.1本體構(gòu)建
本體(ontology)是指概念集合、概念框架婆殿,如“人”诈乒、“事”、“物”等婆芦。
人工構(gòu)建工作量巨大怕磨,且很難找到符合要求的專家,因此當(dāng)前主流的全局本體庫(kù)產(chǎn)品寞缝,都是從一些面向特定領(lǐng)域的現(xiàn)有本體庫(kù)出發(fā)癌压,采用自動(dòng)構(gòu)建技術(shù)逐步擴(kuò)展得到的。
自動(dòng)化本體構(gòu)建過(guò)程包含三個(gè)階段:
●實(shí)體并列關(guān)系相似度計(jì)算
●實(shí)體上下位關(guān)系抽取
●本體的生成
比如對(duì)下面這個(gè)例子荆陆,當(dāng)知識(shí)圖譜剛得到“阿里巴巴”滩届、“騰訊”、“手機(jī)”這三個(gè)實(shí)體的時(shí)候被啼,可能會(huì)認(rèn)為它們?nèi)齻€(gè)之間并沒(méi)有什么差別帜消,但當(dāng)它去計(jì)算三個(gè)實(shí)體之間的相似度后,就會(huì)發(fā)現(xiàn)浓体,阿里巴巴和騰訊之間可能更相似泡挺,和手機(jī)差別更大一些。
這就是第一步的作用命浴,但這樣下來(lái)娄猫,知識(shí)圖譜實(shí)際上還是沒(méi)有一個(gè)上下層的概念贱除,它還是不知道,阿里巴巴和手機(jī)媳溺,根本就不隸屬于一個(gè)類型月幌,無(wú)法比較。因此我們?cè)趯?shí)體上下位關(guān)系抽取這一步悬蔽,就需要去完成這樣的工作扯躺,從而生成第三步的本體。
當(dāng)三步結(jié)束后蝎困,這個(gè)知識(shí)圖譜可能就會(huì)明白录语,“阿里巴巴和騰訊,其實(shí)都是公司這樣一個(gè)實(shí)體下的細(xì)分實(shí)體禾乘。它們和手機(jī)并不是一類澎埠。”
2.3.2知識(shí)推理
在我們完成了本體構(gòu)建這一步之后始藕,一個(gè)知識(shí)圖譜的雛形便已經(jīng)搭建好了失暂。但可能在這個(gè)時(shí)候,知識(shí)圖譜之間大多數(shù)關(guān)系都是殘缺的鳄虱,缺失值非常嚴(yán)重弟塞,那么這個(gè)時(shí)候,我們就可以使用知識(shí)推理技術(shù)拙已,去完成進(jìn)一步的知識(shí)發(fā)現(xiàn)决记。
知識(shí)推理的對(duì)象包括,實(shí)體間的關(guān)系倍踪,實(shí)體的屬性值系宫,本體的概念層次關(guān)系等。
2.3.3質(zhì)量評(píng)估
對(duì)知識(shí)的可信度進(jìn)行量化建车,通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)庫(kù)的質(zhì)量扩借。
2.4知識(shí)更新
從邏輯上看,知識(shí)庫(kù)的更新包括概念層的更新和數(shù)據(jù)層的更新缤至。
概念層的更新是指新增數(shù)據(jù)后獲得了新的概念潮罪,需要自動(dòng)將新的概念添加到知識(shí)庫(kù)的概念層中。
數(shù)據(jù)層的更新主要是新增或更新實(shí)體领斥、關(guān)系嫉到、屬性值,對(duì)數(shù)據(jù)層進(jìn)行更新需要考慮數(shù)據(jù)源的可靠性月洛、數(shù)據(jù)的一致性(是否存在矛盾或冗雜等問(wèn)題)等可靠數(shù)據(jù)源何恶,并選擇在各數(shù)據(jù)源中出現(xiàn)頻率高的事實(shí)和屬性加入知識(shí)庫(kù)。
知識(shí)圖譜的內(nèi)容更新有兩種方式:
全面更新:指以更新后的全部數(shù)據(jù)為輸入嚼黔,從零開(kāi)始構(gòu)建知識(shí)圖譜细层。這種方法比較簡(jiǎn)單惜辑,但資源消耗大,而且需要耗費(fèi)大量人力資源進(jìn)行系統(tǒng)維護(hù)疫赎;
增量更新:以當(dāng)前新增數(shù)據(jù)為輸入韵丑,向現(xiàn)有知識(shí)圖譜中添加新增知識(shí)。這種方式資源消耗小虚缎,但目前仍需要大量人工干預(yù)(定義規(guī)則等),因此實(shí)施起來(lái)十分困難钓株。
來(lái)源:
一文揭秘实牡!自底向上構(gòu)建知識(shí)圖譜全過(guò)程,阿里云云棲號(hào)