自底向上構(gòu)建知識(shí)圖譜

導(dǎo)讀

????????知識(shí)圖譜的構(gòu)建技術(shù)主要有自頂向下和自底向上兩種酌毡。其中自頂向下構(gòu)建是指借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息但校,加入到知識(shí)庫(kù)里螃诅。而自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開(kāi)采集的數(shù)據(jù)中提取出資源模式术裸,選擇其中置信度較高的信息倘是,加入到知識(shí)庫(kù)中。

1.信息抽取

信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體袭艺、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)搀崭。

涉及的關(guān)鍵技術(shù)包括:實(shí)體抽取、關(guān)系抽取和屬性抽取匹表。

1.1實(shí)體抽取

實(shí)體抽取门坷,也稱為命名實(shí)體識(shí)別(named entity recognition,NER)袍镀,是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體默蚌。

1.2關(guān)系抽取

文本語(yǔ)料經(jīng)過(guò)實(shí)體抽取之后,得到的是一系列離散的命名實(shí)體苇羡,為了得到語(yǔ)義信息绸吸,還需要從相關(guān)語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過(guò)關(guān)系將實(shí)體聯(lián)系起來(lái)设江,才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu)锦茁。

1.3屬性抽取

屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,如針對(duì)某個(gè)公眾人物叉存,可以從網(wǎng)絡(luò)公開(kāi)信息中得到其昵稱码俩、生日、國(guó)籍歼捏、教育背景等信息稿存。

2.知識(shí)融合

通過(guò)信息抽取,我們就從原始的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取到了實(shí)體瞳秽、關(guān)系以及實(shí)體的屬性信息瓣履。

如果我們將接下來(lái)的過(guò)程比喻成拼圖的話,那么這些信息就是拼圖碎片练俐,散亂無(wú)章袖迎,甚至還有從其他拼圖里跑來(lái)的碎片、本身就是用來(lái)干擾我們拼圖的錯(cuò)誤碎片腺晾。

也就是說(shuō):

????????拼圖碎片(信息)之間的關(guān)系是扁平化的燕锥,缺乏層次性和邏輯性;

????????拼圖(知識(shí))中還存在大量冗雜和錯(cuò)誤的拼圖碎片(信息)

那么如何解決這一問(wèn)題悯蝉,就是在知識(shí)融合這一步里我們需要做的了归形。

知識(shí)融合包括2部分內(nèi)容:

????????實(shí)體鏈接

????????知識(shí)合并

2.1實(shí)體鏈接

實(shí)體鏈接(entity linking)是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作泉粉。

其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng)连霉,從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過(guò)相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象嗡靡。

2.2知識(shí)合并

實(shí)體鏈接鏈接的是我們從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)那里通過(guò)信息抽取提取出來(lái)的數(shù)據(jù)跺撼。

那么除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)以外,我們還有個(gè)更方便的數(shù)據(jù)來(lái)源——結(jié)構(gòu)化數(shù)據(jù)讨彼,如外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)歉井。

對(duì)于這部分結(jié)構(gòu)化數(shù)據(jù)的處理,就是我們知識(shí)合并的內(nèi)容啦哈误。一般來(lái)說(shuō)知識(shí)合并主要分為兩種:

(1)合并外部知識(shí)庫(kù)哩至,主要處理數(shù)據(jù)層和模式層的沖突

(2)合并關(guān)系數(shù)據(jù)庫(kù),有RDB2RDF等方法

2.3知識(shí)加工

至此蜜自,我們已經(jīng)得到了一系列基本的事實(shí)表達(dá)菩貌。

然而事實(shí)本身并不等于知識(shí)。要想最終獲得結(jié)構(gòu)化重荠,網(wǎng)絡(luò)化的知識(shí)體系箭阶,還需要經(jīng)歷知識(shí)加工的過(guò)程。

知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建戈鲁、知識(shí)推理和質(zhì)量評(píng)估仇参。

2.3.1本體構(gòu)建

本體(ontology)是指概念集合、概念框架婆殿,如“人”诈乒、“事”、“物”等婆芦。

人工構(gòu)建工作量巨大怕磨,且很難找到符合要求的專家,因此當(dāng)前主流的全局本體庫(kù)產(chǎn)品寞缝,都是從一些面向特定領(lǐng)域的現(xiàn)有本體庫(kù)出發(fā)癌压,采用自動(dòng)構(gòu)建技術(shù)逐步擴(kuò)展得到的。

自動(dòng)化本體構(gòu)建過(guò)程包含三個(gè)階段:

●實(shí)體并列關(guān)系相似度計(jì)算

●實(shí)體上下位關(guān)系抽取

●本體的生成

比如對(duì)下面這個(gè)例子荆陆,當(dāng)知識(shí)圖譜剛得到“阿里巴巴”滩届、“騰訊”、“手機(jī)”這三個(gè)實(shí)體的時(shí)候被啼,可能會(huì)認(rèn)為它們?nèi)齻€(gè)之間并沒(méi)有什么差別帜消,但當(dāng)它去計(jì)算三個(gè)實(shí)體之間的相似度后,就會(huì)發(fā)現(xiàn)浓体,阿里巴巴和騰訊之間可能更相似泡挺,和手機(jī)差別更大一些。

這就是第一步的作用命浴,但這樣下來(lái)娄猫,知識(shí)圖譜實(shí)際上還是沒(méi)有一個(gè)上下層的概念贱除,它還是不知道,阿里巴巴和手機(jī)媳溺,根本就不隸屬于一個(gè)類型月幌,無(wú)法比較。因此我們?cè)趯?shí)體上下位關(guān)系抽取這一步悬蔽,就需要去完成這樣的工作扯躺,從而生成第三步的本體。

當(dāng)三步結(jié)束后蝎困,這個(gè)知識(shí)圖譜可能就會(huì)明白录语,“阿里巴巴和騰訊,其實(shí)都是公司這樣一個(gè)實(shí)體下的細(xì)分實(shí)體禾乘。它們和手機(jī)并不是一類澎埠。”

本體構(gòu)建

2.3.2知識(shí)推理

在我們完成了本體構(gòu)建這一步之后始藕,一個(gè)知識(shí)圖譜的雛形便已經(jīng)搭建好了失暂。但可能在這個(gè)時(shí)候,知識(shí)圖譜之間大多數(shù)關(guān)系都是殘缺的鳄虱,缺失值非常嚴(yán)重弟塞,那么這個(gè)時(shí)候,我們就可以使用知識(shí)推理技術(shù)拙已,去完成進(jìn)一步的知識(shí)發(fā)現(xiàn)决记。

知識(shí)推理的對(duì)象包括,實(shí)體間的關(guān)系倍踪,實(shí)體的屬性值系宫,本體的概念層次關(guān)系等。

2.3.3質(zhì)量評(píng)估

對(duì)知識(shí)的可信度進(jìn)行量化建车,通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)庫(kù)的質(zhì)量扩借。

2.4知識(shí)更新

從邏輯上看,知識(shí)庫(kù)的更新包括概念層的更新和數(shù)據(jù)層的更新缤至。

概念層的更新是指新增數(shù)據(jù)后獲得了新的概念潮罪,需要自動(dòng)將新的概念添加到知識(shí)庫(kù)的概念層中。

數(shù)據(jù)層的更新主要是新增或更新實(shí)體领斥、關(guān)系嫉到、屬性值,對(duì)數(shù)據(jù)層進(jìn)行更新需要考慮數(shù)據(jù)源的可靠性月洛、數(shù)據(jù)的一致性(是否存在矛盾或冗雜等問(wèn)題)等可靠數(shù)據(jù)源何恶,并選擇在各數(shù)據(jù)源中出現(xiàn)頻率高的事實(shí)和屬性加入知識(shí)庫(kù)。

知識(shí)圖譜的內(nèi)容更新有兩種方式:

全面更新:指以更新后的全部數(shù)據(jù)為輸入嚼黔,從零開(kāi)始構(gòu)建知識(shí)圖譜细层。這種方法比較簡(jiǎn)單惜辑,但資源消耗大,而且需要耗費(fèi)大量人力資源進(jìn)行系統(tǒng)維護(hù)疫赎;

增量更新:以當(dāng)前新增數(shù)據(jù)為輸入韵丑,向現(xiàn)有知識(shí)圖譜中添加新增知識(shí)。這種方式資源消耗小虚缎,但目前仍需要大量人工干預(yù)(定義規(guī)則等),因此實(shí)施起來(lái)十分困難钓株。


來(lái)源:

一文揭秘实牡!自底向上構(gòu)建知識(shí)圖譜全過(guò)程,阿里云云棲號(hào)

http://www.reibang.com/p/503a558914ec

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末轴合,一起剝皮案震驚了整個(gè)濱河市创坞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌受葛,老刑警劉巖题涨,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異总滩,居然都是意外死亡纲堵,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門闰渔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)席函,“玉大人,你說(shuō)我怎么就攤上這事冈涧∶剑” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵督弓,是天一觀的道長(zhǎng)营曼。 經(jīng)常有香客問(wèn)我,道長(zhǎng)愚隧,這世上最難降的妖魔是什么蒂阱? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮狂塘,結(jié)果婚禮上蒜危,老公的妹妹穿的比我還像新娘。我一直安慰自己睹耐,他們只是感情好辐赞,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著硝训,像睡著了一般响委。 火紅的嫁衣襯著肌膚如雪新思。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1 302
  • 那天赘风,我揣著相機(jī)與錄音夹囚,去河邊找鬼。 笑死邀窃,一個(gè)胖子當(dāng)著我的面吹牛荸哟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瞬捕,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼鞍历,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了肪虎?” 一聲冷哼從身側(cè)響起劣砍,我...
    開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎扇救,沒(méi)想到半個(gè)月后刑枝,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡迅腔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年装畅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片沧烈。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡洁灵,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出掺出,到底是詐尸還是另有隱情徽千,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布汤锨,位于F島的核電站双抽,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏闲礼。R本人自食惡果不足惜牍汹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望柬泽。 院中可真熱鬧慎菲,春花似錦、人聲如沸锨并。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)第煮。三九已至解幼,卻和暖如春抑党,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背撵摆。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工底靠, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人特铝。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓暑中,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親鲫剿。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鳄逾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354