前言
知識圖譜的數(shù)據(jù)是通過三元組(主語疲牵、謂語指厌、賓語)的方式進行組織的凹蜂,每一個三元組代表一條知識凉逛,并且所有三元組按照一定的邏輯組織起來
知識圖譜的數(shù)據(jù)結(jié)構(gòu)
從知識圖譜數(shù)據(jù)組織的架構(gòu)來看性宏,可以把知識圖譜的數(shù)據(jù)分為兩個層次:
- 數(shù)據(jù)模型層:數(shù)據(jù)模型是按照本體論的思想,勾畫出來的數(shù)據(jù)組織模式状飞,數(shù)據(jù)模型可以展示數(shù)據(jù)的組織方式毫胜,數(shù)據(jù)之間的相互關(guān)系书斜。創(chuàng)建動植物的數(shù)據(jù)模型,可以按照動植物的通用分類標準酵使,使用七個主要級別:界荐吉、門、綱凝化、目稍坯、科、屬搓劫、種瞧哟。可以將動植物的數(shù)據(jù)按照下面這個模型進行組織:
/ | 人 | 白菜 | 獼猴 |
---|---|---|---|
域 | 真核生物域 | 真核生物域 | 真核生物域 |
界 | 動物界 | 植物界 | 動物界 |
門 | 脊索動物門 | 種子植物門 | 脊索動物門 |
綱 | 哺乳綱 | 雙子葉植物綱 | 哺乳綱 |
目 | 靈長目 | 白花菜目 | 靈長目 |
科 | 人科 | 十字花科 | 猴科 |
屬 | 人屬 | 蕓苔屬 | 獼猴屬 |
種 | 智人 | 白菜種 | 獼猴 |
數(shù)據(jù)模型可以看作是元數(shù)據(jù)枪向,依據(jù)數(shù)據(jù)模型勤揩,數(shù)據(jù)才能得到有效的組織。數(shù)據(jù)模型除了確定對象之間的分類秘蛔,關(guān)系陨亡,還要明確對象的屬性。
針對不同的知識圖譜深员,需要收集的數(shù)據(jù)的內(nèi)容也不相同负蠕,內(nèi)容范圍由對象的屬性確定。數(shù)據(jù)模型的分類倦畅,關(guān)系反應(yīng)了數(shù)據(jù)之間的關(guān)系特征遮糖,數(shù)據(jù)模型的屬性反應(yīng)了數(shù)據(jù)的內(nèi)在特征。
- 具體數(shù)據(jù)層叠赐,具體數(shù)據(jù)是一條條知識欲账,它是依據(jù)數(shù)據(jù)模型組織起來的。我們可以把數(shù)據(jù)模型看作是骨架芭概,把具體數(shù)據(jù)看作是肌肉赛不,兩部分共同組成了一個健壯的整體,就是知識圖譜罢洲。
不同類型的知識圖譜組織數(shù)據(jù)的方式也有所不同踢故,涉及到具體數(shù)據(jù),具體數(shù)據(jù)的內(nèi)容也有差別惹苗。比如
- 對于一個人物來說殿较,如果是歷史知識圖譜,可能人物數(shù)據(jù)的內(nèi)容主要側(cè)重于人物的生平鸽粉,主要事跡和人物關(guān)系等等斜脂,
- 如果是文學(xué)知識圖譜抓艳,人物數(shù)據(jù)的內(nèi)容則會主要側(cè)重人物的主要作品触机,師承關(guān)系和作品流派等等。
將知識圖譜的數(shù)據(jù)分成了兩個層次,在構(gòu)建知識圖譜的時候儡首,是先確定數(shù)據(jù)模型再收集具體數(shù)據(jù)片任,還是先收集具體數(shù)據(jù)再確定數(shù)據(jù)模型,這就形成了兩種構(gòu)建知識圖譜的方式蔬胯。
自頂向下的構(gòu)建方式
即先確定數(shù)據(jù)模型对供,再填充具體數(shù)據(jù)。
數(shù)據(jù)模型的設(shè)計氛濒,是知識圖譜的頂層設(shè)計产场,根據(jù)知識圖譜的特點確定數(shù)據(jù)模型,就相當于確定了圖譜收集數(shù)據(jù)的范圍舞竿,以及數(shù)據(jù)的組織方式京景。
總的來說,自頂向下的構(gòu)建方式骗奖,適用于知識內(nèi)容比較明確确徙,關(guān)系比較清晰的領(lǐng)域構(gòu)建知識圖譜
自下向上的構(gòu)建方式
指先按照三元組的方式收集具體數(shù)據(jù),然后根據(jù)數(shù)據(jù)內(nèi)容來提煉數(shù)據(jù)模型执桌。采用這種方式構(gòu)建知識圖譜鄙皇,是因為在開始構(gòu)建知識圖譜的時候,還不清楚數(shù)據(jù)的范圍仰挣,也不清楚數(shù)據(jù)怎么使用伴逸,就是先把所有的數(shù)據(jù)收集起來,形成一個龐大的數(shù)據(jù)集椎木,然后再根據(jù)數(shù)據(jù)內(nèi)容违柏,總結(jié)數(shù)據(jù)的特點,將數(shù)據(jù)進行整理香椎、分析漱竖、歸納、總結(jié)畜伐,形成一個龐大的數(shù)據(jù)集馍惹,然后再根據(jù)數(shù)據(jù)內(nèi)容,總結(jié)數(shù)據(jù)的特點玛界,將數(shù)據(jù)進行整理万矾、分析、歸納慎框、總結(jié)良狈,形成一個框架,也就是數(shù)據(jù)模型笨枯。
一般是公共領(lǐng)域的知識圖譜采用上述方式薪丁,因為公共領(lǐng)域的知識圖譜涉及到海量的數(shù)據(jù)遇西,并且包括方方面面的知識,做出來的效果是大而全严嗜,這在構(gòu)建的初期粱檀,很難想清楚數(shù)據(jù)的整體架構(gòu),只能是根據(jù)數(shù)據(jù)的內(nèi)容總結(jié)提煉特征漫玄,形成數(shù)據(jù)框架模型茄蚯。
總結(jié)
兩種構(gòu)建方式也不是一成不變的,在構(gòu)建初期兩種方式區(qū)別很明顯睦优,在知識圖譜構(gòu)建的后期渗常,兩種方式可能會結(jié)合使用。對于自頂向下的構(gòu)建方式汗盘,隨著數(shù)據(jù)量的不斷積累凳谦,可能會發(fā)現(xiàn)原來的數(shù)據(jù)模型并不完善,有很多數(shù)據(jù)可能沒有包含在數(shù)據(jù)模型的體系中衡未,這時候就需要修訂數(shù)據(jù)模型尸执,根據(jù)數(shù)據(jù)的特點,完善數(shù)據(jù)模型缓醋。同樣如失,在自下向上的構(gòu)建方式中,慢慢形成的數(shù)據(jù)模型送粱,對于后期的數(shù)據(jù)收集褪贵,也有一定的指導(dǎo)作用,按照形成的數(shù)據(jù)模型抗俄,可以快速準確地收集相關(guān)數(shù)據(jù)脆丁。
總之,數(shù)據(jù)和數(shù)據(jù)模型之間动雹,是一個相輔相成的關(guān)系槽卫,二者在構(gòu)建知識圖譜的過程中缺一不可。