【轉(zhuǎn)】知識圖譜基礎(chǔ)2:語義網(wǎng)絡(luò),語義網(wǎng)箱舞,鏈接數(shù)據(jù)和知識圖譜

轉(zhuǎn)自:https://zhuanlan.zhihu.com/p/31864048

前一篇文章“為什么需要知識圖譜遍坟?什么是知識圖譜?——KG的前世今生”提及了和知識圖譜相關(guān)的一些早期概念晴股。為了讓讀者能夠更好地區(qū)分這些概念愿伴,以及更好地在整體上把握知識譜圖發(fā)展過程,本文將對這些概念作一個更為詳細(xì)的介紹队魏。

一公般、語義網(wǎng)絡(luò)(Semantic Network)

對于初學(xué)者來講,這個概念很容易和語義網(wǎng)(Semantic Web)相混淆胡桨。為了行文一致官帘,除非特別說明,語義網(wǎng)絡(luò)指Semantic Network昧谊,語義網(wǎng)指Semantic Web刽虹。

語義網(wǎng)絡(luò)是由Quillian于上世紀(jì)60年代提出的知識表達(dá)模式,其用相互連接的節(jié)點(diǎn)和邊來表示知識呢诬。節(jié)點(diǎn)表示對象涌哲、概念胖缤,邊表示節(jié)點(diǎn)之間的關(guān)系。

image

語義網(wǎng)絡(luò)的優(yōu)點(diǎn)

1. 容易理解和展示阀圾。

2. 相關(guān)概念容易聚類哪廓。

語義網(wǎng)絡(luò)的缺點(diǎn)

1. 節(jié)點(diǎn)和邊的值沒有標(biāo)準(zhǔn),完全是由用戶自己定義初烘。

2. 多源數(shù)據(jù)融合比較困難涡真,因?yàn)闆]有標(biāo)準(zhǔn)。

3. 無法區(qū)分概念節(jié)點(diǎn)和對象節(jié)點(diǎn)肾筐。

4. 無法對節(jié)點(diǎn)和邊的標(biāo)簽(label哆料,我理解是schema層,后面會介紹)進(jìn)行定義吗铐。

簡而言之东亦,語義網(wǎng)絡(luò)可以比較容易地讓我們理解語義和語義關(guān)系。其表達(dá)形式簡單直白唬渗,符合自然典阵。然而,由于缺少標(biāo)準(zhǔn)镊逝,其比較難應(yīng)用于實(shí)踐萄喳。看過上一篇文章的讀者可能已經(jīng)發(fā)現(xiàn)蹋半,RDF的提出解決了語義網(wǎng)絡(luò)的缺點(diǎn)1和缺點(diǎn)2,在節(jié)點(diǎn)和邊的取值上做了約束充坑,制定了統(tǒng)一標(biāo)準(zhǔn)减江,為多源數(shù)據(jù)的融合提供了便利。另外捻爷,RDF對is-a關(guān)系進(jìn)行了定義辈灼,即,rdf:type(是rdf標(biāo)準(zhǔn)中的一個詞匯也榄,之后的文章會介紹)巡莹。因此,不管在哪個語義網(wǎng)絡(luò)中甜紫,表達(dá)is-a關(guān)系降宅,我們都用rdf:type,在語法上形成了統(tǒng)一囚霸。比如上圖中貓腰根、熊與哺乳動物的關(guān)系就可以形式化的表達(dá)為:

貓 rdf:type 哺乳動物
熊 rdf:type 哺乳動物

但還有個問題,如何區(qū)分概念和對象拓型?即定義Class和Object(也稱作Instance, Entity)额嘿。如果不能區(qū)分瘸恼,會對我們產(chǎn)生什么影響?舉個例子册养,假如我們有兩個語義網(wǎng)絡(luò)A和B东帅。在A中,熊是哺乳動物的一個實(shí)例球拦。在B中靠闭,熊是哺乳動物的一個子類。前者是is-a關(guān)系刘莹,后者是subClassOf關(guān)系阎毅。這種情況常有發(fā)生权逗,我們建模的角度不同佳镜,那么同一個事物的表示也可能不同。如果我們不能用一種方法來區(qū)別兩者在讶,不僅會給我們帶來理解上的困難抢肛,在進(jìn)行融合的時候也會造成數(shù)據(jù)沖突狼钮。我們不能說A既是B的一個實(shí)例,又是B的一個子類捡絮。W3C制定的另外兩個標(biāo)準(zhǔn)RDFS/OWL解決了這個問題熬芜,如下圖。

image

在語義網(wǎng)技術(shù)棧中福稳,RDFS和OWL是RDF更上一層的技術(shù)涎拉,主要是為了解決語義網(wǎng)絡(luò)的缺點(diǎn)3和缺點(diǎn)4,其提供了schema層的描述的圆。在后續(xù)文章中鼓拧,我們將更詳細(xì)地介紹RDF,RDFS/OWL越妈。在這里季俩,讀者只需要知道,通過RDFS或者OWL中的預(yù)定義詞匯梅掠,我們可以形式化地聲明一個類:

哺乳動物 rdf:type rdfs:Class

或者

哺乳動物 rdf:type owl:Class

通過RDFS也可以聲明一個子類:

熊 rdf:type rdfs:Class
熊 rdfs:subClassOf 哺乳動物

或者聲明一個實(shí)例

熊 rdf:type 哺乳動物

我們也可以把rdf:type用a代替酌住,即:

熊 a 哺乳動物

RDF,RDFS/OWL屬于語義網(wǎng)技術(shù)棧阎抒,它們的提出酪我,使得語義網(wǎng)克服了語義網(wǎng)絡(luò)的缺點(diǎn)。

盡管語義網(wǎng)絡(luò)有這些缺點(diǎn)且叁,還是有許多項(xiàng)目是基于語義網(wǎng)絡(luò)的思想建立起來的祭示。下面列幾個比較出名和實(shí)用的項(xiàng)目:

  • WordNet。它是一個英語的詞匯庫,將英語單詞劃分為同義詞集合质涛,用不同的語義關(guān)系將這些集合關(guān)聯(lián)起來稠歉。其在自然語言處理的中有許多應(yīng)用,比如消歧汇陆、信息檢索怒炸、文本分類、文本摘要等等毡代。

  • BabelNet阅羹。相對于WordNet,BabelNet是一個多語言的詞匯庫教寂。它是通過自動把維基百科鏈接到WordNet上構(gòu)建起來的捏鱼,另外也用到了其他的一些詞匯資源。

  • HowNet酪耕,即知網(wǎng)导梆,中文語義詞典。其以漢語和英語詞語所代表的概念為描述對象迂烁,構(gòu)建了一個包含概念之間以及概念所具有的屬性之間的關(guān)系的常識知識庫看尼。

二、語義網(wǎng)(Semantic Web)和鏈接數(shù)據(jù)(Linked Data)

語義網(wǎng)和鏈接數(shù)據(jù)是萬維網(wǎng)之父Tim Berners Lee分別在1998年和2006提出的盟步。相對于語義網(wǎng)絡(luò)藏斩,語義網(wǎng)和鏈接數(shù)據(jù)傾向于描述萬維網(wǎng)中資源、數(shù)據(jù)之間的關(guān)系却盘。其實(shí)狰域,本質(zhì)上,語義網(wǎng)黄橘、鏈接數(shù)據(jù)還有Web 3.0都是同一個概念北专,只是在不同的時間節(jié)點(diǎn)和環(huán)境中,它們各自描述的角度不同旬陡。它們都是指W3C制定的用于描述和關(guān)聯(lián)萬維網(wǎng)數(shù)據(jù)的一系列技術(shù)標(biāo)準(zhǔn),即语婴,語義網(wǎng)技術(shù)棧描孟。

語義網(wǎng)是一個更官方的名稱,也是該領(lǐng)域?qū)W者使用得最多的一個術(shù)語砰左,同時匿醒,也用于指代其相關(guān)的技術(shù)標(biāo)準(zhǔn)。在萬維網(wǎng)誕生之初缠导,網(wǎng)絡(luò)上的內(nèi)容只是人類可讀廉羔,而計算機(jī)無法理解和處理。比如僻造,我們?yōu)g覽一個網(wǎng)頁憋他,我們能夠輕松理解網(wǎng)頁上面的內(nèi)容孩饼,而計算機(jī)只知道這是一個網(wǎng)頁。網(wǎng)頁里面有圖片竹挡,有鏈接镀娶,但是計算機(jī)并不知道圖片是關(guān)于什么的,也不清楚鏈接指向的頁面和當(dāng)前頁面有何關(guān)系揪罕。語義網(wǎng)正是為了使得網(wǎng)絡(luò)上的數(shù)據(jù)變得機(jī)器可讀而提出的一個通用框架梯码。“Semantic”就是用更豐富的方式來表達(dá)數(shù)據(jù)背后的含義好啰,讓機(jī)器能夠理解數(shù)據(jù)轩娶。“Web”則是希望這些數(shù)據(jù)相互鏈接框往,組成一個龐大的信息網(wǎng)絡(luò)鳄抒,正如互聯(lián)網(wǎng)中相互鏈接的網(wǎng)頁,只不過基本單位變?yōu)榱6雀〉臄?shù)據(jù)搅窿,如下圖嘁酿。

image

鏈接數(shù)據(jù)起初是用于定義如何利用語義網(wǎng)技術(shù)在網(wǎng)上發(fā)布數(shù)據(jù),其強(qiáng)調(diào)在不同的數(shù)據(jù)集間創(chuàng)建鏈接男应。Tim Berners Lee提出了發(fā)布數(shù)據(jù)的四個原則闹司,并根據(jù)數(shù)據(jù)集的開放程度將其劃分為1到5星5個層次。鏈接數(shù)據(jù)也被當(dāng)做是語義網(wǎng)技術(shù)一個更簡潔沐飘,簡單的描述游桩。當(dāng)它指語義網(wǎng)技術(shù)時,它更強(qiáng)調(diào)“Web”耐朴,弱化了“Semantic”的部分借卧。對應(yīng)到語義網(wǎng)技術(shù)棧,它傾向于使用RDF和SPARQL(RDF查詢語言)技術(shù)筛峭,對于Schema層的技術(shù)铐刘,RDFS或者OWL,則很少使用影晓。鏈接數(shù)據(jù)應(yīng)該是最接近知識圖譜的一個概念镰吵,從某種角度說,知識圖譜是對鏈接數(shù)據(jù)這個概念的進(jìn)一步包裝挂签。本專欄的頭像疤祭,讀者可能在很多地方看見過,這其實(shí)就是開放鏈接數(shù)據(jù)項(xiàng)目(Linked Open Data Project)進(jìn)展的可視化(讀者可以打開鏈接查看可交互的可視化圖)饵婆,也通常用來展示當(dāng)前開放知識圖譜的規(guī)模勺馆,涉及的領(lǐng)域以及知識圖譜間的鏈接關(guān)系。

image

三、知識圖譜(Knowledge Graph)

上一篇文章中草穆,我們用平實(shí)的語言給出了知識圖譜的定義和組織形式灌灾。用更正式的說法,知識圖譜是由本體(Ontology)作為Schema層续挟,和RDF數(shù)據(jù)模型兼容的結(jié)構(gòu)化數(shù)據(jù)集紧卒。本體本身是個哲學(xué)名詞,AI研究人員于上個世紀(jì)70年代引入計算機(jī)領(lǐng)域诗祸。Tom Gruber把本體定義為“概念和關(guān)系的形式化描述”跑芳,分別指實(shí)體的類層次和關(guān)系層次。我們以上篇文章羅納爾多知識圖為例直颅,我們用IRI唯一標(biāo)志的節(jié)點(diǎn)都是某個類的一個實(shí)例博个,每一條邊都表示一個關(guān)系。羅納爾多是一個人功偿,里約熱內(nèi)盧是一個地點(diǎn)盆佣,我們用RDF來表示就是:

www.kg.com/person/1 rdf:type kg:Person.
www.kg.com/place/10086 rdf:type kg:Place.

關(guān)系我們也稱為屬性(Property),根據(jù)是實(shí)體和實(shí)體之間的關(guān)系還是實(shí)體和數(shù)據(jù)值之間的關(guān)系分為對象屬性(Object Property)和數(shù)據(jù)屬性(Data Property)械荷。在圖中共耍,羅納爾多和里約熱內(nèi)盧的關(guān)系(本例中是對象屬性)與羅納爾多和全名的關(guān)系(本例中是數(shù)據(jù)屬性)用RDF就可以表示為:

www.kg.com/person/1 kg:hasBirthPlace www.kg.com/place/10086
www.kg.com/person/1 kg:fullName "Ronaldo Luís Nazário de Lima"^^xsd:string

這里kg:Person,kg:Place吨瞎,kg:hasBirthPlace痹兜,kg:fullName是我們在Ontology中定義好的類和關(guān)系。

image

鏈接數(shù)據(jù)和知識圖譜最大的區(qū)別在于:

1. 正如上面Open Linked Data Project所展示的颤诀,每一個圓圈代表一個獨(dú)立存在和維護(hù)的知識圖譜字旭;鏈接數(shù)據(jù)更強(qiáng)調(diào)不同RDF數(shù)據(jù)集(知識圖譜)的相互鏈接。

2. 知識圖譜不一定要鏈接到外部的知識圖譜(和企業(yè)內(nèi)部數(shù)據(jù)通常也不會公開一個道理)崖叫,更強(qiáng)調(diào)有一個本體層來定義實(shí)體的類型和實(shí)體之間的關(guān)系遗淳。另外,知識圖譜數(shù)據(jù)質(zhì)量要求比較高且容易訪問心傀,能夠提供面向終端用戶的信息服務(wù)(查詢屈暗、問答等等)。

四脂男、總結(jié)

本文介紹了和知識圖譜相關(guān)的幾個早期概念养叛,以及他們之間的異同。在下一篇文章當(dāng)中疆液,我們將會介紹語義網(wǎng)技術(shù)棧中比較基礎(chǔ)和重要的技術(shù)標(biāo)準(zhǔn):RDF,RDFS和OWL陕贮。另外堕油,會結(jié)合實(shí)踐,讓讀者學(xué)會用protege自頂向下地構(gòu)建自己的本體結(jié)構(gòu)。

參考資料:

  1. Blog:The Many Names of the Semantic Web

  2. 科普 | 知識圖譜相關(guān)的名詞解釋

3. Exploiting Linked Data and Knowledge Graphs in Large Organisations

  1. Video:What is Linked Data?

  2. The Linking Open Data cloud diagram

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末掉缺,一起剝皮案震驚了整個濱河市卜录,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌眶明,老刑警劉巖艰毒,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異搜囱,居然都是意外死亡丑瞧,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門蜀肘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來绊汹,“玉大人,你說我怎么就攤上這事扮宠∥鞴裕” “怎么了?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵坛增,是天一觀的道長获雕。 經(jīng)常有香客問我,道長收捣,這世上最難降的妖魔是什么届案? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮坏晦,結(jié)果婚禮上萝玷,老公的妹妹穿的比我還像新娘。我一直安慰自己昆婿,他們只是感情好球碉,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著仓蛆,像睡著了一般睁冬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上看疙,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天豆拨,我揣著相機(jī)與錄音,去河邊找鬼能庆。 笑死施禾,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的搁胆。 我是一名探鬼主播弥搞,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼邮绿,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了攀例?” 一聲冷哼從身側(cè)響起船逮,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎粤铭,沒想到半個月后挖胃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡梆惯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年酱鸭,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片加袋。...
    茶點(diǎn)故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡凛辣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出职烧,到底是詐尸還是另有隱情扁誓,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布蚀之,位于F島的核電站蝗敢,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏足删。R本人自食惡果不足惜寿谴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望失受。 院中可真熱鬧讶泰,春花似錦、人聲如沸拂到。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽兄旬。三九已至狼犯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間领铐,已是汗流浹背悯森。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绪撵,地道東北人瓢姻。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像音诈,于是被迫代替她去往敵國和親幻碱。 傳聞我的和親對象是個殘疾皇子续膳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容