觀點(diǎn) - 論語(yǔ)義網(wǎng)和知識(shí)圖譜的區(qū)別

Q：語(yǔ)義網(wǎng)和知識(shí)圖譜有區(qū)別嗎城看？如果有女气，區(qū)別何在？

當(dāng)下關(guān)于知識(shí)圖譜的討論越來(lái)越熱烈测柠，但是經(jīng)常聽到有人用“語(yǔ)義網(wǎng)”來(lái)代替“知識(shí)圖譜”炼鞠，或者說(shuō)認(rèn)為知識(shí)圖譜本質(zhì)上就是語(yǔ)義網(wǎng)。這種想法不無(wú)道理轰胁，我也聚德這兩者很大程度上是相通的谒主，甚至知識(shí)圖譜本來(lái)本就脫胎于語(yǔ)義網(wǎng)（Google收購(gòu)Freebase改造后推出Google Knowledge Graph）。然而赃阀，我個(gè)人認(rèn)為語(yǔ)義網(wǎng)和知識(shí)圖譜還是有區(qū)別的霎肯。

首先從兩者的源流來(lái)看。

語(yǔ)義網(wǎng)是Tim Berners Lee 在1998年提出來(lái)的概念榛斯。他本人在當(dāng)年W3C的《Semantic Web Road map》里面對(duì)語(yǔ)義網(wǎng)的描述是：

Machine-Understandable information: Semantic Web

The Semantic Web is a web of data, in some ways like a global database.

他的理想和1990年提出Word Wide Web的時(shí)候并沒(méi)有大不同观游，都是整合全球的信息，讓每個(gè)人都能觸達(dá)每一份信息驮俗。差別是1998年的時(shí)候World Wide Web 本質(zhì)是是一個(gè)全球文件系統(tǒng) (global file system)懂缕，因?yàn)閣eb上的內(nèi)容絕大多數(shù)都是HTML文件，以及少量的PDF意述、視頻、音頻之類的多媒體文件吮蛹。他希望更進(jìn)一步荤崇，把web變成一個(gè)全球數(shù)據(jù)庫(kù) (global database)。這樣一來(lái)不僅每個(gè)人能得到每一份信息潮针，而且機(jī)器也能處理這些信息（即便在今天术荤，機(jī)器處理文本信息都是的能力都還是不如處理數(shù)據(jù)庫(kù)中結(jié)構(gòu)化信息的能力）。

知識(shí)圖譜是Google在2012年提出來(lái)的概念每篷。Google的做法是在自家建立了一個(gè)大型的圖數(shù)據(jù)系統(tǒng)瓣戚，把自己的信息組織成一個(gè)圖譜。有了這個(gè)圖數(shù)據(jù)系統(tǒng)焦读，Google在搜索上的能力上升了一個(gè)臺(tái)階子库，最起碼多了一道新的程序，而且和原本基于向量空間模型的方案很不同矗晃。有了知識(shí)圖譜后仑嗅，Google不僅僅能返回信息量大但密度低文檔，還能返回信息量小但密度高的知識(shí)卡片。

我認(rèn)為語(yǔ)義網(wǎng)和知識(shí)圖譜仓技，兩者的最初的動(dòng)機(jī)是不一樣的鸵贬。一個(gè)是開放的、共享的脖捻、全球的數(shù)據(jù)庫(kù)阔逼，另一個(gè)是封閉的、排外的地沮、自家的數(shù)據(jù)庫(kù)（雖說(shuō)Google的數(shù)據(jù)也是全球范圍的）嗜浮。目標(biāo)的不同會(huì)導(dǎo)致方法的不同。

語(yǔ)義網(wǎng)使用的數(shù)據(jù)模型RDF和W3C制定的語(yǔ)義網(wǎng)技術(shù)棧就是圍繞其開放性诉濒、共享性周伦、全球性等特點(diǎn)設(shè)計(jì)的。1998年時(shí)數(shù)據(jù)庫(kù)采用的主流的數(shù)據(jù)模型是關(guān)系數(shù)據(jù)模型（現(xiàn)在也是）未荒。但是關(guān)系數(shù)據(jù)庫(kù)的一個(gè)缺點(diǎn)是需要事前定義好schema专挪，也可以認(rèn)為是表結(jié)構(gòu)和表關(guān)系。這就帶來(lái)幾個(gè)問(wèn)題片排，最大的問(wèn)題是改動(dòng)起來(lái)很麻煩寨腔，當(dāng)數(shù)據(jù)量極大的時(shí)候成本會(huì)很高。所以語(yǔ)義網(wǎng)采用的數(shù)據(jù)模型是RDF率寡。RDF最初其實(shí)不是數(shù)據(jù)模型迫卢，而是一種數(shù)據(jù)交換格式，由Ramanathan V. Guha在蘋果公司開發(fā)冶共，最初名叫Meta Content Framework乾蛤，后來(lái)改進(jìn)成Resource Description Framework。用RDF對(duì)數(shù)據(jù)建模捅僵，不需要事先定義schema家卖，所以也有人把RDF稱作schemaless的建模語(yǔ)言。RDF本質(zhì)上也是對(duì)實(shí)體和關(guān)系建模庙楚，首先用Unicode將數(shù)據(jù)（實(shí)體entity上荡、關(guān)系predicate和字面量literal）編碼，然后用URI唯一標(biāo)識(shí)實(shí)體和關(guān)系馒闷。這樣一來(lái)酪捡，一個(gè)RDF數(shù)據(jù)模型也成了一個(gè)圖數(shù)據(jù)模型，各種實(shí)體通過(guò)關(guān)系鏈接在一起纳账，實(shí)體又有自己屬性（字面量）逛薇，形成了一個(gè)網(wǎng)。為什么使用URI來(lái)標(biāo)識(shí)疏虫？我認(rèn)為這是因?yàn)檎Z(yǔ)義網(wǎng)上的數(shù)據(jù)應(yīng)該像文檔一樣能被訪問(wèn)金刁，而文檔就是通過(guò)URI訪問(wèn)的帅涂，于是這個(gè)傳統(tǒng)就被應(yīng)用到語(yǔ)義網(wǎng)上了。至于為什么文檔用URI標(biāo)識(shí)尤蛮，Tim Berners Lee的原話是：

A Uniform Resource Identifier (URI) provides a simple and extensible means for identifying a resource

更多URI的好處可以查看相應(yīng)的RFC文檔

知識(shí)圖譜呢媳友？一說(shuō)起知識(shí)圖譜，人們想起的應(yīng)該不是一個(gè)開放共享的全球數(shù)據(jù)庫(kù)产捞，而是一個(gè)自有的圖數(shù)據(jù)系統(tǒng)醇锚，就好像自家的關(guān)系數(shù)據(jù)庫(kù)一樣。Google的知識(shí)圖譜就是一個(gè)私有的圖數(shù)據(jù)系統(tǒng)坯临『富＃互聯(lián)網(wǎng)是全體使用，全體維護(hù)的（W3C之類的也是公共組織）看靠，但是Google的知識(shí)圖譜是一個(gè)自家使用赶促，自家維護(hù)的數(shù)據(jù)庫(kù)。既然是自家經(jīng)營(yíng)挟炬、自負(fù)盈虧鸥滨，而且規(guī)模也沒(méi)有全球數(shù)據(jù)庫(kù)那么大、功能上也不要求全世界的人自由編輯谤祖，那就可以怎么容易怎么來(lái)婿滓。想一下互聯(lián)網(wǎng)和自家的文件系統(tǒng)。我們自己的文件系統(tǒng)可不是網(wǎng)狀的而是樹狀的粥喜，標(biāo)識(shí)用的是文件名而不是URI凸主。當(dāng)然我們可以把文檔轉(zhuǎn)化成HTML文檔，把個(gè)文檔連城一個(gè)網(wǎng)额湘，然后放在服務(wù)器上卿吐，那么網(wǎng)上其他人就可以通過(guò)URI訪問(wèn)了。而且現(xiàn)在我們也不是把文檔直接放在服務(wù)器目錄下锋华，而是放進(jìn)數(shù)據(jù)庫(kù)嗡官，需要時(shí)用后臺(tái)程序從該數(shù)據(jù)庫(kù)中把相應(yīng)內(nèi)容調(diào)出來(lái)，加上HTML模板渲染成一個(gè)HTML文檔供置，然后發(fā)到客戶端去谨湘。

所以現(xiàn)在工業(yè)界做知識(shí)圖譜绽快，做的都是像Google那樣自家的數(shù)據(jù)庫(kù)芥丧，底層可以用的是關(guān)系數(shù)據(jù)庫(kù)，或者改造后的關(guān)系數(shù)據(jù)庫(kù)坊罢，如postgresql续担，配合一些nosql的數(shù)據(jù)庫(kù)。對(duì)于數(shù)據(jù)模型活孩，目前業(yè)界采用的主流圖數(shù)據(jù)模型是LPG（Labeled Property Graph）物遇。其標(biāo)準(zhǔn)是Apache的TinkerPop。至于LPG和RDF的優(yōu)劣勢(shì)對(duì)比，這是一篇典型的文章询兴，作者是Neo4j的開發(fā)者乃沙。雖然里面一些觀點(diǎn)我很不同意，但作為思考的起點(diǎn)還是不錯(cuò)的诗舰。（PS：本人不在工業(yè)界警儒，本段觀點(diǎn)純屬道聽途說(shuō)。）

經(jīng)過(guò)以上對(duì)比眶根，我認(rèn)為語(yǔ)義網(wǎng)和知識(shí)圖譜不是一個(gè)東西蜀铲，他們的目標(biāo)和使用的技術(shù)都不一樣。但既然有人把它們混在一起說(shuō)属百，那就說(shuō)明這兩個(gè)東西還是很像的记劝。事實(shí)上也確實(shí)如此，它們本質(zhì)上都是圖數(shù)據(jù)模型族扰，應(yīng)該都可以做（至少大部分）相同的事情厌丑。而且兩者之間轉(zhuǎn)換起來(lái)也很簡(jiǎn)單。Google的知識(shí)圖譜就是從Freebase導(dǎo)入的别伏，F(xiàn)reebase就是一個(gè)語(yǔ)義網(wǎng)項(xiàng)目蹄衷，使用了RDF模型、用URI標(biāo)識(shí)數(shù)據(jù)厘肮、能用SPARQL查詢數(shù)據(jù)愧口、還定義了自己的本體結(jié)構(gòu)。而現(xiàn)行的圖數(shù)據(jù)庫(kù)类茂，要把數(shù)據(jù)導(dǎo)出成RDF也不難耍属，Neo4j就支持直接導(dǎo)出RDF數(shù)據(jù)。

如今語(yǔ)義網(wǎng)和知識(shí)圖譜都很繁榮巩检，應(yīng)該都是前景不錯(cuò)的研究和產(chǎn)業(yè)方向厚骗。

本作品首發(fā)于簡(jiǎn)書和博客園平臺(tái)，采用知識(shí)共享署名 4.0 國(guó)際許可協(xié)議進(jìn)行許可兢哭。

本文直接或間接地使用了以下著作的內(nèi)容：

Tim Berners Lee 《Semantic Web Roadmap》
Amit Singhal 《Introducing the Knowledge Graph: things, not strings》
Tim Berners Lee 《RFC3986》
······

最后編輯于：2019.01.27 18:55:58

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末领舰，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子迟螺，更是在濱河造成了極大的恐慌冲秽，老刑警劉巖，帶你破解...
沈念sama閱讀 219,366評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件矩父，死亡現(xiàn)場(chǎng)離奇詭異锉桑，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)窍株，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門民轴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)攻柠，“玉大人，你說(shuō)我怎么就攤上這事后裸」迮ィ” “怎么了？”我有些...
開封第一講書人閱讀 165,689評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵微驶，是天一觀的道長(zhǎng)飞涂。經(jīng)常有香客問(wèn)我，道長(zhǎng)祈搜，這世上最難降的妖魔是什么较店？我笑而不...
開封第一講書人閱讀 58,925評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮容燕，結(jié)果婚禮上梁呈，老公的妹妹穿的比我還像新娘。我一直安慰自己蘸秘，他們只是感情好拧晕，可當(dāng)我...
茶點(diǎn)故事閱讀 67,942評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布痹换。她就那樣靜靜地躺著筏养，像睡著了一般谭胚。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上颈嚼，一...
開封第一講書人閱讀 51,727評(píng)論 1贊 305
城市分裂傳說(shuō)
那天毛秘，我揣著相機(jī)與錄音，去河邊找鬼阻课。笑死叫挟，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的限煞。我是一名探鬼主播抹恳，決...
沈念sama閱讀 40,447評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼署驻！你這毒婦竟也來(lái)了奋献？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,349評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤旺上，失蹤者是張志新（化名）和其女友劉穎瓶蚂，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抚官，經(jīng)...
沈念sama閱讀 45,820評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡扬跋，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,990評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年阶捆，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凌节。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钦听。...
茶點(diǎn)故事閱讀 40,127評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖倍奢，靈堂內(nèi)的尸體忽然破棺而出朴上，到底是詐尸還是另有隱情，我是刑警寧澤卒煞，帶...
沈念sama閱讀 35,812評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布痪宰，位于F島的核電站，受9級(jí)特大地震影響畔裕，放射性物質(zhì)發(fā)生泄漏衣撬。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,471評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一扮饶、第九天我趴在偏房一處隱蔽的房頂上張望具练。院中可真熱鬧，春花似錦甜无、人聲如沸扛点。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評(píng)論 0贊 22
一樁弒父案岂丘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)陵究。三九已至，卻和暖如春奥帘，著一層夾襖步出監(jiān)牢的瞬間铜邮，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,142評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工寨蹋，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留牲距，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,388評(píng)論 3贊 373
代替公主和親
正文我出身青樓钥庇，卻偏偏與公主長(zhǎng)得像牍鞠，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子评姨，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,066評(píng)論 2贊 355

觀點(diǎn) - 論語(yǔ)義網(wǎng)和知識(shí)圖譜的區(qū)別

Q：語(yǔ)義網(wǎng)和知識(shí)圖譜有區(qū)別嗎城看？如果有女气，區(qū)別何在？

Machine-Understandable information: Semantic Web

本文直接或間接地使用了以下著作的內(nèi)容：

推薦閱讀更多精彩內(nèi)容