知識(shí)圖譜是什么?恐怕是每個(gè)對(duì)知識(shí)圖譜感興趣的人都會(huì)首先思考的問題航厚∏旮瑁縱觀網(wǎng)絡(luò)有很多人試圖從各種角度給過解釋,筆者在與很多行業(yè)從業(yè)者交流過程中幔睬,發(fā)現(xiàn)并不是每個(gè)人都能清晰地表達(dá)出“知識(shí)圖譜是什么”這個(gè)問題眯漩;或其自身是清楚的,但是傳遞過程中總有種“茶壺倒餃子”的感覺麻顶。究其根本可能是如下三個(gè)原因?qū)е拢?/p>
1. 知識(shí)圖譜在自身演化過程中引入了哲學(xué)概念中的本體論(Ontology)赦抖,用于刻畫知識(shí),本體如何理解呢辅肾?我們看下維基百科對(duì)其的解釋:
本體論(英語:Ontology)队萤,又譯存在論、存有論矫钓,是形而上學(xué)的基本分支要尔,本體論主要探討存有本身舍杜,即一切現(xiàn)實(shí)事物的基本特征。
2. 知識(shí)圖譜綜合了眾多方面的技術(shù)和方法赵辕,有知識(shí)表示(RDF既绩、OWL...)、知識(shí)抽然够荨(D2R饲握、NER命名實(shí)體識(shí)別、關(guān)系抽取...)蚕键、知識(shí)融合(實(shí)體對(duì)齊Entity Alignment...)救欧、知識(shí)存儲(chǔ)(圖數(shù)據(jù)庫存儲(chǔ)、RDF存儲(chǔ)...)嚎幸、知識(shí)推理(歸納推理、演繹推理寄猩、符號(hào)推理...)嫉晶、圖計(jì)算(子圖匹配、最短路徑...)田篇、可視化替废、語義搜索、知識(shí)問答泊柬、知識(shí)眾包...
很多初學(xué)者一提到知識(shí)圖譜就認(rèn)為是圖數(shù)據(jù)庫椎镣,入門后認(rèn)為知識(shí)圖譜的存儲(chǔ)只能用圖數(shù)據(jù)實(shí)現(xiàn),等等這些想法都是錯(cuò)誤的兽赁。今后不要再有類似不專業(yè)的言論:“我會(huì)知識(shí)圖譜状答,因?yàn)槲視?huì)用neo4j”,“最近我們公司想引入知識(shí)圖譜刀崖,你們用的哪種圖數(shù)據(jù)庫惊科?”
3. 解釋的時(shí)候要考慮你的受眾,知識(shí)圖譜由于其可解釋性等優(yōu)勢(shì)亮钦,在人工智能火熱的今天受到各行各業(yè)的關(guān)注馆截,結(jié)合提問的受眾背景知識(shí),需要有針對(duì)性的解釋蜂莉,而不是每個(gè)人都回答“Things, Not Strings”蜡娶,雖然這句話很精髓,但是你要明白你不是谷歌映穗。
這篇文章題目叫“知識(shí)圖譜是什么”窖张,我們從兩個(gè)方面來介紹,一個(gè)是目前看到的精彩定義蚁滋,每個(gè)解釋都是高度凝練和專業(yè)荤堪;另外一個(gè)是筆者口語化的總結(jié)思考合陵,希望對(duì)你理解這個(gè)問題有幫助。
1. 谷歌的定義
谷歌在2012年基于語義網(wǎng)澄阳、Linked Data發(fā)布了知識(shí)圖譜拥知,主要用于提高谷歌搜索的質(zhì)量,因此谷歌對(duì)知識(shí)圖譜的解釋更側(cè)重于自身的搜索業(yè)務(wù)碎赢。
Google知識(shí)圖譜(英語:Google Knowledge Graph低剔,也稱Google知識(shí)圖)是Google的一個(gè)知識(shí)庫,其使用語義檢索從多種來源收集信息肮塞,以提高Google搜索的質(zhì)量襟齿。知識(shí)圖譜2012年加入Google搜索,2012年5月16日正式發(fā)布枕赵,首先可在美國使用猜欺。知識(shí)圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的關(guān)于主題的信息拷窜。其目標(biāo)是开皿,用戶將能夠使用此功能提供的信息來解決他們查詢的問題,而不必導(dǎo)航到其他網(wǎng)站并自己匯總信息篮昧。
在谷歌的官方博客上赋荆,我們可以查看到Amit Singhal在2012年5月16日發(fā)表的博文,提到“知識(shí)圖譜從三個(gè)方面增強(qiáng)谷歌的搜索”:
? ? - Find the right thing
? ? -?Get the best summary
? ? -?Go deeper and broader
2. 王昊奮的定義
昊奮老師是知識(shí)圖譜方面的專家懊昨,深入?yún)⑴c過IBM Watson系統(tǒng)的研發(fā)工作窄潭。
知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念。其中酵颁,每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來標(biāo)識(shí)嫉你,稱為它們的標(biāo)識(shí)符。每個(gè)屬性-值對(duì)用來刻畫實(shí)體的內(nèi)在特性躏惋,而關(guān)系用來連接兩個(gè)實(shí)體均抽,刻畫它們之間的關(guān)聯(lián)。
這個(gè)解釋形象且完整的說明了知識(shí)圖譜的基本組成元素其掂,包括實(shí)體油挥、概念、屬性款熬、關(guān)系深寥,以及它們所代表的含義和相互之間的關(guān)系。實(shí)體或概念就是圖上的一個(gè)個(gè)節(jié)點(diǎn)贤牛;屬性-值是節(jié)點(diǎn)的內(nèi)在特征惋鹅;關(guān)系是節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)聯(lián),圖上表現(xiàn)為兩個(gè)節(jié)點(diǎn)之間的連線殉簸。
3. 漆桂林的定義
漆老師是東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的教授闰集,著有《面向語義Web的知識(shí)管理技術(shù)》一書沽讹,17年發(fā)表的《知識(shí)圖譜研究進(jìn)展》既回顧了知識(shí)圖譜的歷史,又探討了知識(shí)圖譜研究的意義武鲁,是了解熟悉圖譜不可多得的優(yōu)秀文章爽雄。
漆老師對(duì)知識(shí)圖譜及其意義的定義如下:
知識(shí)圖譜是人工智能中研究如何將人類的知識(shí)轉(zhuǎn)化為圖,從而方便計(jì)算機(jī)存儲(chǔ)并用于推理沐鼠,計(jì)算機(jī)可以通過知識(shí)圖譜實(shí)現(xiàn)從感知智能到認(rèn)知智能的飛躍挚瘟,支持智能問答、輔助決策饲梭、智能分析等應(yīng)用乘盖。
漆老師作為一個(gè)完美主義者,對(duì)這個(gè)定義并不是最滿意憔涉。該定義說明了知識(shí)圖譜中幾個(gè)要點(diǎn)問題
? ? - 知識(shí)圖譜是人工智能中的一項(xiàng)重要技術(shù)订框,實(shí)際上它是與深度學(xué)習(xí)并行的人工智能三個(gè)流派之一,屬于符號(hào)主義
? ? - 為什么要用圖的方式來組織和描述人類知識(shí)兜叨?因?yàn)閳D結(jié)構(gòu)更便于計(jì)算機(jī)存儲(chǔ)穿扳,同時(shí)可用于后期的知識(shí)推理等智能應(yīng)用
? ? - 目前是人工智能發(fā)展的第三個(gè)重要階段,前兩個(gè)分別是計(jì)算智能和感知智能浪腐,知識(shí)圖譜是實(shí)現(xiàn)機(jī)器認(rèn)知智能的關(guān)鍵技術(shù)
? ? - 知識(shí)圖譜目前在工業(yè)屆已經(jīng)擁有很多成熟的落地應(yīng)用纵揍,典型的有智能問答顿乒、輔助決策议街、智能分析等
4. 劉煥勇 薛云志的定義
最近劉老師與薛老師的文章《事理圖譜,下一代知識(shí)圖譜》探討了從知識(shí)圖譜到事理圖譜的區(qū)別和聯(lián)系璧榄,非常值得一讀的文章特漩,目前以傳統(tǒng)本體概念為基礎(chǔ)進(jìn)行知識(shí)組織的偏靜態(tài)知識(shí)圖譜越來越顯露出其局限性,對(duì)動(dòng)態(tài)特征描述的事理圖譜將是將來的發(fā)展方向骨杂。有關(guān)動(dòng)態(tài)事件涂身、時(shí)空、權(quán)重搓蚪、地域等知識(shí)的利用蛤售,在后續(xù)文章中我們結(jié)合實(shí)際案例進(jìn)行介紹。
這篇文章中從多個(gè)視角來看待知識(shí)圖譜妒潭,每個(gè)視角都代表了不同角色看待問題的角度悴能,筆者曾在不同場(chǎng)合針對(duì)不同受眾對(duì)知識(shí)圖譜有過不同的解釋,這篇文章里的定義是我目前看過最系統(tǒng)和全面的雳灾。
從AI的視角來看漠酿,知識(shí)圖譜是一種理解人類語言的知識(shí)庫,
從數(shù)據(jù)庫視角來看谎亩,知識(shí)圖譜是一種新型的知識(shí)存儲(chǔ)結(jié)構(gòu)炒嘲;
從知識(shí)表示視角來看宇姚,知識(shí)圖譜是計(jì)算機(jī)理解知識(shí)的一種方法;
從web視角來看夫凸,知識(shí)圖譜是知識(shí)數(shù)據(jù)之間的一種語義互聯(lián)浑劳。
曾有人問過我:“知識(shí)圖譜與知識(shí)庫有什么區(qū)別?”從狹義的角度來講寸痢,它可以看做一種理解人類語言的知識(shí)庫呀洲,行業(yè)知識(shí)圖譜即為行業(yè)知識(shí)庫,本質(zhì)上以一種新型的結(jié)構(gòu)組織的知識(shí)庫啼止,相對(duì)于傳統(tǒng)知識(shí)庫道逗,可能更容易基于圖譜做智能的拓展和應(yīng)用。
我們一直講献烦,知識(shí)圖譜并不是一個(gè)新興的技術(shù)滓窍,而是從最初的邏輯語義網(wǎng)(semantic-net)、到語義網(wǎng)絡(luò)(semantic-web)再到Linked-data不斷演變而來巩那,因此需要對(duì)其有客觀的認(rèn)知吏夯,任何一個(gè)新的技術(shù)都不是對(duì)“舊”技術(shù)的顛覆,而是站在巨人肩膀上所取得的成果即横,要記住知識(shí)圖譜不是“銀彈”噪生。
5. 口語版“知識(shí)圖譜是什么?”
以下是筆者結(jié)合自身經(jīng)歷總結(jié)的極其不凝練的定義东囚,如有不夠準(zhǔn)確的地方歡迎討論跺嗽。
知識(shí)圖譜被稱為人工智能的基石,它的前身是語義網(wǎng)页藻,由谷歌在2012年率先提出桨嫁,用于改善自身的搜索業(yè)務(wù)。
如果將人工智能比作一個(gè)人的話份帐,那么圖像識(shí)別可以看做人類的眼睛璃吧,語音識(shí)別與合成看做人的耳朵和嘴巴,知識(shí)圖譜就是是人的大腦废境,因此可見其重要性畜挨。
我們?nèi)祟惖拇竽X存儲(chǔ)了對(duì)客觀世界的主觀認(rèn)知,這些知識(shí)人類可以理解噩凹,可是機(jī)器不能巴元。我們知道互聯(lián)網(wǎng)本質(zhì)是一個(gè)描述資源和資源之間關(guān)系的網(wǎng)絡(luò),RDF則是一種資源的描述方式栓始,簡(jiǎn)單來說务冕,每一種描述都是一個(gè)主謂賓三元組,因此RDF幾乎可以描述我們整個(gè)客觀世界幻赚,而它的另外一個(gè)好處在于是機(jī)器可理解的禀忆。
對(duì)于傳統(tǒng)知識(shí)圖譜我們可以簡(jiǎn)單抽象出概念臊旭、實(shí)體、屬性箩退、關(guān)系离熏、時(shí)序等要素,概念是一類實(shí)例的集合戴涝,實(shí)體就是具體的一個(gè)個(gè)實(shí)例滋戳,屬性表示實(shí)例內(nèi)在的特性,關(guān)系更多的側(cè)重于外在啥刻,舉個(gè)例子奸鸯,比如:我正在聽《安靜》這首歌,我是一個(gè)實(shí)體可帽,屬于人這個(gè)概念娄涩;安靜是一首歌,是屬于歌曲概念下的一個(gè)實(shí)體映跟;聽是我和安靜這兩個(gè)實(shí)體之間正在發(fā)生的關(guān)系蓄拣;因此在知識(shí)圖譜里我和安靜可以分別用一個(gè)節(jié)點(diǎn)來表示,我們之間的關(guān)系用一條線進(jìn)行連接努隙,這條線就代表聽歌這個(gè)關(guān)系球恤;<我, 聽, 安靜>。同時(shí)我作為一個(gè)實(shí)體有自己的內(nèi)在屬性荸镊,比如身高咽斧、體重、性別贷洲;<我, 性別, 男>收厨。這一條條基本的三元組可以非常方便的轉(zhuǎn)換成圖晋柱,存儲(chǔ)于計(jì)算機(jī)中优构,從而組成知識(shí)圖譜。
以此類推雁竞,世間萬事萬物都可以以這種方式存儲(chǔ)在計(jì)算機(jī)中钦椭,后續(xù)在這樣一個(gè)知識(shí)庫之上增加各種規(guī)則、模型碑诉、算法彪腔,即可以提供我們實(shí)際使用到的各類智能應(yīng)用。