一耘纱、知識(shí)圖譜概要
1.0 什么是知識(shí)圖譜
知識(shí)圖譜本質(zhì)上是一種大型的語(yǔ)義網(wǎng)絡(luò),它旨在描述客觀世界的實(shí)體/概念以及及其之間的關(guān)系拯坟。以實(shí)體/概念為節(jié)點(diǎn),以關(guān)系為邊宰翅,提供一種從關(guān)系的視角來(lái)看世界昆淡。
1960年,語(yǔ)義網(wǎng)絡(luò)(Semantic Networks)作為知識(shí)表示的一種方法被提出员寇,主要用于自言語(yǔ)言理解領(lǐng)域。它是一種用圖來(lái)表示知識(shí)的結(jié)構(gòu)化方式。在一個(gè)語(yǔ)義網(wǎng)絡(luò)中极阅,信息被表達(dá)為一組結(jié)點(diǎn),結(jié)點(diǎn)通過(guò)一組帶標(biāo)記的有向直線彼此相連涨享,用于表示結(jié)點(diǎn)間的關(guān)系筋搏。簡(jiǎn)而言之,語(yǔ)義網(wǎng)絡(luò)可以比較容易地讓我們理解語(yǔ)義和語(yǔ)義關(guān)系厕隧。
之前的語(yǔ)義網(wǎng)絡(luò)受限于我們處理的方法奔脐,更多是依賴于專家的經(jīng)驗(yàn)規(guī)則去構(gòu)建,在規(guī)模方面受限于特定領(lǐng)域的數(shù)據(jù)吁讨。大規(guī)模網(wǎng)絡(luò)髓迎,谷歌在2012年首先提出知識(shí)圖譜的概念,在freebase的基礎(chǔ)上擴(kuò)展了大量來(lái)自互聯(lián)網(wǎng)的實(shí)體數(shù)據(jù)和關(guān)系數(shù)據(jù)建丧。據(jù)說(shuō)目前實(shí)體的數(shù)據(jù)已經(jīng)達(dá)到數(shù)十億級(jí)排龄,有達(dá)到千億級(jí)的實(shí)例關(guān)系,規(guī)模是非常巨大的翎朱。
1.1 知識(shí)圖譜的基本組成
構(gòu)成知識(shí)圖譜的核心是三元組:實(shí)體(Entity)橄维、屬性(Attribute)和關(guān)系(Relation),可以表示為 <實(shí)體1拴曲,關(guān)系挣郭,實(shí)體2> 或? <實(shí)體1,屬性1疗韵,屬性值1>兑障,例如:<Google,is-a,人工智能公司>流译;<人工智能公司逞怨,subclass,高料技公司>
基于已有的知識(shí)圖譜三元組福澡,可以推導(dǎo)出新的關(guān)系叠赦。例如:<翅膀 part-of 鳥(niǎo)>,<麻雀kind-of 鳥(niǎo)>革砸,可以推導(dǎo)出<翅膀 part-of 麻雀>除秀。
1.2 知識(shí)圖譜的分類
通用知識(shí)圖譜 實(shí)際上是谷歌或者百度這樣的大型的互聯(lián)網(wǎng)公司在構(gòu)建的,它主最主要是用于它的搜索引擎算利,它面向的是通用領(lǐng)域册踩,它的用戶是全部的互聯(lián)網(wǎng)的用戶,它構(gòu)建常識(shí)性的知識(shí)為主效拭,包括結(jié)構(gòu)化的百科知識(shí)暂吉,它強(qiáng)調(diào)的更多的是一種知識(shí)的廣度,對(duì)知識(shí)的深度方面不做更多的要求缎患,它的使用者也是普通的用戶慕的。
行業(yè)知識(shí)圖譜 面向一個(gè)特定的領(lǐng)域,它的數(shù)據(jù)來(lái)源是來(lái)源于特定行業(yè)的語(yǔ)料挤渔,它是基于行業(yè)的數(shù)據(jù)來(lái)構(gòu)建肮街,而且要有一定的行業(yè)的深度,它強(qiáng)調(diào)的是更多的是深度判导,而不是廣度嫉父,能夠解決行業(yè)人員的問(wèn)題,它的使用者也是這個(gè)行業(yè)內(nèi)的從業(yè)人員骡楼,或是這個(gè)領(lǐng)域里面的專業(yè)人員來(lái)使用。
通用知識(shí)圖譜和行業(yè)知識(shí)圖譜稽鞭,個(gè)并不是說(shuō)完全互相獨(dú)立的鸟整,是具有互相互補(bǔ)性的關(guān)系。一方面朦蕴,通用知識(shí)圖譜會(huì)不斷的吸納行業(yè)或者領(lǐng)域知識(shí)圖譜的知識(shí)篮条,來(lái)擴(kuò)充它的知識(shí)面,然后增加它的知識(shí)的廣度吩抓。同時(shí)涉茧,我們?cè)跇?gòu)建一個(gè)行業(yè)知識(shí)圖譜或者領(lǐng)域知識(shí)圖譜的時(shí)候,實(shí)際上也并不是說(shuō)只局限在這個(gè)領(lǐng)域的基本的數(shù)據(jù)疹娶,我們同時(shí)還要去通用知識(shí)圖譜里面去吸納更多的常識(shí)性的知識(shí)來(lái)作為補(bǔ)充伴栓,只有這樣才能構(gòu)成一個(gè)非常完整的行業(yè)知識(shí)圖譜。