知識圖譜基礎(chǔ)(一)-什么是知識圖譜

筆者是一只已經(jīng)離職的AI產(chǎn)品經(jīng)理,主要擅長的方向是知識圖譜與自然語言處理吁伺,寫這些文章是為了總結(jié)歸納目前已經(jīng)搭建的知識體系,也在于科普篮奄。如有不對,請指正窟却。

知識圖譜的定義

知識圖譜在國內(nèi)屬于一個比較新興的概念,國內(nèi)目前paper都比較少夸赫,應(yīng)用方主要集中在BAT這類手握海量數(shù)據(jù)的企業(yè)菩帝,這個概念是google在2012年提出的,當(dāng)時主要是為了將傳統(tǒng)的keyword-base搜索模型向基于語義的搜索升級宜雀。知識圖譜可以用來更好的查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖握础,改進搜索質(zhì)量辐董。

個人認(rèn)為,知識圖譜最大的優(yōu)勢是在于對數(shù)據(jù)的描述能力非常強大禀综,各種機器學(xué)習(xí)算法雖然在預(yù)測能力上很不錯简烘,但是在描述能力上非常弱,知識圖譜剛好填補了這部分空缺定枷。

知識圖譜的定義非常多孤澎,我這里提供一部分我自己的理解:

1.知識圖譜主要目標(biāo)是用來描述真實世界中存在的各種實體和概念,以及他們之間的強關(guān)系依鸥,我們用關(guān)系去描述兩個實體之間的關(guān)聯(lián)亥至,例如姚明和火箭隊之間的關(guān)系,他們的屬性贱迟,我們就用“屬性--值對“來刻畫它的內(nèi)在特性姐扮,比如說我們的人物,他有年齡衣吠、身高茶敏、體重屬性。

2.知識圖譜可以通過人為構(gòu)建與定義缚俏,去描述各種概念之間的弱關(guān)系惊搏,例如:“忘了訂單號”和“找回訂單號”之間的關(guān)系

知識庫的概念

知識庫的種類

知識庫目前可以分為兩種類型:Curated KBs 和 Extracted KBs

Curated KBs:以yago2和freebase為代表,他們從維基百科和WordNet等知識庫抽取了大量的實體及實體關(guān)系忧换,可以把它理解城一種結(jié)構(gòu)化的維基百科恬惯。

Extracted KBs:主要是以O(shè)pen Information Extraction (Open IE),? Never-Ending Language Learning (NELL)為代表,他們直接從上億個網(wǎng)頁中抽取實體關(guān)系三元組亚茬。與freebase相比酪耳,這樣得到的實體知識更具有多樣性,而它們的實體關(guān)系和實體更多的則是自然語言的形式刹缝,如“姚明出生于上海碗暗。” 可以被表示為(“Yao Ming”, “was also born in”, “Shanghai”)梢夯。直接從網(wǎng)頁中抽取出來的知識言疗,也會存在一定的噪聲,其精確度低于Curated KBs颂砸。

目前行業(yè)內(nèi)使用的比較多的還是Curated KBs,主要是因為Curated KBs比較簡單噪奄,容易構(gòu)建死姚,噪音少。

什么是知識庫

a)“姚明出生于上呵诶海”

b)“姚明是籃球運動員”

c)“姚明是現(xiàn)任中國籃協(xié)主席”

以上就是一條條知識知允,把大量的知識匯聚起來就成為了知識庫(Knowledge Base)。我們可以從wikipedia叙谨,百度百科等百科全書獲取到大量的知識。但是保屯,這些百科全書的知識是由非結(jié)構(gòu)化的自然語言組建而成的,這樣的組織方式很適合人們閱讀但并不適合計算機處理竟终。

圖1:知識圖實例

知識庫的表示形式

為了方便計算機的處理和理解切蟋,我們需要更加形式化、簡潔化的方式去表示知識喘鸟,那就是三元組(triple)驻右。

“姚明出生于中國上海” 可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)[1]愕把。這里我們可以簡單的把三元組理解為(實體entity,實體關(guān)系relation,實體entity)恨豁。如果我們把實體看作是結(jié)點弄砍,把實體關(guān)系(包括屬性咙咽,類別等等)看作是一條邊吠架,那么包含了大量三元組的知識庫就成為了一個龐大的知識圖凡涩。

有些時候會將實體稱為topic,如Justin Bieber力麸。實體關(guān)系也可分為兩種,一種是屬性property闺鲸,一種是關(guān)系relation埃叭。如下圖所示,屬性和關(guān)系的最大區(qū)別在于立镶,屬性所在的三元組對應(yīng)的兩個實體类早,常常是一個topic和一個字符串涩僻,如屬性Type/Gender,對應(yīng)的三元組(Justin Bieber, Type, Person)嵌巷,而關(guān)系所在的三元組所對應(yīng)的兩個實體室抽,常常是兩個topic。如關(guān)系PlaceOfBrith噩死,對應(yīng)的三元組(Justin Bieber, PlaceOfBrith, London)神年。

圖2:Justin Bieber知識圖

(圖中藍(lán)色方塊表示topic已日,橙色橢圓包括屬性值,它們都屬于知識庫的實體堂鲜;藍(lán)色直線表示關(guān)系护奈,橙色直線表示屬性,它們都統(tǒng)稱為知識庫的實體關(guān)系痴奏,都可以用三元組刻畫實體和實體關(guān)系)

知識庫的數(shù)據(jù)結(jié)構(gòu)

這里只是簡單介紹一下數(shù)據(jù)結(jié)構(gòu),知識表達(dá)這一塊會在《知識圖譜基礎(chǔ)(二)-知識圖譜的知識表達(dá)系統(tǒng)》中詳細(xì)講解擅憔。

讀者只要記住檐晕,freebase的基礎(chǔ)知識表達(dá)形式:(實體)-[關(guān)系]-(實體),(實體)-[關(guān)系]-(值)即可屠列,參考圖3伞矩,姚明和葉莉的關(guān)系乃坤。

圖3 知識表達(dá)

知識圖譜的應(yīng)用

通過知識圖譜湿诊,不僅可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式瘦材,而且提供了一種更好的組織、管理和利用海量信息的方式朗和。下圖是筆者整理的知識圖譜有關(guān)的應(yīng)用簿晓,接下來的一些文章筆者會對下面的應(yīng)用進行剖析。

圖4 知識圖譜的應(yīng)用

從圖4上看忆植,知識圖譜的應(yīng)用主要集中在搜索與推薦領(lǐng)域谒臼,robot(客服機器人,私人助理)是問答系統(tǒng)拾氓,本質(zhì)上也是搜索與推薦的延伸痪枫。可能是因為知識圖譜這項技術(shù)(特指freebase)誕生之初就是為了解決搜索問題的奶陈。知識存儲這一塊可能是企查查和啟信寶這些企業(yè)發(fā)現(xiàn)使用圖結(jié)構(gòu)的數(shù)據(jù)比較好清洗加工。

在語義搜索這一塊潦俺,知識圖譜的搜索不同于常規(guī)的搜索徐勃,常規(guī)的搜索是根據(jù)keyword找到對應(yīng)的網(wǎng)頁集合,然后通過page rank等算法去給網(wǎng)頁集合內(nèi)的網(wǎng)頁進行排名肖爵,然后展示給用戶臀脏;基于知識圖譜的搜索是在已有的圖譜知識庫中遍歷知識,然后將查詢到的知識返回給用戶秒啦,通常如果路徑正確搀玖,查詢出來的知識只有1個或幾個,相當(dāng)精準(zhǔn)芳来。

問答系統(tǒng)這一塊猜拾,系統(tǒng)同樣會首先在知識圖譜的幫助下對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句侥涵,然后在知識圖譜中查詢答案宋雏。

作者:畫一個逗逗陪著我

鏈接:http://www.reibang.com/p/cd937f20bf55

來源:簡書

簡書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處嗦明。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末娶牌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子诗良,更是在濱河造成了極大的恐慌,老刑警劉巖舞骆,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件督禽,死亡現(xiàn)場離奇詭異总处,居然都是意外死亡,警方通過查閱死者的電腦和手機胧谈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來难菌,“玉大人,你說我怎么就攤上這事遇绞×蔷剑” “怎么了?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵付鹿,是天一觀的道長舵匾。 經(jīng)常有香客問我谁不,道長,這世上最難降的妖魔是什么吵血? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮蹋辅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘喷舀。我一直安慰自己淋肾,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布拿愧。 她就那樣靜靜地躺著浇辜,像睡著了一般唾戚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上熊镣,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天绪囱,我揣著相機與錄音,去河邊找鬼鬼吵。 笑死篮赢,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的媒咳。 我是一名探鬼主播种远,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼射富!你這毒婦竟也來了粥帚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤柴灯,失蹤者是張志新(化名)和其女友劉穎费尽,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體查描,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡冬三,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年勾笆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片窝爪。...
    茶點故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡酸舍,死狀恐怖里初,靈堂內(nèi)的尸體忽然破棺而出忽舟,到底是詐尸還是另有隱情,我是刑警寧澤刁品,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布浩姥,位于F島的核電站,受9級特大地震影響兜挨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拌汇,卻給世界環(huán)境...
    茶點故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望魁淳。 院中可真熱鬧与倡,春花似錦、人聲如沸仇奶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽狈茉。三九已至掸掸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間扰付,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工实昨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留盐固,地道東北人。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓志电,卻偏偏與公主長得像蛔趴,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鱼蝉,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容