NLP第19課:知識挖掘與知識圖譜概述

搜索技術日新月異啄踊,如今它不再是搜索框中輸入幾個單詞那么簡單了酗昼。不僅輸入方式多樣化,并且還要在非常短的時間內給出一個精準而又全面的答案古沥。目前,谷歌給出的解決方案就是——知識圖譜(Knowledge Graph)娇跟。

enter image description here

知識圖譜能做什么岩齿?

知識圖譜想做的,就是在不同數(shù)據(來自現(xiàn)實世界)之間建立聯(lián)系苞俘,從而帶給我們更有意義的搜索結果盹沈。

比如,在上圖中吃谣,用 Google 搜索自然語言處理乞封,右側會顯示研究領域和相關概念。點擊這些知識點岗憋,又可以深入了解肃晚;再比如,搜索一個人名時澜驮,右側會給出此人的生平陷揪、背景、居住位置杂穷、作品等信息悍缠。

這就是知識圖譜,它不再是單一的信息耐量,而是一個多元的信息網絡飞蚓。

知識圖譜的源頭

知識圖譜的雛形好幾年前就已出現(xiàn),一家名為 Metaweb 的小公司廊蜒,將現(xiàn)實世界中實體(人或事)的各種數(shù)據信息存儲在系統(tǒng)中趴拧,并在數(shù)據之間建立起聯(lián)系,從而發(fā)展出有別于傳統(tǒng)關鍵詞搜索的技術山叮。

enter image description here

谷歌認為這一系統(tǒng)很有發(fā)展?jié)摿χ瘢?010年收購了 Metaweb。那時 Metawab 已經存儲了1200萬個節(jié)點(Reference Point屁倔,相當于一個詞條或者一個頁面)脑又,谷歌收購后的兩年中,大大加速這一進程,現(xiàn)已有超過5.7億個節(jié)點并在它們之間建了180億個有效連接(這可是一個相當大的數(shù)字问麸,維基百科英文版也才有大約400萬個節(jié)點)往衷。

知識圖譜的通用表示方法

本質上,知識圖譜是一種揭示實體之間關系的語義網絡 严卖,可以對現(xiàn)實世界的事物及其相互關系進行形式化地描述 ∠幔現(xiàn)在的知識圖譜己被用來泛指各種大規(guī)模的知識庫 。

三元組是知識圖譜的一種通用表示方式哮笆,即 G=(E来颤,R,S)疟呐,其中 E=e1脚曾,e2,…启具,e|E| 是知識庫中的實體集合本讥,共包含 |E| 種不同實體,R=r1鲁冯,r2拷沸,…,r|E| 是知識庫中的關系集合,共包含 |R| 種不同關系薯演,S?E×R×E 代表知識庫中的三元組集合撞芍。

三元組的基本形式主要包括實體 A、關系跨扮、實體 B 和概念序无、屬性、屬性值等衡创,實體是知識圖譜中的最基本元素帝嗡,不同的實體間存在不同的關系。概念主要指集合璃氢、類別哟玷、對象類型、事物的種類一也,例如人物巢寡、地理等;屬性主要指對象可能具有的屬性椰苟、特征抑月、特性、特點以及參數(shù)舆蝴,例如國籍爪幻、生日等菱皆;屬性值主要指對象指定屬性的值,例如中國挨稿、1988—09—08等。每個實體(概念的外延)可用一個全局唯一確定的 ID 來標識京痢,每個屬性—屬性值對可用來刻畫實體的內在特性奶甘,而關系可用來連接兩個實體,刻畫它們之間的關聯(lián)祭椰。

如下圖是實體 A 與實體 B 組成的一個簡單三元組形式臭家。

enter image description here

知識圖譜的架構

知識圖譜的架構主要包括自身的邏輯結構以及體系架構,分別說明如下方淤。

1. 知識圖譜的邏輯結構钉赁。

知識圖譜在邏輯上可分為模式層與數(shù)據層兩個層次,數(shù)據層主要是由一系列的事實組成携茂,而知識將以事實為單位進行存儲你踩。如果用(實體 A,關系讳苦,實體 B)带膜、(實體、屬性鸳谜,屬性值)這樣的三元組來表達事實膝藕,可選擇圖數(shù)據庫作為存儲介質,例如開源的 Neo4j咐扭、Twitter 的 FlockDB芭挽、Sones 的 GraphDB 等。模式層構建在數(shù)據層之上蝗肪,主要是通過本體庫來規(guī)范數(shù)據層的一系列事實表達袜爪。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強穗慕,并且冗余程度較小饿敲。

2. 知識圖譜的體系架構。

知識圖譜的體系架構是指其構建模式結構逛绵,如圖下圖所示怀各。

enter image description here

知識圖譜主要有自頂向下與自底向上兩種構建方式。自頂向下指的是先為知識圖譜定義好本體與數(shù)據模式术浪,再將實體加入到知識庫瓢对。該構建方式需要利用一些現(xiàn)有的結構化知識庫作為其基礎知識庫,例如 Freebase 項目就是采用這種方式胰苏,它的絕大部分數(shù)據是從維基百科中得到的硕蛹。自底向上指的是從一些開放鏈接數(shù)據中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式法焰。目前秧荆,大多數(shù)知識圖譜都采用自底向上的方式進行構建,其中最典型就是 Google 的 Knowledge Vault埃仪。

知識圖譜的關鍵技術

大規(guī)模知識庫的構建與應用需要多種智能信息處理技術的支持乙濒。這就涉及到當下異常火爆的人工智能中的自然語言處理(NLP)技術卵蛉。

enter image description here

所謂自然語言颁股,就是我們平時所說的話(包括語音或文字),但這些話計算機如何能“理解”傻丝?過程很復雜甘有,下面是其中的幾個關鍵步驟。

1. 知識抽取葡缰。

知識抽取技術亏掀,可以從一些公開的半結構化、非結構化的數(shù)據中提取出實體运准、關系幌氮、屬性等知識要素。

知識抽取主要包含實體抽取胁澳、關系抽取该互、屬性抽取等,涉及到的 NLP 技術有命名實體識別韭畸、句法依存宇智、實體關系識別等。

2. 知識表示胰丁。

知識表示形成的綜合向量對知識庫的構建随橘、推理、融合以及應用均具有重要的意義锦庸。

基于三元組的知識表示形式受到了人們廣泛的認可机蔗,但是其在計算效率、數(shù)據稀疏性等方面卻面臨著諸多問題甘萧。近年來萝嘁,以深度學習為代表的表示學習技術取得了重要的進展,可以將實體的語義信息表示為稠密低維實值向量扬卷,進而在低維空間中高效計算實體牙言、關系及其之間的復雜語義關聯(lián)。

知識表示學習主要包含的 NLP 技術有語義相似度計算怪得、復雜關系模型咱枉,知識代表模型如距離模型卑硫、雙線性模型、神經張量模型蚕断、矩陣分解模型欢伏、翻譯模型等。

3.知識融合亿乳。

由于知識圖譜中的知識來源廣泛颜懊,存在知識質量良莠不齊、來自不同數(shù)據源的知識重復风皿、知識間的關聯(lián)不夠明確等問題,所以必須要進行知識的融合匠璧。知識融合是高層次的知識組織桐款,使來自不同知識源的知識在同一框架規(guī)范下進行異構數(shù)據整合、消歧夷恍、加工魔眨、推理驗證、更新等步驟酿雪,達到數(shù)據遏暴、信息、方法指黎、經驗以及人的思想的融合朋凉,形成高質量的知識庫。

在知識融合過程中醋安,實體對齊杂彭、知識加工是兩個重要的過程。

4.知識推理吓揪。

知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識亲怠,從而豐富、擴展知識庫柠辞。在推理的過程中团秽,往往需要關聯(lián)規(guī)則的支持。由于實體叭首、實體屬性以及關系的多樣性习勤,人們很難窮舉所有的推理規(guī)則,一些較為復雜的推理規(guī)則往往是手動總結的放棒。對于推理規(guī)則的挖掘姻报,主要還是依賴于實體以及關系間的豐富情況。知識推理的對象可以是實體间螟、實體的屬性吴旋、實體間的關系损肛、本體庫中概念的層次結構等。

知識推理方法主要可分為基于邏輯的推理與基于圖的推理兩種類別荣瑟。

大規(guī)模開放知識庫

互聯(lián)網的發(fā)展為知識工程提供了新的機遇治拿。從一定程度上看,是互聯(lián)網的出現(xiàn)幫助突破了傳統(tǒng)知識工程在知識獲取方面的瓶頸笆焰。從1998年 Tim Berners Lee 提出語義網至今劫谅,涌現(xiàn)出大量以互聯(lián)網資源為基礎的新一代知識庫。這類知識庫的構建方法可以分為三類:互聯(lián)網眾包嚷掠、專家協(xié)作和互聯(lián)網挖掘捏检,如下圖所示:

enter image description here

下面介紹幾個知名的中文知識圖譜資源:

  • OpenKG.CN:中文開放知識圖譜聯(lián)盟旨在通過建設開放的社區(qū)來促進中文知識圖譜數(shù)據的開放與互聯(lián),促進中文知識圖譜工具的標準化和技術普及不皆。

  • Zhishi.me :Zhishi.me 是中文常識知識圖譜贯城。主要通過從開放的百科數(shù)據中抽取結構化數(shù)據,已融合了百度百科霹娄,互動百科以及維基百科中的中文數(shù)據能犯。

  • CN-DBPeidia:CN-DBpedia 是由復旦大學知識工場實驗室研發(fā)并維護的大規(guī)模通用領域結構化百科。

  • cnSchema.org: cnSchema.org 是一個基于社區(qū)維護的開放的知識圖譜 Schema 標準犬耻。cnSchema 的詞匯集包括了上千種概念分類踩晶、數(shù)據類型、屬性和關系等常用概念定義枕磁,以支持知識圖譜數(shù)據的通用性渡蜻、復用性和流動性。

知識圖譜的典型應用

知識圖譜為互聯(lián)網上海量透典、異構晴楔、動態(tài)的大數(shù)據表達、組織峭咒、管理以及利用提供了一種更為有效的方式税弃,使得網絡的智能化水平更高,更加接近于人類的認知思維凑队。

enter image description here

基于大規(guī)模開放知識庫或知識圖譜的應用则果,目前尚處在持續(xù)不斷的發(fā)展與探索的階段。下面列出了一些國內外比較出色的應用漩氨。

1. 語義檢索西壮。

谷歌公司通過建立 Google Knowledge Graph,實現(xiàn)了對知識的體系化組織與展示叫惊,試圖從用戶搜索意圖感知款青、以及查詢擴展的角度,直接提供給用戶想要的知識霍狰。

2. 智能問答抡草。

IBM 公司通過搭建知識圖譜饰及,并通過自然語言處理和機器學習等技術,開發(fā)出了 Watson 系統(tǒng)康震。在2011年2月的美國問答節(jié)目《Jeopardy!》上燎含,Watson 戰(zhàn)勝了這一節(jié)目的兩位冠軍選手,可與1996年同樣來自 IBM 的“深藍”戰(zhàn)勝國際象棋大師卡斯帕羅夫產生的影響相提并論腿短,被認為是人工智能歷史上的一個里程碑屏箍。

3. 領域專家快速生成。

構建面向特定領域橘忱、特定主題的大規(guī)模知識庫是實現(xiàn)對某一領域深度分析和計算的重要基礎赴魁,OpenKN 通過實現(xiàn)端到端的開放知識庫構建工具集,實現(xiàn)了在給定部分種子(Seed)的情況下钝诚,從無到有的生成領域知識庫尚粘,進而形成領域專家。

4. 行業(yè)生態(tài)深度分析與預測敲长。

利用開放大數(shù)據可以幫助企業(yè)發(fā)現(xiàn)潛伏在數(shù)據中的威脅,將結構化網絡日志秉继、文本數(shù)據祈噪、開源和第三方數(shù)據整合進一個單一的環(huán)境,屏蔽可疑的信號與噪聲尚辑,有效保護用戶網絡辑鲤,可在信用卡欺詐行為識別、醫(yī)療行業(yè)疾病預測杠茬、電商商品推薦月褥、強化組織數(shù)據安全、不一致性驗證瓢喉、異常分析宁赤、金融量化交易、法律分析服務等多方面提供有價值的服務栓票。

知識圖譜的前景與挑戰(zhàn)

在關注到知識圖譜在自然語言處理决左、人工智能等領域展現(xiàn)巨大潛力的同時,也不難發(fā)現(xiàn)知識圖譜中的知識獲取走贪、知識表示佛猛、知識推理等技術依然面臨著一些困難與挑戰(zhàn),在未來的一段時間內坠狡,知識圖譜將是大數(shù)據智能的前沿研究問題继找,有很多重要的開放性問題亟待學術界和產業(yè)界協(xié)力解決。我們認為逃沿,未來知識圖譜研究有以下幾個重要挑戰(zhàn):

  • 知識類型與表示婴渡。知識圖譜主要采用(實體1幻锁、關系、實體2)三元組的形式來表示知識缩搅,這種方法可以較好地表示很多事實性知識越败。然而,人類知識類型多樣硼瓣,面對很多復雜知識究飞,三元組就束手無策了。例如堂鲤,人們的購物記錄信息亿傅、新聞事件等,包含大量實體及其之間的復雜關系瘟栖,更不用說人類大量的涉及主觀感受葵擎、主觀情感和模糊的知識了。

  • 知識獲取半哟。如何從互聯(lián)網大數(shù)據萃取知識酬滤,是構建知識圖譜的重要問題。目前已經提出各種知識獲取方案寓涨,并已成功抽取大量有用的知識盯串。但在抽取知識的準確率、覆蓋率和效率等方面戒良,都仍不如人意体捏,有極大的提升空間。

  • 知識融合糯崎。來自不同數(shù)據的抽取知識可能存在大量噪音和冗余几缭,或者使用了不同的語言。如何將這些知識有機融合起來沃呢,建立更大規(guī)模的知識圖譜年栓,是實現(xiàn)大數(shù)據智能的必由之路。

  • 知識應用薄霜。目前大規(guī)模知識圖譜的應用場景和方式還比較有限韵洋,如何有效實現(xiàn)知識圖譜的應用,利用知識圖譜實現(xiàn)深度知識推理黄锤,提高大規(guī)模知識圖譜計算效率搪缨,需要人們不斷銳意發(fā)掘用戶需求,探索更重要的應用場景鸵熟,提出新的應用算法副编。

總結

本文對知識圖譜的起源、定義流强、架構痹届、大規(guī)模知識庫呻待、應用以及未來挑戰(zhàn)等內容,進行了全面闡述队腐。

知識抽取蚕捉、知識表示、知識融合以及知識推理為構建知識圖譜的四大核心技術柴淘,本文就當前產業(yè)界的需求介紹了它在智能搜索迫淹、深度問答、社交網絡以及一些垂直行業(yè)中的實際應用为严。此外敛熬,還總結了目前知識圖譜面臨的主要挑戰(zhàn),并對其未來的研究方向進行了展望第股。

知識圖譜的重要性不僅在于它是一個擁有強大語義處理能力與開放互聯(lián)能力的知識庫应民,并且還是一把開啟智能機器大腦的鑰匙,能夠打開 Web3.0 時代的知識寶庫夕吻,為相關學科領域開啟新的發(fā)展方向腻豌。

參考資料以及推薦閱讀

  1. 柳絮飛.《知識圖譜:谷歌打造未來搜索》黔宛,電腦愛好者假夺,2013年交洗。
  2. 徐增林径簿,盛泳潘灿渴,賀麗榮下梢,王雅芳.《知識圖譜技術綜述》全肮,電子科技大學統(tǒng)計機器智能與學習實驗室悬钳,2016年7月盐捷。
  3. 知識圖譜——機器大腦中的知識庫
  4. 人工智能2.0時代的開放知識計算
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市默勾,隨后出現(xiàn)的幾起案子碉渡,更是在濱河造成了極大的恐慌,老刑警劉巖母剥,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件滞诺,死亡現(xiàn)場離奇詭異,居然都是意外死亡环疼,警方通過查閱死者的電腦和手機习霹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炫隶,“玉大人淋叶,你說我怎么就攤上這事∥苯祝” “怎么了煞檩?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵处嫌,是天一觀的道長。 經常有香客問我斟湃,道長熏迹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任凝赛,我火速辦了婚禮注暗,結果婚禮上,老公的妹妹穿的比我還像新娘哄酝。我一直安慰自己友存,他們只是感情好,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布陶衅。 她就那樣靜靜地躺著屡立,像睡著了一般。 火紅的嫁衣襯著肌膚如雪搀军。 梳的紋絲不亂的頭發(fā)上膨俐,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天,我揣著相機與錄音罩句,去河邊找鬼焚刺。 笑死,一個胖子當著我的面吹牛门烂,可吹牛的內容都是我干的乳愉。 我是一名探鬼主播,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼屯远,長吁一口氣:“原來是場噩夢啊……” “哼蔓姚!你這毒婦竟也來了?” 一聲冷哼從身側響起慨丐,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤坡脐,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后房揭,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體备闲,經...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年捅暴,在試婚紗的時候發(fā)現(xiàn)自己被綠了恬砂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡蓬痒,死狀恐怖觉既,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤瞪讼,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布钧椰,位于F島的核電站,受9級特大地震影響符欠,放射性物質發(fā)生泄漏嫡霞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一希柿、第九天 我趴在偏房一處隱蔽的房頂上張望诊沪。 院中可真熱鬧,春花似錦曾撤、人聲如沸端姚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽渐裸。三九已至,卻和暖如春装悲,著一層夾襖步出監(jiān)牢的瞬間昏鹃,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工诀诊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留洞渤,地道東北人。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓属瓣,卻偏偏與公主長得像载迄,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子抡蛙,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內容