知識圖譜技術(shù)
知識圖譜(Knowledge Graph古拴,KG)描述客觀世界的概念、實體璧帝、事件及其之間的關系。其中富寿,概念是指人們在認識世界過程中形成對客觀事物的概念化表示睬隶,如人、動物页徐、組織機構(gòu)等苏潜。實體是客觀世界中的具體事物,如籃球運動員姚明变勇、互聯(lián)網(wǎng)公司騰訊等恤左。事件是客觀事件的活動,如地震、買賣行為等飞袋。關系描述概念戳气、實體、事件之間客觀存在的關聯(lián) 關系授嘀,如畢業(yè)院校描述了一個人與他學習所在學校之間的關系物咳,運動員和籃球運動員之間的 關系是概念和子概念之間的關系等。谷歌于2012年5月推出谷歌知識圖譜蹄皱,并利用其在搜索引擎中增強搜索結(jié)果览闰,標志著大規(guī)模知識圖譜在互聯(lián)網(wǎng)語義搜索中的成功應用。
知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念巷折、實體間的復雜關系压鉴,將互聯(lián)網(wǎng)的信息表 達成更接近人類認知世界的形式,提供了一種更好地組織锻拘、管理和理解互聯(lián)網(wǎng)海量信息的能力油吭。知識圖譜給互聯(lián)網(wǎng)語義搜索帶來了活力,同時也在智能問答中顯示出強大威力署拟,已經(jīng)成為了互聯(lián)網(wǎng)智能服務的基礎設施婉宰。知識圖譜與大數(shù)據(jù)和深度學習一起,已經(jīng)成為推動人工智能發(fā)展的核心驅(qū)動力之一推穷。
知識圖譜技術(shù)是指在建立知識圖譜中使用的技術(shù)心包,是融合認知計算、知識表示與推理馒铃、 信息檢索與抽取蟹腾、自然語言處理與語義Web、數(shù)據(jù)挖掘與機器學習等的交叉研究区宇。知識圖譜研究一方面探索從互聯(lián)網(wǎng)語言資源中獲取知識的理論和方法娃殖,另一方面促進知識驅(qū)動的語言 理解研究。特別是议谷,隨著大數(shù)據(jù)時代的到來炉爆,研究從大數(shù)據(jù)中挖掘隱含的知識理論與方法, 將大數(shù)據(jù)轉(zhuǎn)化為知識卧晓,增強對互聯(lián)網(wǎng)資源的內(nèi)容理解叶洞,將促進當代信息處理技術(shù)從信息服務 向知識服務轉(zhuǎn)變。知識圖譜在下面應用中具有價值:
知識融合:當前互聯(lián)網(wǎng)大數(shù)據(jù)具有分布異構(gòu)的特點禀崖,通過知識圖譜可以對這些信息資源 進行語義標注和鏈接,建立以知識為中心的資源語義集成服務;
語義搜索:知識圖譜可以將用戶搜索輸入的關鍵詞螟炫,映射為知識圖譜中客觀世界的概念 和實體波附,搜索結(jié)果直接顯示的滿足用戶需求的結(jié)構(gòu)化信息內(nèi)容,而不是互聯(lián)網(wǎng)網(wǎng)頁;
問答系統(tǒng):基于知識的問答系統(tǒng)將知識圖譜看成一個大規(guī)模的知識庫,通過理解將用戶的問題轉(zhuǎn)化為對知識圖譜的查詢掸屡,直接得到用戶關心問題的答案;
大數(shù)據(jù)分析與決策:知識圖譜通過語義鏈接可以幫助理解大數(shù)據(jù)封寞,獲得對大數(shù)據(jù)的洞察,提供決策支持仅财。
知識圖譜技術(shù)包括知識表示狈究、知識圖譜構(gòu)建和知識圖譜應用三個方面。知識表示研究客觀世界的知識如何在計算機里表示和處理盏求,知識圖譜構(gòu)建解決如何建立計算機的算法從客觀世界或者互聯(lián)網(wǎng)的各種數(shù)據(jù)資源中獲取客觀世界知識抖锥,知識圖譜應用主要研究如何利用知識圖譜更好地解決實際應用問題∷榉#可以看出磅废,知識圖譜表示、構(gòu)建和應用是一項綜合性的復雜技術(shù)荆烈。知識圖譜技術(shù)既涉及自然語言處理中的各項技術(shù)拯勉,在資源內(nèi)容的表示上可以使用從淺層的文本向量表示、到句法和語義結(jié)構(gòu)表示憔购,從自然語言處理技術(shù)上會使用到分詞和詞性標注宫峦、命名實體識別、句法語義結(jié)構(gòu)分析玫鸟、指代分析等导绷。知識圖譜反過來可以 促進自然語言處理技術(shù)的研究,建立知識驅(qū)動的自然語言處理技術(shù)如基于知識圖譜的詞義排 岐和語義依存關系分析等鞋邑。
知識圖譜的關鍵技術(shù)涉及自然語言處理诵次、數(shù)據(jù)挖掘和信息檢索等多個領域,相關研究工作在近年來越來越多地受到國內(nèi)外學者的關注枚碗。研究方法主要可分為知識驅(qū)動和數(shù)據(jù)驅(qū)動兩 類:知識驅(qū)動的方法就是以領域?qū)<业闹R與經(jīng)驗為基礎逾一,構(gòu)建能夠媲美人類專家知識和問 題解決能力的領域知識體系,并通過積累擴充至開放領域;數(shù)據(jù)驅(qū)動的方法則是數(shù)理統(tǒng)計為 理論基礎肮雨,以大規(guī)模的數(shù)據(jù)為驅(qū)動遵堵,通過機器學習和數(shù)據(jù)挖掘技術(shù)自動獲取知識,構(gòu)建大規(guī)模的知識圖譜怨规。
知識表示
知識表示對客觀世界知識進行建模陌宿,表示客觀世界知識中所蘊涵的語義內(nèi)容以及關聯(lián),以便于機器識別和理解波丰。知識表示既要考慮知識的表示與存儲壳坪,又要考慮知識的使用和計算,知識表示理論是智能系統(tǒng)的基礎性關鍵科學問題掰烟。
知識表示研究利用認知科學和心理學的研究成果爽蝴,首先要了解人類本身是如何表示知識 并利用他們解決問題的沐批,然后將其形式化表示成計算機可以推理和計算的表達形式,建立基于知識的系統(tǒng)蝎亚,提供智能知識服務九孩。同時,知識表示也需要結(jié)合計算機對符號表示发框、處理和計算的能力躺彬。知識表示需要解決的關鍵問題是:
1)建立什么樣的知識表示形式能夠準確地反映客觀世界的知識;
2)建立什么樣的知識表示可以具備語義表示能力;
3)知識表示如何支持高效知識推理和計算,從而使知識表示具有得到新知識的推理能力梅惯。
現(xiàn)有的主要知識表示技術(shù)可以分成符號主義和聯(lián)結(jié)主義宪拥。符號主義知識表示的基礎是紐 威爾和西蒙提出的物理符號系統(tǒng)假設,認為人類認知和思維的基本單元是符號个唧,而認知過程 就是在符號表示上的運算江解。聯(lián)結(jié)主義認為人的認知就是相互聯(lián)系的具有一定活性值的神經(jīng)單元所形成網(wǎng)絡的整體活動,知識信息不存在于特定的地點徙歼,而是在神經(jīng)網(wǎng)絡的聯(lián)結(jié)或者權(quán)重中犁河。
知識表示應該反應人類對客觀世界的認知,并能夠從不同層次和粒度表達客觀世界所呈現(xiàn)的語義魄梯。本體這個概念在哲學中表示世界的本質(zhì)桨螺,在計算機領域則表示計算機對客觀世界 或者感興趣領域的概念化描述,通常表示對客觀世界中概念酿秸、實體灭翔、事件及其關系的描述。
當前主要知識表示方法可以分成傳統(tǒng)人工智能中基于符號邏輯的知識表示辣苏,如:產(chǎn)生式 系統(tǒng)肝箱、謂詞邏輯、框架表示稀蟋、語義網(wǎng)等;互聯(lián)網(wǎng)資源的開放知識表示方法煌张,如 XML、RDF 和 OWL 等;基于知識圖譜的表示學習通過深度學習可以將知識表示成低維連續(xù)實值稠密的實值 向量空間退客,有助于實現(xiàn)高效的知識計算骏融。
- 基于符號邏輯的知識表示
是基于符號邏輯的知識表示方法,主要包括邏輯表示法(如一階邏輯萌狂、描述邏輯)档玻,產(chǎn)生式表示法和框架表示等。邏輯表示與人類的自然語言比較接近茫藏, 因此它也是最早使用的一種知識表示方法误趴。基于符號邏輯的知識表示技術(shù)雖然可以很好地描 述邏輯推理务傲,但是由于在推理中機器生成規(guī)則的能力很弱冤留,推理規(guī)則的獲取需要大量的人力碧囊, 并且對數(shù)據(jù)的質(zhì)量要求較高。在目前大規(guī)模數(shù)據(jù)時代纤怒,基于符號邏輯的知識表示已經(jīng)不能很 好地解決知識表示的問題。 - 萬維網(wǎng)內(nèi)容的知識表示
Tim Berners-Lee 在其著作《Waving the Web》中提出了語義網(wǎng)(Semantic Web)的概念天通。在語義網(wǎng)中泊窘,網(wǎng)絡內(nèi)容都應該有確定的意義,而且可以很容 易地被計算機理解像寒、獲取和集成烘豹。萬維網(wǎng)內(nèi)容知識表示包括半結(jié)構(gòu)基于標記的置標語言 XML2、基于 RDF3萬維網(wǎng)資源語義元數(shù)據(jù)描述框架和基于描述邏輯的 OWL4本體描述語言等;以及當前 在工業(yè)界得到大規(guī)模應用的基于三元組的知識圖譜知識表示方法诺祸。XML 將網(wǎng)頁樣式與內(nèi)容分 離携悯,通過為內(nèi)容置標,便于數(shù)據(jù)交換;RDF 通過三元組(主體筷笨,謂詞憔鬼,客體)描述互聯(lián)網(wǎng)資 源之間的語義關系;互聯(lián)網(wǎng)語義資源的 OWL 構(gòu)建在 RDF 之上,是具有更強表達及其解釋能 力的語言胃夏。這些技術(shù)使我們可以將機器理解和處理的語義信息發(fā)布在萬維網(wǎng)上轴或。 - 表示學習
表示學習的目標是通過機器學習或深度學習將研究對象的語義信息表示為稠 密低維的向量。對不同粒度知識單元進行隱式的向量化表示仰禀,以支持大數(shù)據(jù)環(huán)境下知識的快 速計算照雁。表示學習主要包括張量重構(gòu)和勢能函數(shù)的方法:張量重構(gòu)綜合整個知識庫的信息, 但在大數(shù)據(jù)環(huán)境下張量維度很高答恶,重構(gòu)的計算量較大;勢能函數(shù)方法認為關系是頭實體向尾 實體的一種翻譯操作饺蚊,Bordes 等人提出的TransE模型是翻譯模型的代表。之后有大量的工作對 TransE 進行擴展和應用悬嗓,如通過優(yōu)化向量化表示模型污呼、結(jié)合文本等外部信息、應用邏 輯推理規(guī)則等方法烫扼,這些方法進一步提升了表示學習效果曙求。相比傳統(tǒng)的知識表示方法,知識表示學習方法可以顯著提升計算效率映企,有效緩解數(shù)據(jù)稀 疏性悟狱,更容易實現(xiàn)不同來源的異質(zhì)信息融合。因此堰氓,表示學習對于知識庫的構(gòu)建挤渐、推理和應 用具有重要意義。
知識圖譜構(gòu)建
知識圖譜構(gòu)建是根據(jù)特定知識表示模型双絮,從分布異構(gòu)的海量互聯(lián)網(wǎng)資源中采用機器學習和信息抽取等技術(shù)浴麻,建立大規(guī)模知識圖譜的過程得问。知識圖譜構(gòu)建是知識圖譜技術(shù)最為關鍵的 技術(shù)之一,信息抽取和語義集成是知識圖譜構(gòu)建的核心技術(shù)問題软免。
知識圖譜構(gòu)建方法主要由三方面因素確定宫纬,其一是從什么樣的數(shù)據(jù)資源中學習知識,主 要包括結(jié)構(gòu)化(如數(shù)據(jù)庫數(shù)據(jù))膏萧、半結(jié)構(gòu)化(如互聯(lián)網(wǎng)上的表格數(shù)據(jù)等)和非結(jié)構(gòu)化資源(如文本數(shù)據(jù)等)對象漓骚。維基類百科資源是利用群體智能建立的大規(guī)模供人閱讀理解的知識資源, 其中蘊含了大量的高質(zhì)量的結(jié)構(gòu)化知識榛泛,也是知識圖譜構(gòu)建時使用的重要資源蝌蹂。其二學習什 么類型的知識,主要包括概念層次結(jié)構(gòu)曹锨、事實知識孤个、事件知識等。其三是使用什么樣的學習 方法獲得知識沛简,主要方法有有監(jiān)督學習齐鲤、半有監(jiān)督學習和無監(jiān)督學習方法。
此外覆享,互聯(lián)網(wǎng)上已經(jīng)存在大量的結(jié)構(gòu)化知識資源(如 Freebase佳遂,YAGO 等),這些知識資 源之間互為關聯(lián)撒顿,相互補充丑罪,很多知識計算任務需要聯(lián)合多個知識資源給出結(jié)果。因此,異 構(gòu)知識資源的語義鏈接和集成也是知識圖譜的一項核心技術(shù)凤壁,需要首先研究異構(gòu)數(shù)據(jù)資源的 關聯(lián)方法,將其轉(zhuǎn)化成為具有豐富鏈接關系的知識網(wǎng)絡,進一步研究跨知識庫的語義計算方 法吩屹。因此,多源異構(gòu)知識庫的鏈接是一個亟需解決的問題。目前語義集成主要從語義網(wǎng)和自 然語言處理兩個方面分別進行拧抖。語義網(wǎng)領域的相關研究是數(shù)據(jù)鏈接,自然語言處理領域?qū)?于實體鏈接煤搜。
知識圖譜中知識的來源有兩類,一類是互聯(lián)網(wǎng)上分布唧席、異構(gòu)的海量資源擦盾,一類是已有的異構(gòu)結(jié)構(gòu)化語義資源。從第一類資源中構(gòu)建知識圖譜的方法根據(jù)獲取知識的類型分為概念層次學習淌哟、事實學習迹卢、事件學習等,而第二類資源進行的知識圖譜構(gòu)建工作是語義集成徒仓。
- 概念層次學習
概念是人們理解客觀世界的線索腐碱,不同粒度的概念能夠給予知識不同層 次的精確程度,概念層次是知識圖譜的“骨骼”掉弛。概念層次學習就是通過合理的技術(shù)抽取知 識表示中的概念并確定其上下位關系症见。概念層次學習多采用基于啟發(fā)式規(guī)則的方法喂走,其基本 思路是根據(jù)上下位概念的陳述模式從大規(guī)模資源中找出可能具有上下位關系的概念對,并對上下位關系進行歸納谋作。另一類是基于統(tǒng)計的概念層次學習方法芋肠,假設相同概念出現(xiàn)的上下文 也相似,利用詞語或?qū)嶓w分布的相似性遵蚜,通過定義計算特征學習概率模型來得到概念結(jié)構(gòu)业栅。 - 事實學習
知識圖譜中事實以三元組的形式表示,一個知識圖譜中事實的數(shù)量決定了知 識圖譜的豐富程度谬晕。據(jù)不完全統(tǒng)計,Google 知識圖譜到目前為止包含了5億個實體和35億條事實携取。按照知識圖譜構(gòu)建時采用的機器學習方法攒钳,事實學習方法可以分為有監(jiān)督、半有監(jiān)督及無監(jiān)督方法雷滋。
有監(jiān)督的事實知識獲取方法使用已標注文檔作為訓練集不撑,可以分為基于規(guī)則學習、基于 分類標注和基于序列標注方法等晤斩』烂剩基于規(guī)則學習的語義標注方法從帶語義標注的語料中自動 學習標注規(guī)則,利用規(guī)則對數(shù)據(jù)資源進行語義標志澳泵,適合對具有比較規(guī)范出現(xiàn)的資源的知識 獲取;基于分類的知識獲取方法將知識獲取方法轉(zhuǎn)化為分類算法实愚,根據(jù)確定的標注特征從標 注預料中學習標注模型;基于序列模式標注的方法同時考慮多個語義標志之間的關系,可以 提高標注的準確率兔辅。還包括其他如考慮層次關系的語義標注的方法等腊敲。
半有監(jiān)督的知識獲取方法主要包括自擴展方法(bootstrapping)、弱有監(jiān)督方法 (distant supervision)和開放信息抽取方法(open information extraction)维苔。自擴展方法 需要初始的種子實體對碰辅,根據(jù)這些種子實體對,發(fā)現(xiàn)新的語義模板介时,再對語料進行迭代抽取 以發(fā)現(xiàn)新的實體對没宾,這種方法的主要問題是語義漂移,代表工作有 Mutual exclusive Bootstrapping, Coupled trainin 和 Co-Bootstrapping沸柔。弱監(jiān)督方法使用知識庫中的關系 啟發(fā)式地標注文本循衰,它的問題主要在于訓練實例中本身帶有大量噪音。開放信息抽取法主要 使用自然語言處理方法勉失,無需預先給定要抽取的關系類別羹蚣,自動將自然語言句子轉(zhuǎn)換為命題。 這種方法的主要缺點是在處理復雜句子時效果會受到影響乱凿。
無監(jiān)督知識獲取的代表性系統(tǒng)有 KnowItAll, 這套系統(tǒng)具有領域無關特性顽素,可以使用自擴展的方式從大規(guī)难氏遥互聯(lián)網(wǎng)信息中抽取語義信息,同時可以自動地評估所抽取信息的可信程 度胁出。 - 語義集成
互聯(lián)網(wǎng)上已有許多大規(guī)模知識庫型型,其中比較著名的有 DBPedia、YAGO 等全蝶。然 而知識庫之間的異構(gòu)性闹蒜,對知識在整個語義網(wǎng)上的共享造成了阻礙。語義集成就是通過發(fā)現(xiàn) 異構(gòu)知識庫中實體間的等價關系抑淫,從而實現(xiàn)知識共享的技術(shù)绷落。由于知識庫多以本體的形式描 述,因此語義集成中的主要環(huán)節(jié)是本體映射始苇。本體匹配的方法主要包括:- 基于文本信息的方法:這種方法主要利用本體中實體的文本信息砌烁,例如實體的標簽 和摘要信息。通過計算兩個實體字符串之間的相似度(常用的有編輯距離相似度催式, Jaccard 相似度)函喉,來確定實體之間是否具有匹配關系。
- 基于結(jié)構(gòu)的方法:這種方法主要利用本體的圖結(jié)構(gòu)信息來對本體進行匹配荣月。其中較 為代表性的方法有 SimRank 和相似度傳播, 這些方法利用本體的圖結(jié)構(gòu)管呵,對實體間 的相似度進行傳播,從而提高對齊的效果哺窄。
- 基于背景知識的方法:這種方法一般使用DBPedia或WordNet等已有的大規(guī)模領域 無關知識庫作為背景知識來提高匹配效果捐下。例如,Aleksovski 等人利用 DICE 本體(醫(yī)學領域的本體)來匹配結(jié)構(gòu)信息缺失的兩個與醫(yī)學相關的本體堂氯。
- 基于機器學習的方法:這種方法將本體匹配問題視為一個機器學習中的分類或優(yōu)化問題蔑担,采取機器學習方法獲得匹配結(jié)果。例如將本體匹配視為一個貝葉斯決策問題咽白。 Niepert等人將本體匹配問題使用馬爾可夫邏輯網(wǎng)絡(Markov Logic Network)建模啤握, 將本體中的各種信息轉(zhuǎn)化為各種約束條件,并求出最優(yōu)解.
知識圖譜應用技術(shù)
知識圖譜應用的任務是利用知識圖譜晶框,建立基于知識的系統(tǒng)并提供智能的知識服務排抬,是 知識圖譜建立的終極目標。主要包括:基于知識的互聯(lián)網(wǎng)資源的信息融合授段、語義搜索蹲蒲、基于知識的問答系統(tǒng)和基于知識的大數(shù)據(jù)分析和挖掘。
知識圖譜不僅提供計算機更好的理解互聯(lián)網(wǎng)資源的知識內(nèi)容侵贵,同時也提供給計算機更好 地組織和管理海量數(shù)據(jù)資源的結(jié)構(gòu):
- 基于知識圖譜的大數(shù)據(jù)融合技術(shù)
研究語義標注或者實體鏈接技術(shù)届搁,實現(xiàn)不同資源類型、不同媒體類型的互聯(lián)網(wǎng)資源的融合、管理與服務卡睦。國際很多研究團隊投入到知識圖譜應用平臺的研究中宴胧,W3C倡導的Linked Open Data 將由互聯(lián)文檔組成的萬維網(wǎng)擴展成為由互聯(lián)數(shù)據(jù)組成的全球數(shù)據(jù) 及知識共享平臺,歐盟第七合作框架下的 LarKC表锻、LOD2恕齐、Xlike 項目分別支持建立大規(guī)模知 識獲取和推理、互聯(lián)數(shù)據(jù)生成與鏈接瞬逊,以及跨語言知識抽取的平臺显歧,在包括政府開放數(shù)據(jù)、 智慧醫(yī)療确镊、智慧城市在內(nèi)的很多應用領域獲得了成功應用士骤。相比之下國內(nèi)在知識工程領域起 步較晚,目前大多數(shù)的知識處理平臺還多是數(shù)據(jù)挖掘或者語義分析的功能蕾域,并沒有實現(xiàn)支撐 建立知識圖譜開發(fā)平臺敦间。 - 基于知識圖譜的語義搜索
實現(xiàn)當前從基于關鍵詞搜索到基于語義的實體和關系搜索,可以直接得到用戶感興趣的客觀世界的實體和實體關系信息束铭,而不只是包含關 鍵詞的網(wǎng)頁文檔。其中對于實體類型匹配和實體鏈接厢绝、以及基于實體和關系的排序是核心技術(shù)契沫。語義搜索利用具有良好語義定義的形式,以有向圖的方式提供滿足用戶需求的結(jié)構(gòu)化 語義內(nèi)容昔汉。主要包括RDF和OWL的語義搜索引擎和基于鏈接數(shù)據(jù)的搜索等懈万。語義搜索利用建 立大規(guī)模知識庫對用戶搜索關鍵詞和文檔內(nèi)容進行語義標注,改善搜索結(jié)果靶病,典型的應用包 括谷歌的 Knowledge Graph 和國內(nèi)的百度知心会通、搜狗的知立方等。 - 基于知識圖譜的問答系統(tǒng)
通過將用戶的提問轉(zhuǎn)換成對結(jié)構(gòu)化知識圖譜的查詢可以 直接得到用戶的答案娄周,其中問題理解和基于推理的知識匹配是核心技術(shù)涕侈。
知識圖譜為更好的理解大數(shù)據(jù)提供了基礎設施,通過基于知識圖譜的融合技術(shù)可以更好的組織和管理大數(shù)據(jù)的同時煤辨,也為大數(shù)據(jù)分析和挖掘提供的豐富的語義信息裳涛,更好地理解大數(shù)據(jù)的語義,幫助人們制定決策众辨《巳基于知識庫的問答通過對問句的語義分析,將非結(jié)構(gòu)化問句解析成結(jié)構(gòu)化的查詢語句鹃彻,在已有結(jié)構(gòu)化的知識庫上查詢答案郊闯。這類方法依賴于語義解析 器的性能,受制于詞、短語团赁、從句等不同顆粒度下文本內(nèi)容歧義育拨、結(jié)構(gòu)歧義的影響,在面對 大規(guī)模然痊、開放域知識庫時至朗,往往性能很低。近兩年很多研究者開始研究基于深度學習的知識 庫問答方法剧浸,這類方法更具魯棒性锹引。但是目前這類方法還只能處理簡單、單關系的問題唆香,對 于復雜問句的處理效果還是很差嫌变,特別是缺乏對于問句的情景感知能力,缺乏對于問句語義 細致躬它、個性化的分析腾啥。
知識圖譜資源
互聯(lián)網(wǎng)知識圖譜資源有:Dbpedia,F(xiàn)reebase冯吓,Yago倘待,百度百科,中國行政區(qū)劃组贺,中國專利知識圖譜凸舵,中國期刊論文知識圖譜,Wordnet失尖,Hownet啊奄,同義詞詞林。
sennchi