知識圖譜概論-王昊奮

知識圖譜與語義技術(shù)概論

知識圖譜(KG)的概念

知識圖譜(KG)得益于Web的發(fā)展(更多的是數(shù)據(jù)層面)蹬癌,有著來源于KR捻勉、NLP镀梭、Web、AI多個方面的基因踱启。知識圖譜(KG)的概念演化如圖:


1.png

知識圖譜是2012年后的提法报账,基礎(chǔ)還是語義網(wǎng)和本體論

知識圖譜的本質(zhì)包含:

  • 知識表示——Knowledge Representation
  • 基于知識表示的知識庫——Knowledge Base
  • 知識庫的來源:知識構(gòu)建禽捆、知識抽取笙什、知識融合;
  • 知識庫怎么用:語義搜索胚想、知識問答
  • Web的視角:像建立文本之間的超鏈接一樣琐凭,建立數(shù)據(jù)之間的語義鏈接,并支持語義搜索浊服;
  • NLP視角:怎么從文本中抽取語義和結(jié)構(gòu)化數(shù)據(jù)
  • KR視角:怎樣利用計算機符號表示和處理數(shù)據(jù)
  • AI視角:怎樣利用知識庫來輔助理解人類的語言
  • DB視角:用圖的方式去存儲知識统屈;

知識圖譜由文本(Texts、Documents)的鏈接到對象(Objects)的鏈接牙躺。
知識圖譜(KG)的作用:

  • 輔助搜索
    2.png
  • 輔助問答
    3.png
  • 輔助決策
    4.png
  • 輔助AI:常識推理
    5.png

知識圖譜的深度學(xué)習(xí)的區(qū)別:
人的大腦依賴所學(xué)的知識進行思考愁憔、邏輯推理、理解語言孽拷。
可以將深度學(xué)習(xí)和知識圖譜比作是“聰明的AI”和“有學(xué)識的AI”吨掌。

  • 深度學(xué)習(xí):主要是【學(xué)習(xí)】能力,通過強大的計算能力脓恕,感知膜宋、識別、判斷來進行學(xué)習(xí)炼幔。
  • 知識圖譜:主要是【推理】能力秋茫,通過已有的規(guī)則和知識,思考乃秀、語言肛著、推理來進行學(xué)習(xí)。


    6.png

典型的知識庫介紹

  • CYC知識庫:常識知識庫跺讯,最初目標是建立人類最大的常識知識庫枢贿。
  • Wordnet:詞典知識庫,主要用于詞義消歧刀脏。
  • ConceptNet:常識數(shù)據(jù)庫萨咕,最早源于MIT媒體實驗室,主要依靠互聯(lián)網(wǎng)眾包火本、專家創(chuàng)建和游戲三種方法來構(gòu)建危队。知識庫以三元組形式的關(guān)系型知識構(gòu)成。側(cè)重詞與詞之間的關(guān)系钙畔。ConceptNet完全免費開放茫陆,并支持多種語言。
  • Freebase:完全免費并允許商業(yè)化的開放許可協(xié)議擎析。通過開源免費吸引吸引用戶貢獻數(shù)據(jù)簿盅,增值的應(yīng)用及技術(shù)服務(wù)收費。
  • Wikidata:目標是構(gòu)建全世界最大的免費知識庫揍魂,但是仍然面臨知識缺失嚴重的問題桨醋。
  • DBPedia:早期的語義網(wǎng)項目,意指數(shù)據(jù)庫版本的Wikipedia现斋,是從Wikipedia抽取出來的鏈接數(shù)據(jù)集喜最。
  • YAGO:集成了Wikipedia、WordNet庄蹋、GeoNames三個來源的數(shù)據(jù)瞬内。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述限书。
  • Babelnet:類似于WordNet的多語言詞典知識庫虫蝶,目標是解決WordNet在非英語語種中數(shù)據(jù)缺乏的問題。
  • NELL:是卡內(nèi)基梅隆大學(xué)開發(fā)的知識庫倦西,主要采用互聯(lián)網(wǎng)挖掘的方法從WEB自動抽取三元組知識能真。
  • 微軟的Concept Graph:以概念層次體系為中心的知識圖譜。與Freebase等知識圖譜不同扰柠,Concept Graph是以概念定義和概念之間的IsA關(guān)系為主粉铐。
  • OpenKG:中文知識圖譜資源庫。
  • cnSchema:開放的中文知識圖譜Schema

CYC 常識知識庫

7.png

Wordnet:詞典知識庫

8.png

ConceptNet:常識數(shù)據(jù)庫

9.png

Freebase

10.png

Wikidata:目標是構(gòu)建全世界最大的免費知識庫

11.png

DBPedia:早期的語義網(wǎng)項目

12.png

YAGO:集成了Wikipedia耻矮、WordNet秦躯、GeoNames三個來源的數(shù)據(jù)

13.png

Babelnet:類似于WordNet的多語言詞典知識庫

14.png

NELL:是卡內(nèi)基梅隆大學(xué)開發(fā)的知識庫

15.png

微軟的Concept Graph:以概念層次體系為中心的知識圖譜

16.png

OpenKG:中文知識圖譜資源庫

17.png

cnSchema:開放的中文知識圖譜Schema

18.png

知識圖譜相關(guān)技術(shù)簡介

19.png

知識表示

知識表示研究怎樣用計算機符號來表示人腦中的知識,以及怎樣通過符號之間的運算來模擬人腦的推理過程裆装。

基于數(shù)理邏輯的知識表示

  • RDF: 三元組的斷言模型
    20.png
  • RDF Graph: 基于數(shù)據(jù)模型的有向圖
    21.png
  • RDFS: 定義簡單的vocabulary和schema
    22.png
  • RDF的序列化格式踱承,OWL、OWL extends RDF Schema哨免、SPARQL茎活、
    23.png
  • Ontology :Web Ontology Language
    Ontology in Philosophy
    Ontology is the philosophical study of the nature of being, becoming, existence or reality, as well as the basic categories of being and their relations.----Merriam-Webster
    Ontology in Computer Science and Artificial Intelligence
    An ontology is a description (like a formal specification of a program) of the concepts and relationships that can formally exist for an agent or a community of agents.______ Tom Gruber, Founderof Sin
    Web Ontologies
    Ontologies based on web standards such as RDFS/OWL. OWL is based on Description Logic, a very very long history of research in Artificial Intelligence.
    24.png
25.png
  • SPARQL: 基于RDF數(shù)據(jù)模型的查詢語言


    26.png

    27.png
  • JSON-LD(數(shù)據(jù)交換格式)


    28.png
  • RDFa HTML5 MicroData(在網(wǎng)頁中嵌入語義數(shù)據(jù))


    29.png

知識圖譜分布式 表示

在保留語義的同時,將知識圖譜中的實體和關(guān)系映射到連續(xù)的稠密低維的向量空間


30.png

知識抽取

知識抽取流程NLP+KR

31.png

知識抽取的主要方法

知識工程

  • 正則表達式
  • 模版匹配
    BootStrap:從種子數(shù)據(jù)中識別partterns琢唾,用于抽取更多的數(shù)據(jù)载荔,提取更多的partterns
  • 規(guī)則約束
    POS,NER約束采桃,距離約束

基于本體的抽取

  • 知識挖掘推理
    PRA基于圖的抽取
    TransE系列 基于Embedding的抽取

基于模型的抽取

模型:SVM懒熙,logistic model丘损,條件隨機場,LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)

知識存儲

  • 知識比數(shù)據(jù)的結(jié)構(gòu)更加復(fù)雜工扎,知識的存儲需要綜合考慮圖的特點徘钥、復(fù)雜的知識結(jié)構(gòu)存儲、索引和查詢(支持推理)的優(yōu)化等問題
  • 典型的知識存儲引擎分為基于關(guān)系數(shù)據(jù)庫的存儲和基于原生圖的存儲
  • 在實踐中肢娘,多為混合存儲結(jié)構(gòu)呈础,圖存儲并非必須

知識問答(KBQA)

KBQA(Knowledge-Based Question Answering )基于知識庫的問題回答
以直接而準確的方式回答用戶的自然語言的提問的自動問答系統(tǒng),將構(gòu)建下一代搜索引擎的基本形態(tài)橱健。


32.png

KBQA的基本實現(xiàn)流程

33.png

知識推理

知識推理而钞,基于已知的事實推出未知的事實的計算過程。大部分搜索引擎都已經(jīng)支持一定的推理能力拘荡。例如百度輸入臼节,姚明的女兒的媽媽的老公

知識推理的方法分類

按解決方法分類:

  • 基于描述邏輯的推理
  • 基于規(guī)則挖掘的推理
  • 基于概率邏輯的推理
  • 基于表示學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的推理

按照推理類型分類

  • 缺省推理
  • 連續(xù)文化推理
  • 空間推理
  • 因果關(guān)系推理

基于描述邏輯的推理

描述逞輯( description logic )是一種用于知識表示的送輯語言和以其為對象的推理方法,主要用于描述概念分類及其概念之間的關(guān)系俱病。描述逆輯是當(dāng)前語}義網(wǎng)發(fā)展中本體的理論基礎(chǔ)官疲。
主要方法:

  • 基于表運算( Tableaux )及改進的方法: FaCT + +、 Racer 亮隙、 Pellet Hermit 等.
  • 基于一階查詢重寫的方法( ontology based data access 途凫, 基于本體的數(shù)據(jù)訪問).
  • 基于產(chǎn)生式規(guī)則的算法(如 rete ) : Jena 、 Sesame 溢吻、 OWLIM 等.
  • 基于 Datalog 轉(zhuǎn)換的方法知 KAON 维费、 RDFox 等。
  • 回答集程序 Answer set programming

基于統(tǒng)計規(guī)則挖掘的推理

34.png

基于表示學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的推理

35.png

知識融合

知識融合促王,其它相關(guān)叫法: Record Linkage , Entity Resolution , Data L inking , Knowledge Fusion , Entity Alignment … …
都是指在不同數(shù)據(jù)集中找出同一個實體的描述記錄犀盟,主要目的是對不同數(shù)據(jù)源中的實體信息進行整合,形成更加全面的實體信息

知識融合典型工具Dedupe

Dedupe 蝇狼,基于 Python 的工共包阅畴,實現(xiàn) T 包括 fuzzy matching , deduplication , entity resolution 在內(nèi)的常見任務(wù)。主要處理流程是先對所有 records 通過 Clustering / Blocking 的方法進行分組迅耘,然后在組內(nèi)部通過計算相似度特征和機蕎學(xué)習(xí)分類模型對任一一對 records 進行預(yù)瀏是否為同一實體贱枣。
適合于兩個數(shù)據(jù)集有相似的結(jié)構(gòu),如果兩個數(shù)據(jù)集的實體屬性個數(shù)差異很大颤专,不建議采用纽哥。

知識融合典型工具LIMES

Limes : A Time 一 Efficient Approach for Large 一 Scale Link Discovery on the Web of Data . IJCAI20 13
專門針對鑊接數(shù)據(jù) Linked Data 設(shè)計的健接框架,不要求兩個數(shù)據(jù)集的實體共有相似的結(jié)構(gòu)
可靈活配置匹配規(guī)則栖秕,白定義距離計算模型春塌,也支持基于 Active Leaming 的機蕎學(xué)習(xí)方法

知識眾包

  • Wikibase
  • Schema.ORG

知識圖譜典型應(yīng)用案例

知識圖譜的案例涉及:醫(yī)療健康、金融、電商只壳、出版俏拱、農(nóng)業(yè)、政府吕世、電信彰触、數(shù)字圖書館等領(lǐng)域。

36.png
37.png
38.png
39.png
40.png
41.png
42.png
43.png
44.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末命辖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子分蓖,更是在濱河造成了極大的恐慌尔艇,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件么鹤,死亡現(xiàn)場離奇詭異终娃,居然都是意外死亡,警方通過查閱死者的電腦和手機蒸甜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門棠耕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人柠新,你說我怎么就攤上這事窍荧。” “怎么了恨憎?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵蕊退,是天一觀的道長。 經(jīng)常有香客問我憔恳,道長瓤荔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任钥组,我火速辦了婚禮输硝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘程梦。我一直安慰自己点把,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布作烟。 她就那樣靜靜地躺著愉粤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拿撩。 梳的紋絲不亂的頭發(fā)上衣厘,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機與錄音,去河邊找鬼影暴。 笑死错邦,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的型宙。 我是一名探鬼主播撬呢,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼妆兑!你這毒婦竟也來了魂拦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤搁嗓,失蹤者是張志新(化名)和其女友劉穎芯勘,沒想到半個月后腺逛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荷愕,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年棍矛,在試婚紗的時候發(fā)現(xiàn)自己被綠了安疗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡够委,死狀恐怖荐类,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情慨绳,我是刑警寧澤掉冶,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站脐雪,受9級特大地震影響厌小,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜战秋,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一璧亚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧脂信,春花似錦癣蟋、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至埋泵,卻和暖如春幔欧,著一層夾襖步出監(jiān)牢的瞬間罪治,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工礁蔗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留觉义,地道東北人。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓浴井,卻偏偏與公主長得像晒骇,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子磺浙,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容