知識圖譜與語義技術(shù)概論
知識圖譜(KG)的概念
知識圖譜(KG)得益于Web的發(fā)展(更多的是數(shù)據(jù)層面)蹬癌,有著來源于KR捻勉、NLP镀梭、Web、AI多個方面的基因踱启。知識圖譜(KG)的概念演化如圖:
知識圖譜是2012年后的提法报账,基礎(chǔ)還是語義網(wǎng)和本體論。
知識圖譜的本質(zhì)包含:
- 知識表示——Knowledge Representation
- 基于知識表示的知識庫——Knowledge Base
- 知識庫的來源:知識構(gòu)建禽捆、知識抽取笙什、知識融合;
- 知識庫怎么用:語義搜索胚想、知識問答
- Web的視角:像建立文本之間的超鏈接一樣琐凭,建立數(shù)據(jù)之間的語義鏈接,并支持語義搜索浊服;
- NLP視角:怎么從文本中抽取語義和結(jié)構(gòu)化數(shù)據(jù)
- KR視角:怎樣利用計算機符號表示和處理數(shù)據(jù)
- AI視角:怎樣利用知識庫來輔助理解人類的語言
- DB視角:用圖的方式去存儲知識统屈;
知識圖譜由文本(Texts、Documents)的鏈接到對象(Objects)的鏈接牙躺。
知識圖譜(KG)的作用:
-
輔助搜索2.png
-
輔助問答3.png
-
輔助決策4.png
-
輔助AI:常識推理5.png
知識圖譜的深度學(xué)習(xí)的區(qū)別:
人的大腦依賴所學(xué)的知識進行思考愁憔、邏輯推理、理解語言孽拷。
可以將深度學(xué)習(xí)和知識圖譜比作是“聰明的AI”和“有學(xué)識的AI”吨掌。
- 深度學(xué)習(xí):主要是【學(xué)習(xí)】能力,通過強大的計算能力脓恕,感知膜宋、識別、判斷來進行學(xué)習(xí)炼幔。
-
知識圖譜:主要是【推理】能力秋茫,通過已有的規(guī)則和知識,思考乃秀、語言肛著、推理來進行學(xué)習(xí)。
6.png
典型的知識庫介紹
- CYC知識庫:常識知識庫跺讯,最初目標是建立人類最大的常識知識庫枢贿。
- Wordnet:詞典知識庫,主要用于詞義消歧刀脏。
- ConceptNet:常識數(shù)據(jù)庫萨咕,最早源于MIT媒體實驗室,主要依靠互聯(lián)網(wǎng)眾包火本、專家創(chuàng)建和游戲三種方法來構(gòu)建危队。知識庫以三元組形式的關(guān)系型知識構(gòu)成。側(cè)重詞與詞之間的關(guān)系钙畔。ConceptNet完全免費開放茫陆,并支持多種語言。
- Freebase:完全免費并允許商業(yè)化的開放許可協(xié)議擎析。通過開源免費吸引吸引用戶貢獻數(shù)據(jù)簿盅,增值的應(yīng)用及技術(shù)服務(wù)收費。
- Wikidata:目標是構(gòu)建全世界最大的免費知識庫揍魂,但是仍然面臨知識缺失嚴重的問題桨醋。
- DBPedia:早期的語義網(wǎng)項目,意指數(shù)據(jù)庫版本的Wikipedia现斋,是從Wikipedia抽取出來的鏈接數(shù)據(jù)集喜最。
- YAGO:集成了Wikipedia、WordNet庄蹋、GeoNames三個來源的數(shù)據(jù)瞬内。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述限书。
- Babelnet:類似于WordNet的多語言詞典知識庫虫蝶,目標是解決WordNet在非英語語種中數(shù)據(jù)缺乏的問題。
- NELL:是卡內(nèi)基梅隆大學(xué)開發(fā)的知識庫倦西,主要采用互聯(lián)網(wǎng)挖掘的方法從WEB自動抽取三元組知識能真。
- 微軟的Concept Graph:以概念層次體系為中心的知識圖譜。與Freebase等知識圖譜不同扰柠,Concept Graph是以概念定義和概念之間的IsA關(guān)系為主粉铐。
- OpenKG:中文知識圖譜資源庫。
- cnSchema:開放的中文知識圖譜Schema
CYC 常識知識庫
Wordnet:詞典知識庫
ConceptNet:常識數(shù)據(jù)庫
Freebase
Wikidata:目標是構(gòu)建全世界最大的免費知識庫
DBPedia:早期的語義網(wǎng)項目
YAGO:集成了Wikipedia耻矮、WordNet秦躯、GeoNames三個來源的數(shù)據(jù)
Babelnet:類似于WordNet的多語言詞典知識庫
NELL:是卡內(nèi)基梅隆大學(xué)開發(fā)的知識庫
微軟的Concept Graph:以概念層次體系為中心的知識圖譜
OpenKG:中文知識圖譜資源庫
cnSchema:開放的中文知識圖譜Schema
知識圖譜相關(guān)技術(shù)簡介
知識表示
知識表示研究怎樣用計算機符號來表示人腦中的知識,以及怎樣通過符號之間的運算來模擬人腦的推理過程裆装。
基于數(shù)理邏輯的知識表示
-
RDF: 三元組的斷言模型20.png
-
RDF Graph: 基于數(shù)據(jù)模型的有向圖21.png
-
RDFS: 定義簡單的vocabulary和schema22.png
-
RDF的序列化格式踱承,OWL、OWL extends RDF Schema哨免、SPARQL茎活、23.png
- Ontology :Web Ontology Language
Ontology in Philosophy
Ontology is the philosophical study of the nature of being, becoming, existence or reality, as well as the basic categories of being and their relations.----Merriam-Webster
Ontology in Computer Science and Artificial Intelligence
An ontology is a description (like a formal specification of a program) of the concepts and relationships that can formally exist for an agent or a community of agents.______ Tom Gruber, Founderof Sin
Web Ontologies
Ontologies based on web standards such as RDFS/OWL. OWL is based on Description Logic, a very very long history of research in Artificial Intelligence.
24.png
-
SPARQL: 基于RDF數(shù)據(jù)模型的查詢語言
26.png
27.png -
JSON-LD(數(shù)據(jù)交換格式)
28.png
-
RDFa HTML5 MicroData(在網(wǎng)頁中嵌入語義數(shù)據(jù))
29.png
知識圖譜分布式 表示
在保留語義的同時,將知識圖譜中的實體和關(guān)系映射到連續(xù)的稠密低維的向量空間
30.png
知識抽取
知識抽取流程NLP+KR
知識抽取的主要方法
知識工程
- 正則表達式
- 模版匹配
BootStrap:從種子數(shù)據(jù)中識別partterns琢唾,用于抽取更多的數(shù)據(jù)载荔,提取更多的partterns - 規(guī)則約束
POS,NER約束采桃,距離約束
基于本體的抽取
- 知識挖掘推理
PRA基于圖的抽取
TransE系列 基于Embedding的抽取
基于模型的抽取
模型:SVM懒熙,logistic model丘损,條件隨機場,LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)
知識存儲
- 知識比數(shù)據(jù)的結(jié)構(gòu)更加復(fù)雜工扎,知識的存儲需要綜合考慮圖的特點徘钥、復(fù)雜的知識結(jié)構(gòu)存儲、索引和查詢(支持推理)的優(yōu)化等問題
- 典型的知識存儲引擎分為基于關(guān)系數(shù)據(jù)庫的存儲和基于原生圖的存儲
- 在實踐中肢娘,多為混合存儲結(jié)構(gòu)呈础,圖存儲并非必須
知識問答(KBQA)
KBQA(Knowledge-Based Question Answering )基于知識庫的問題回答
以直接而準確的方式回答用戶的自然語言的提問的自動問答系統(tǒng),將構(gòu)建下一代搜索引擎的基本形態(tài)橱健。
KBQA的基本實現(xiàn)流程
知識推理
知識推理而钞,基于已知的事實推出未知的事實的計算過程。大部分搜索引擎都已經(jīng)支持一定的推理能力拘荡。例如百度輸入臼节,姚明的女兒的媽媽的老公
知識推理的方法分類
按解決方法分類:
- 基于描述邏輯的推理
- 基于規(guī)則挖掘的推理
- 基于概率邏輯的推理
- 基于表示學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的推理
按照推理類型分類
- 缺省推理
- 連續(xù)文化推理
- 空間推理
- 因果關(guān)系推理
基于描述邏輯的推理
描述逞輯( description logic )是一種用于知識表示的送輯語言和以其為對象的推理方法,主要用于描述概念分類及其概念之間的關(guān)系俱病。描述逆輯是當(dāng)前語}義網(wǎng)發(fā)展中本體的理論基礎(chǔ)官疲。
主要方法:
- 基于表運算( Tableaux )及改進的方法: FaCT + +、 Racer 亮隙、 Pellet Hermit 等.
- 基于一階查詢重寫的方法( ontology based data access 途凫, 基于本體的數(shù)據(jù)訪問).
- 基于產(chǎn)生式規(guī)則的算法(如 rete ) : Jena 、 Sesame 溢吻、 OWLIM 等.
- 基于 Datalog 轉(zhuǎn)換的方法知 KAON 维费、 RDFox 等。
- 回答集程序 Answer set programming
基于統(tǒng)計規(guī)則挖掘的推理
基于表示學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的推理
知識融合
知識融合促王,其它相關(guān)叫法: Record Linkage , Entity Resolution , Data L inking , Knowledge Fusion , Entity Alignment … …
都是指在不同數(shù)據(jù)集中找出同一個實體的描述記錄犀盟,主要目的是對不同數(shù)據(jù)源中的實體信息進行整合,形成更加全面的實體信息
知識融合典型工具Dedupe
Dedupe 蝇狼,基于 Python 的工共包阅畴,實現(xiàn) T 包括 fuzzy matching , deduplication , entity resolution 在內(nèi)的常見任務(wù)。主要處理流程是先對所有 records 通過 Clustering / Blocking 的方法進行分組迅耘,然后在組內(nèi)部通過計算相似度特征和機蕎學(xué)習(xí)分類模型對任一一對 records 進行預(yù)瀏是否為同一實體贱枣。
適合于兩個數(shù)據(jù)集有相似的結(jié)構(gòu),如果兩個數(shù)據(jù)集的實體屬性個數(shù)差異很大颤专,不建議采用纽哥。
知識融合典型工具LIMES
Limes : A Time 一 Efficient Approach for Large 一 Scale Link Discovery on the Web of Data . IJCAI20 13
專門針對鑊接數(shù)據(jù) Linked Data 設(shè)計的健接框架,不要求兩個數(shù)據(jù)集的實體共有相似的結(jié)構(gòu)
可靈活配置匹配規(guī)則栖秕,白定義距離計算模型春塌,也支持基于 Active Leaming 的機蕎學(xué)習(xí)方法
知識眾包
- Wikibase
- Schema.ORG
知識圖譜典型應(yīng)用案例
知識圖譜的案例涉及:醫(yī)療健康、金融、電商只壳、出版俏拱、農(nóng)業(yè)、政府吕世、電信彰触、數(shù)字圖書館等領(lǐng)域。