- 知識圖譜與語義技術概述
- 典型知識庫項目簡介
- 知識圖譜相關技術簡介
- 知識表示议纯、知識抽取父款、知識存儲、知識融合
- 知識推理瞻凤、知識眾包憨攒、語義搜索、知識問答
- 典型應用案例:醫(yī)藥阀参、電商肝集、企業(yè)、金融结笨、博物館包晰、媒體
知識圖譜與語義技術概述
KG(Knowledge Graph)的概念演化
KG輔助搜索
KG輔助問答
KG輔助決策
-
KG輔助AI:常識推理
當一個人聽到或看到一句話的時候,他使用自己所有的知識和背景去理解炕吸。這不僅僅包括語法伐憾,也包括他的詞匯知識,上下文知識赫模,更重要的树肃,是對相關事務的理解——Terry Winograd(自然語言理解系統(tǒng)SHRDLU作者)
KG的本質
Web 視角:像建立文本之間的超鏈接一樣,建立數(shù)據(jù)之間的語義鏈接瀑罗,并支持語義搜索
NLP 視角:怎樣從文本中抽取語義和結構化書數(shù)據(jù)
KR 視角:怎么利用計算機符合表示和處理知識
AI 視角 :怎么利用知識庫來輔助理解人的語言
DB 視角: 用圖的方式去存儲知識
做好KG要兼容并蓄胸嘴,綜合利用好KR、NLP斩祭、Web劣像、ML、DB等多方面的方法和技術
典型知識庫項目
Cyc:最初目的建立人類最大的常識知識庫
Wordnet: 最著名的詞典知識庫摧玫,主要用于詞義消歧
ConceptNet:常識知識庫
Freebase:完全免費并允許商業(yè)化的開發(fā)許可協(xié)議
Wikidata耳奕、DBPedia、YAGO诬像、Babelnet屋群、Nell、微軟 Concept Graph等
OpenKG:中文知識圖譜資源庫
Zhishi.me
cnSchema:開放的中文知識圖譜
知識圖譜技術概覽
知識表示
什么是知識表示:知識表示研究怎么用計算機符號表示人腦中的知識坏挠,以及怎樣通過符號之間的運算來模擬人腦的推理過程芍躏。
基于數(shù)理邏輯的知識表示——> 基于向量空間學習的分布式知識表示
RDF(Resource Description Framework ) : Triple-based Assertion model
RDF Graph:Directed Labeled Graph 基本數(shù)據(jù)模型:有向標記圖
RDFS:simple Vocabulary and Schema
OWL : Web Ontology Language
OWL extends RDF Schema
SPARQL
RDF的查詢語言:基于RDF數(shù)據(jù)模型
可以對不同的數(shù)據(jù)集撰寫復雜的連接(joins)
由所有主流圖數(shù)據(jù)庫支持
SPARQL Protocl and RDF Query Language
資源描述框架(Resource Description Framework, RDF)是一種描述有關 Web 資源的格式化語句集合的模型。
是一種描述有關 Web 資源的語句集合的模型降狠。這些語句在概念上分為三部分对竣,每條語句包含一個主題(一個 Uniform Resource Identifier (URI))庇楞;一個謂詞(也是一個 URI);還包括一個對象(一個 URI 或字母數(shù)據(jù)值)柏肪。
要了解這類語句的特點姐刁,考慮描述 Web 頁面的 HTML meta 標記。如果將其改為 RDF烦味,
則主題將是 Web 頁面本身的 URI聂使,謂詞將是表示通用描述的標準 URI,而對象將是描述的實際文本谬俄。
通過大量使用 URI柏靶,RDF 試圖最小化這些語句組件標識的模糊性,從而使它們具有足夠的常規(guī)性以方便機器處理溃论。
Web Ontology Language (OWL)是一種 RDF 應用程序屎蜓,通常使用 RDF/XML 編碼,它添加了一種豐富的詞匯表钥勋,可以用來按照格式分類并分析 RDF 資源炬转。
SPARQL Query Language for RDF [開發(fā)階段] 是用于查詢 RDF 數(shù)據(jù)的特殊語法
知識圖譜的分布式表示——KG Eembedding
在保留語義的同時,將知識圖譜中的實體和關系映射到連續(xù)的稠密的低維向量空間
離散的符號表示——> 連續(xù)的向量表示
知識抽人憔摹:NLP + KR
主要方法
- 知識工程
- 正則表達式
- 模板匹配
- BootStrap:從種子數(shù)據(jù)中識別Patterns扼劈,用于抽取更多數(shù)據(jù),提取更多Patterns
- 規(guī)則約束
- POS(Part-Of-Speech 詞性標注)菲驴、NER(Named Entity Recognition 命名實體識別)約束荐吵、距離約束
- 基于本體的抽取
- 知識挖掘(推理)
- PRA 基于圖的抽取
- TransE系列基于Embedding的抽取
- 知識挖掘(推理)
- 基于模型的抽取
- 模型
- SVM, Logistic Model
- 條件隨機場(CRF)
- LSTM(Long Short-Term Memory)等循環(huán)神經(jīng)網(wǎng)絡
- 訓練
- 有監(jiān)督學習
- 無監(jiān)督聚類
- 遠程監(jiān)督(Distant Supervison), 從已有的知識庫獲取少量訓練數(shù)據(jù)
- 模型
知識存儲
知識比數(shù)據(jù)的結構更加復雜,知識的存儲需要綜合考慮圖的特點、復雜的知識結構存儲赊瞬、索引和查詢 (支持推理)的優(yōu)化等問題
典型的知識存儲引擎分為基于關系數(shù)據(jù)庫的存儲和基于原生圖的存儲
在實踐中,多為混合存儲結構,圖存儲并非必須
知識問答
KBQA(Knowledge-Based Question Answering) 基于知識庫的問題回答
以直接而準確的方式回答用戶自然語言提問的自動問答系統(tǒng)將構成下一代搜索引擎的基本形態(tài)‘
基本實現(xiàn)流程
知識推理
簡單而言先煎,推理是基于已知事實退出未知的事實的計算過程
大部分搜索引擎目前都已經(jīng)支持了一定的推理能力
百度輸入:姚明的女兒的媽媽的老公
知識融合
其它相關叫法:Record Linkage,Entity Resolution,Data Linking,Knowledge Fusion,Entity Alignment......
都是指在不同數(shù)據(jù)集中找出同一個實體的描述記錄,主要目的是對不同數(shù)據(jù)源中的實體信息進行整合,形成更加全面的實體信息
Dedupe, 基于Python的工具包,實現(xiàn)了包括fuzzy matching, deduplication, entity resolution在內的常見任務。主要處理流程是先對所有records通過Clustering/Blocking的方法進行分組,然后在組內部通過計算相似度特征和機器學習分類模型對任一一對records進行預測是否為同一實體巧涧。
適合于兩個數(shù)據(jù)集有相似的結構,如果兩個數(shù)據(jù)集的實體屬性個數(shù)差異很大,不建議采用薯蝎。
Limes: A Time-Efficient Approach forLarge-Scale Link Discovery on theWeb of Data. IJCAI2013
專門針對鏈接數(shù)據(jù)Linked Data設計的鏈接框架,不要求兩個數(shù)據(jù)集的實體具有相似的結構
可靈活配置匹配規(guī)則,自定義距離計 算 模 型 , 也 支 持 基 于 Active Learning的機器學習方法
知識眾包
Wikibase
Schema.ORG