目錄
行業(yè)知識圖譜簡介
行業(yè)知識圖譜應用
行業(yè)KG應用挑戰(zhàn)
行業(yè)知識圖譜生命周期
行業(yè)知識圖譜簡介
行業(yè)知識圖譜工具:Palantir
行業(yè)知識圖譜的特點
行業(yè)KG應用
金融證券——企業(yè)知識圖譜
應用——企業(yè)風險評估
應用——企業(yè)社交圖譜查詢
應用——企業(yè)最終控制人查詢
應用——企業(yè)之間路徑發(fā)現(xiàn)
應用——初創(chuàng)企業(yè)融資發(fā)展歷程
應用——上市企業(yè)智能問答
金融證券——金融交易知識圖譜
應用——輔助信貸審核
應用——反欺詐淡诗、組團欺詐
- 醫(yī)療知識圖譜
- 圖書情報
行業(yè)知識圖譜應用挑戰(zhàn)
知識圖譜助力企業(yè)商業(yè)智能
行業(yè)知識圖譜生命周期
知識圖譜生命周期
- RDF:三元組(triple)模型畏纲,SPO(主謂賓)
- OWL:RDF Schema的擴展
包括:復雜類漾唉;屬性約束送膳;屬性特征;屬性鏈 - SPARQL
RDF查詢語言:基于RDF數(shù)據(jù)類型
SPARQL查詢圖可視化
本體(ontology)可以填充知識與查詢之間的間隙碍现,具有推理的能力
- 知識建模
建立知識圖譜的數(shù)據(jù)模式蚂维。行業(yè)知識圖譜的數(shù)據(jù)模式對整個知識圖譜的結(jié)構(gòu)進行定義篱竭,因此需要保證可靠性。
常用方法:
- 自頂向下的方法:專家手工編輯形成數(shù)據(jù)模式
- 自底向上的方法:基于現(xiàn)有的標準進行轉(zhuǎn)換役首;
從現(xiàn)有的高質(zhì)量行業(yè)數(shù)據(jù)源中進行映射尝丐。
-
知識獲取
知識獲取方式 - 知識融合
- 數(shù)據(jù)模式層融合
概念合并
概念上下位關(guān)系合并
概念的屬性定義合并 - 數(shù)據(jù)層融合
實體合并
實體屬性融合
沖突檢測與解決
- 知識存儲
三元組知識的存儲;
事件信息的存儲
時態(tài)信息的存儲宋税;
使用知識圖譜組織的數(shù)據(jù)的存儲
- 知識圖譜上層應用需要支持:
知識推理摊崭;
知識快速查詢;
圖實時計算
- 知識計算
圖挖掘計算:基于圖論的相關(guān)算法杰赛,實現(xiàn)對圖譜的探索和挖掘呢簸;
本體推理:使用本體推理進行新知識發(fā)現(xiàn)或沖突檢測;
基于規(guī)則的推理:使用規(guī)則引擎,編寫相應的業(yè)務規(guī)則根时,通過推理輔助業(yè)務決策瘦赫。 - 知識應用
一站式工具
- LOD2
-
Stardog
把關(guān)系數(shù)據(jù)庫映射成虛擬圖;
支持OWL2的推理蛤迎;
支持Gremlim;
但Stardog僅包含對結(jié)構(gòu)化數(shù)據(jù)(RDBMS确虱,Excel等)的處理,沒有針對非結(jié)構(gòu)化數(shù)據(jù)的知識抽取替裆,沒有知識融合的功能校辩。
1 知識建模
- 以實體為主要目標,實現(xiàn)對不同來源的數(shù)據(jù)進行映射與合并辆童。(實體抽取與合并)
- 利用屬性來表示不同數(shù)據(jù)源中針對實體的描述宜咒,形成對實體的全方位描述。(屬性映射與歸并)
- 利用關(guān)系來描述各類抽象建模成實體的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系把鉴,從而支持關(guān)聯(lián)分析故黑。(關(guān)系抽取)
- 通過實體鏈接技術(shù)庭砍,實現(xiàn)圍繞實體的多種類型數(shù)據(jù)的關(guān)聯(lián)存儲场晶。(實體鏈接)
- 使用事件機制描述客觀世界中動態(tài)發(fā)展,體現(xiàn)事件與實體間的關(guān)聯(lián)怠缸;并利用時序描述事件的發(fā)展狀況诗轻。(動態(tài)事件描述)
知識建模工具——Protege
本體編輯器;
基于RDF(S)凯旭,OWL等語義網(wǎng)規(guī)范概耻;
圖形化界面;
提供了在線版本——WebProtege
適用于原型構(gòu)建場景
構(gòu)建一個適用的建模工具
- 在線并發(fā)編輯支持罐呼;
- 多用戶共同編輯;上下位關(guān)系定義侦高,屬性定義編輯
- 提供導入嫉柴、集成功能;
- 以存儲為橋梁奉呛,可以對自動算法的結(jié)果進行編輯计螺;
- 支持對動態(tài)事件數(shù)據(jù)的建模,使用時態(tài)信息存儲實現(xiàn)事件時間描述瞧壮;
- 支持大數(shù)據(jù)量的知識圖譜編輯登馒。
2 知識獲取
結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化咆槽,非結(jié)構(gòu)化
- D2R工具——D2RQ
將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為虛擬的RDF數(shù)據(jù)庫的平臺 - 包裝器
半結(jié)構(gòu)化行業(yè)數(shù)據(jù)源解析 - 文本信息抽取
OpenIE:面向開放領域抽取信息
工具:ReVerb陈轿、TextRunner
CloseIE:面向特定領域抽取信息
工具:DeepDive
3 知識融合
包括數(shù)據(jù)模式層(概念、概念的上下位關(guān)系、概念的屬性)的融合與數(shù)據(jù)層的融合
4 知識存儲
兩種方式:RDF存儲和圖數(shù)據(jù)庫(Graph Database)
常見的圖數(shù)據(jù)存儲——Graph DBMS
- Neo4j
原生圖存儲和處理麦射;
支持ACID事務處理蛾娶;
不適用Schema
5 知識計算
1 圖挖掘計算
- 圖遍歷:廣度優(yōu)先遍歷,深度優(yōu)先遍歷
- 最短路徑查詢:Dijkstra潜秋、Floyd
- 路徑探尋:給定兩個或多個節(jié)點蛔琅,發(fā)現(xiàn)它們之間的關(guān)聯(lián)關(guān)系
- 權(quán)威節(jié)點分析:PageRank算法
- 族群發(fā)現(xiàn):最大流算法
- 相似節(jié)點發(fā)現(xiàn):基于節(jié)點屬性、關(guān)系的相似度算法
2 基于本體的推理
- 基于表運算及改進的方法:FaCT++峻呛、Racer罗售、Pellet Hermit等
- 基于一階查詢重寫的方法(Ontology based data access)
- 基于產(chǎn)生式規(guī)則的算法(如rete):Jena、Sesame钩述、OWLIM等
- 基于Datalog轉(zhuǎn)換的方法如KAON寨躁、RDFox等
- 回答集程序 Answer set programming
3 基于規(guī)則的推理
工具:Drools 規(guī)則定義
6 知識應用
- 語義搜索
基于實體鏈接的語義搜索;
基于知識圖譜的語義搜索 - 智能問答
基于信息檢索的方法
基于語義解析的方法
基于規(guī)則的專家系統(tǒng)的方法
基于深度學習的方法
優(yōu)點:實現(xiàn)“端到端”的問答切距,把問題與答案均使用復雜的特征向量表示朽缎,使用深度學習來計算問題與答案的相似度。 -
可視化輔助決策
工具:D3.js谜悟,ECharts
知識圖譜總覽
知識圖譜相關(guān)書籍:
Exploiting Linked Data and Knowledge Graphs in Large Organisations