知識圖譜簡介
本文根據(jù)幕布上這篇思維導圖總結(jié)而得無需AI基礎,小白也能看懂的知識圖譜技術與應用
對知識圖譜了解還不多更米,后續(xù)會跟進。迟几。类腮。
一蛉加、什么是知識圖譜?
定義
學術上:語義網(wǎng)絡(Semantic Network)的知識庫
應用中:多關系圖(Multi-relational Graph)
什么叫多關系圖?
圖:由節(jié)點和邊構(gòu)成打厘,通常只包含一種類型的節(jié)點和邊
多關系圖:包含多種類型的節(jié)點和多種類型的邊
知識圖譜中的節(jié)點和邊
節(jié)點:
- 通常用實體(Entity)來表達
- 實體:現(xiàn)實世界中的事物
邊
- 通常用關系(Relation)來表達
- 關系:不同實體之間的某種聯(lián)系
[圖片上傳失敗...(image-ffd958-1534511439797)]
二户盯、知識圖譜的表達
屬性圖(Property Graph)
運用前提:當知識圖擁有屬性時
運用場景:工業(yè)界
[圖片上傳失敗...(image-b7b9b9-1534511439797)]
圖片概述:李明李飛是父子關系莽鸭,李明擁有138開頭的電話號吃靠,開通時間是2018
電話號屬性:2018年開通
李明屬性:25歲巢块、職位總經(jīng)理
RDF(資源描述框架)
運用前提:不支持實體或關系擁有屬性
運用場景:學術界
三、知識抽取
數(shù)據(jù)主要來自2種渠道
- 業(yè)務本身的數(shù)據(jù)
- 包含在公司內(nèi)的數(shù)據(jù)庫表
- 以結(jié)構(gòu)化的方式存儲
- 只需簡單預處理即可輸入后續(xù)AI系統(tǒng)
- 網(wǎng)絡公開姥闭、抓取的數(shù)據(jù)
- 以網(wǎng)頁形式存在
- 屬于非結(jié)構(gòu)化數(shù)據(jù)
- 需要借助自然語言處理等技術提取結(jié)構(gòu)化信息
處理非結(jié)構(gòu)化數(shù)據(jù)涉及的自然語言處理技術
-
實體命名識別(Name Entity Recognition)
- 從文本里提取出實體
- 對每個實體做分類/打標簽
[圖片上傳失敗...(image-c1bd24-1534511439797)]
-
關系抽扰锲贰(Relation Extraction)
- 把實體間的關系從文本中提取出來
[圖片上傳失敗...(image-df8184-1534511439797)]
- 把實體間的關系從文本中提取出來
-
實體統(tǒng)一(Entity Resolution)
- 有些實體寫法不一樣,但指向同一個實體
- 合并實體门怪,減少種類疼进,降低圖譜稀疏性
-
指代消解(Coreference Resolution)
- 分清文中出現(xiàn)的代詞到底指向哪個實體
[圖片上傳失敗...(image-772b6-1534511439797)]
- 分清文中出現(xiàn)的代詞到底指向哪個實體
四、知識圖譜的存儲
基于RDF的存儲
- 以三元組的方式來存儲數(shù)據(jù)
- 不包含屬性信息
- 數(shù)據(jù)易發(fā)布拣帽、易共享
- 多用于學術界場景
- 推薦使用:Jena
基于圖數(shù)據(jù)庫的存儲
- 以屬性圖為基本的表示形式
- 節(jié)點和關系可以帶有屬性
- 高效的圖查詢和搜索
- 多用于工業(yè)界場景
- 推薦使用:Neo4j
五减拭、金融知識圖譜的搭建
搭建的核心:
- 對業(yè)務的理解
- 知識圖譜本身的設計
搭建步驟:
- 定義具體的業(yè)務問題
- 數(shù)據(jù)的收集和預處理
- 知識圖譜的設計
- 把數(shù)據(jù)存入知識圖譜
- 上層應用的開發(fā)拧粪,以及系統(tǒng)的評估
1. 定義具體的業(yè)務問題
哪種業(yè)務問題適合用知識圖譜沧侥?
- 有強烈的可視化需求
- 經(jīng)常涉及到關系的深度搜索
- 對關系查詢效率有實時性要求
- 數(shù)據(jù)多樣化宴杀,解決數(shù)據(jù)孤島問題
- 有能力旺罢、有成本搭建系統(tǒng)
哪種業(yè)務問題適合用傳統(tǒng)數(shù)據(jù)庫?
- 對可視化需求不高
- 很少涉及關系的深度搜索
- 關系查詢效率要求不高
- 數(shù)據(jù)缺乏多樣性
- 暫時沒有人力或成本不夠
案例需要解決的業(yè)務問題
- P2P網(wǎng)貸環(huán)境下的反欺詐風控
2. 數(shù)據(jù)的收集 & 預處理
確定數(shù)據(jù)源:
- 用戶的基本信息
- 大多存儲在業(yè)務表里正卧,可直接提取使用: 如姓名炉旷、年齡砾跃、學歷等
- 個別字段需要進一步處理: 同一實體如用不同名稱填寫节吮,則需要對齊
- 用戶行為數(shù)據(jù)
- 需要通過簡單的處理,提取有效的信息: 如:“用戶在某個頁面停留時長”
- 運營商數(shù)據(jù)
- 網(wǎng)絡上的公開信息
- 需要信息抽取相關技術
3. 知識圖譜的設計
常見問題
需要哪些實體翘骂、關系和屬性碳竟?
哪些屬性可以做為實體莹桅,哪些實體可以作為屬性?
哪些信息不需要放在知識圖譜中懂拾?
設計知識圖譜BAFE原則
Business-業(yè)務原則
從業(yè)務邏輯出發(fā)
- 觀察知識圖譜可以推導出業(yè)務邏輯
- 設計時想好未來業(yè)務可能的變化
Analytics-分析原則
與關系分析無關的實體不放進圖譜
Efficiency-效率原則
- 常用信息放進知識圖譜
- 對分析沒有太多作用的不放進圖譜
- 訪問效率低的不放進圖譜
Redundancy-冗余原則
重復性信息岖赋、高頻信息可放入傳統(tǒng)數(shù)據(jù)庫
4. 把數(shù)據(jù)存入知識圖譜
10億節(jié)點以下規(guī)模的圖譜
使用Neo4j
超過10億節(jié)點的龐大數(shù)據(jù)量
- 選擇支持準分布式的系統(tǒng)(OrientDB, JanusGraph)
- 通過效率唐断、冗余原則把信息存放在傳統(tǒng)數(shù)據(jù)庫中杭抠,減少知識圖譜信息量
5. 上層應用的開發(fā),以及系統(tǒng)的評估
基于規(guī)則的方法論
不一致性驗證
- 通過規(guī)則找出潛在的矛盾點
- 如:李明丹诀、李飛注明同樣的公司電話菩混,但兩人公司數(shù)據(jù)不一致
基于規(guī)則提取特征
- 特征一般基于深度的搜索
- 如:申請人二度關系里有多少個實體觸碰了黑名單?
[圖片上傳失敗...(image-13d414-1534511439797)]
基于模式的判斷
- 適用于找出團體欺詐
- 核心在于通過一些模式找到有可能存在風險的團體或者子圖(sub-graph)邢疙,然后對這部分子圖做進一步的分析
- 如:三個實體共享很多信息望薄,可看做為團體并進一步分析
基于概率的方法
社區(qū)挖掘:從數(shù)據(jù)圖中找出一些社區(qū)颁虐,進行進一步分析
標簽傳播:核心在于節(jié)點之間信息的傳遞
基于概率的方法的缺點:需要足夠多的數(shù)據(jù)
基于動態(tài)網(wǎng)絡的分析
- 聚焦時間變化與風險之間的關聯(lián)
-
如:從T到T+1時刻的圖譜結(jié)構(gòu)變化另绩,暗示著潛在風險
圖譜結(jié)構(gòu)變化
六、知識圖譜在其他行業(yè)的應用
教育行業(yè)
依據(jù)交互蹦漠、評測笛园、互動數(shù)據(jù)研铆,理解學生當前的知識體系
根據(jù)邏輯進行個性化教育蚜印、因材施教
證券行業(yè)
最為常見:“一個事件發(fā)生了窄赋,對哪些公司產(chǎn)生什么樣的影響忆绰?”
如:公司1高管的負面事件可岂,對其他公司的影響