知識圖譜簡介

知識圖譜簡介

本文根據(jù)幕布上這篇思維導圖總結(jié)而得無需AI基礎,小白也能看懂的知識圖譜技術與應用
對知識圖譜了解還不多更米,后續(xù)會跟進。迟几。类腮。

一蛉加、什么是知識圖譜?

定義

學術上:語義網(wǎng)絡(Semantic Network)的知識庫
應用中:多關系圖(Multi-relational Graph)

什么叫多關系圖?

圖:由節(jié)點和邊構(gòu)成打厘,通常只包含一種類型的節(jié)點和邊
多關系圖:包含多種類型的節(jié)點和多種類型的邊


圖與多關系圖的區(qū)別

知識圖譜中的節(jié)點和邊

節(jié)點

  • 通常用實體(Entity)來表達
  • 實體:現(xiàn)實世界中的事物

  • 通常用關系(Relation)來表達
  • 關系:不同實體之間的某種聯(lián)系
    [圖片上傳失敗...(image-ffd958-1534511439797)]

二户盯、知識圖譜的表達

屬性圖(Property Graph)

運用前提:當知識圖擁有屬性時
運用場景:工業(yè)界
[圖片上傳失敗...(image-b7b9b9-1534511439797)]
圖片概述:李明李飛是父子關系莽鸭,李明擁有138開頭的電話號吃靠,開通時間是2018
電話號屬性:2018年開通
李明屬性:25歲巢块、職位總經(jīng)理

RDF(資源描述框架)

運用前提:不支持實體或關系擁有屬性
運用場景:學術界

三、知識抽取

數(shù)據(jù)主要來自2種渠道

  1. 業(yè)務本身的數(shù)據(jù)
    • 包含在公司內(nèi)的數(shù)據(jù)庫表
    • 以結(jié)構(gòu)化的方式存儲
    • 只需簡單預處理即可輸入后續(xù)AI系統(tǒng)
  2. 網(wǎng)絡公開姥闭、抓取的數(shù)據(jù)
    • 以網(wǎng)頁形式存在
    • 屬于非結(jié)構(gòu)化數(shù)據(jù)
    • 需要借助自然語言處理等技術提取結(jié)構(gòu)化信息

處理非結(jié)構(gòu)化數(shù)據(jù)涉及的自然語言處理技術

  • 實體命名識別(Name Entity Recognition)
    • 從文本里提取出實體
    • 對每個實體做分類/打標簽
      [圖片上傳失敗...(image-c1bd24-1534511439797)]
  • 關系抽扰锲贰(Relation Extraction)
    • 把實體間的關系從文本中提取出來
      [圖片上傳失敗...(image-df8184-1534511439797)]
  • 實體統(tǒng)一(Entity Resolution)
    • 有些實體寫法不一樣,但指向同一個實體
    • 合并實體门怪,減少種類疼进,降低圖譜稀疏性
  • 指代消解(Coreference Resolution)
    • 分清文中出現(xiàn)的代詞到底指向哪個實體
      [圖片上傳失敗...(image-772b6-1534511439797)]

四、知識圖譜的存儲

基于RDF的存儲

  • 以三元組的方式來存儲數(shù)據(jù)
  • 不包含屬性信息
  • 數(shù)據(jù)易發(fā)布拣帽、易共享
  • 多用于學術界場景
  • 推薦使用:Jena

基于圖數(shù)據(jù)庫的存儲

  • 以屬性圖為基本的表示形式
  • 節(jié)點和關系可以帶有屬性
  • 高效的圖查詢和搜索
  • 多用于工業(yè)界場景
  • 推薦使用:Neo4j

五减拭、金融知識圖譜的搭建

搭建的核心:

  1. 對業(yè)務的理解
  2. 知識圖譜本身的設計

搭建步驟:

  1. 定義具體的業(yè)務問題
  2. 數(shù)據(jù)的收集和預處理
  3. 知識圖譜的設計
  4. 把數(shù)據(jù)存入知識圖譜
  5. 上層應用的開發(fā)拧粪,以及系統(tǒng)的評估

1. 定義具體的業(yè)務問題

哪種業(yè)務問題適合用知識圖譜沧侥?

  • 有強烈的可視化需求
  • 經(jīng)常涉及到關系的深度搜索
  • 對關系查詢效率有實時性要求
  • 數(shù)據(jù)多樣化宴杀,解決數(shù)據(jù)孤島問題
  • 有能力旺罢、有成本搭建系統(tǒng)

哪種業(yè)務問題適合用傳統(tǒng)數(shù)據(jù)庫?

  • 對可視化需求不高
  • 很少涉及關系的深度搜索
  • 關系查詢效率要求不高
  • 數(shù)據(jù)缺乏多樣性
  • 暫時沒有人力或成本不夠

案例需要解決的業(yè)務問題

  • P2P網(wǎng)貸環(huán)境下的反欺詐風控

2. 數(shù)據(jù)的收集 & 預處理

確定數(shù)據(jù)源:

  1. 用戶的基本信息
    • 大多存儲在業(yè)務表里正卧,可直接提取使用: 如姓名炉旷、年齡砾跃、學歷等
    • 個別字段需要進一步處理: 同一實體如用不同名稱填寫节吮,則需要對齊
  2. 用戶行為數(shù)據(jù)
    • 需要通過簡單的處理,提取有效的信息: 如:“用戶在某個頁面停留時長”
  3. 運營商數(shù)據(jù)
  4. 網(wǎng)絡上的公開信息
    • 需要信息抽取相關技術

3. 知識圖譜的設計

常見問題
需要哪些實體翘骂、關系和屬性碳竟?
哪些屬性可以做為實體莹桅,哪些實體可以作為屬性?
哪些信息不需要放在知識圖譜中懂拾?
設計知識圖譜BAFE原則
Business-業(yè)務原則
從業(yè)務邏輯出發(fā)

  • 觀察知識圖譜可以推導出業(yè)務邏輯
  • 設計時想好未來業(yè)務可能的變化

Analytics-分析原則
與關系分析無關的實體不放進圖譜
Efficiency-效率原則

  • 常用信息放進知識圖譜
  • 對分析沒有太多作用的不放進圖譜
  • 訪問效率低的不放進圖譜

Redundancy-冗余原則
重復性信息岖赋、高頻信息可放入傳統(tǒng)數(shù)據(jù)庫

4. 把數(shù)據(jù)存入知識圖譜

10億節(jié)點以下規(guī)模的圖譜
使用Neo4j
超過10億節(jié)點的龐大數(shù)據(jù)量

  • 選擇支持準分布式的系統(tǒng)(OrientDB, JanusGraph)
  • 通過效率唐断、冗余原則把信息存放在傳統(tǒng)數(shù)據(jù)庫中杭抠,減少知識圖譜信息量

5. 上層應用的開發(fā),以及系統(tǒng)的評估

基于規(guī)則的方法論

不一致性驗證

  • 通過規(guī)則找出潛在的矛盾點
  • 如:李明丹诀、李飛注明同樣的公司電話菩混,但兩人公司數(shù)據(jù)不一致
不一致性驗證

基于規(guī)則提取特征

  • 特征一般基于深度的搜索
  • 如:申請人二度關系里有多少個實體觸碰了黑名單?

[圖片上傳失敗...(image-13d414-1534511439797)]

基于模式的判斷

  • 適用于找出團體欺詐
  • 核心在于通過一些模式找到有可能存在風險的團體或者子圖(sub-graph)邢疙,然后對這部分子圖做進一步的分析
  • 如:三個實體共享很多信息望薄,可看做為團體并進一步分析
多點共享信息
基于概率的方法

社區(qū)挖掘:從數(shù)據(jù)圖中找出一些社區(qū)颁虐,進行進一步分析
標簽傳播:核心在于節(jié)點之間信息的傳遞
基于概率的方法的缺點:需要足夠多的數(shù)據(jù)

基于動態(tài)網(wǎng)絡的分析
  • 聚焦時間變化與風險之間的關聯(lián)
  • 如:從T到T+1時刻的圖譜結(jié)構(gòu)變化另绩,暗示著潛在風險


    圖譜結(jié)構(gòu)變化

六、知識圖譜在其他行業(yè)的應用

教育行業(yè)

依據(jù)交互蹦漠、評測笛园、互動數(shù)據(jù)研铆,理解學生當前的知識體系
根據(jù)邏輯進行個性化教育蚜印、因材施教

證券行業(yè)

最為常見:“一個事件發(fā)生了窄赋,對哪些公司產(chǎn)生什么樣的影響忆绰?”
如:公司1高管的負面事件可岂,對其他公司的影響


高管負面事件
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末稚茅,一起剝皮案震驚了整個濱河市亚享,隨后出現(xiàn)的幾起案子欺税,更是在濱河造成了極大的恐慌晚凿,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瘦馍,死亡現(xiàn)場離奇詭異歼秽,居然都是意外死亡,警方通過查閱死者的電腦和手機情组,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門哲银,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扛吞,“玉大人,你說我怎么就攤上這事荆责±谋龋” “怎么了?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵做院,是天一觀的道長盲泛。 經(jīng)常有香客問我键耕,道長村视,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮鼻百,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己邻寿,他們只是感情好,可當我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著段磨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪债蜜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天,我揣著相機與錄音,去河邊找鬼捷枯。 笑死,一個胖子當著我的面吹牛攀痊,可吹牛的內(nèi)容都是我干的躬审。 我是一名探鬼主播遭殉,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼拯腮!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后髓抑,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡碳却,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年关噪,在試婚紗的時候發(fā)現(xiàn)自己被綠了建钥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荠察。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡馋吗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出绍哎,到底是詐尸還是另有隱情海诲,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏龄糊。R本人自食惡果不足惜他嚷,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一粘咖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦赂毯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽慢蜓。三九已至则剃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工跳昼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留墓造,地道東北人帝雇。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親曼氛。 傳聞我的和親對象是個殘疾皇子聊浅,可洞房花燭夜當晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容