一饥漫、知識圖譜構(gòu)建流程:
1)知識建模:
? 理清業(yè)務(wù)邏輯 ? 歸納分類 ? 本體設(shè)計
知識建模就是在結(jié)合自身領(lǐng)域知識特征的基礎(chǔ)之上對知識圖譜進(jìn)行頂層設(shè)計,構(gòu)建一個適用于特定領(lǐng)域的知識體系妹孙。這個過程需要設(shè)計者進(jìn)行細(xì)致的思考與探索秋柄,設(shè)計者要決定在未來構(gòu)建好的圖譜中應(yīng)該包含哪些實體和哪些概念,以及實體與實體蠢正、概念與概念之間存在何種關(guān)系骇笔,是整個知識圖譜構(gòu)建的重要基石。
其關(guān)鍵點在于理清業(yè)務(wù)邏輯嚣崭,做好歸納分類笨触。
2)知識獲取:
主要包括實體抽取雹舀、屬性抽取及關(guān)系抽取芦劣。對于結(jié)構(gòu)化數(shù)據(jù),只要在第1步設(shè)計好了圖譜模型说榆,在對應(yīng)數(shù)據(jù)庫表中找到即可虚吟。知識獲取的難點在于非結(jié)構(gòu)化數(shù)據(jù)獲取寸认,需采用NLP技術(shù),結(jié)合人工規(guī)則進(jìn)行數(shù)據(jù)識別串慰,識別出具體的實體偏塞、屬性、關(guān)系邦鲫。
3)知識融合:
通過知識獲取得到的數(shù)據(jù)中往往包含很多冗余灸叼、重復(fù)甚至錯誤的信息,因此還需要進(jìn)行數(shù)據(jù)整合掂碱。知識融合的目的是將不同數(shù)據(jù)源獲取的知識進(jìn)行融合構(gòu)建數(shù)據(jù)之間的關(guān)聯(lián)怜姿。包括實體對齊、屬性對齊疼燥、沖突消解、規(guī)范化等蚁堤,更多的是做一個數(shù)據(jù)的映射醉者、實體的匹配,可能還會涉及的是本體的構(gòu)建和融合披诗。
在保險行業(yè)中撬即,由于數(shù)據(jù)質(zhì)量問題,可能導(dǎo)致一個客戶存有不同的手機(jī)號或地址呈队, 這都需要寫相關(guān)規(guī)則找出唯一一個確定的屬性值剥槐。在我司核心數(shù)據(jù)庫中,若投被保人為同一人宪摧,則客戶號相同粒竖,如果把投被保人看成兩類實體、則需要繼續(xù)做處理來唯一標(biāo)識相同客戶號的投被保人几于,還有一種情況蕊苗,把投被保人看成一類客戶實體,這種情況則涉及到屬性對齊沿彭,因為一個客戶作為投保人或被保人屬性值可能會不相同朽砰。
4)知識存儲:
知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數(shù)據(jù)庫的存儲喉刘。它們之間的區(qū)別如下圖所示瞧柔。RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫則把重點放在了高效的圖查詢和搜索上睦裳。其次造锅,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式推沸。
知識存儲主要是根據(jù)業(yè)務(wù)特點及數(shù)據(jù)規(guī)則選擇合適的方式將融合后的數(shù)據(jù)進(jìn)行保存备绽,選擇哪個圖數(shù)據(jù)庫也要看數(shù)據(jù)量以及對效率的要求券坞。目前主流的圖數(shù)據(jù)庫有Neo4j、JanusGraph肺素、OrientDB等恨锚。其中Neo4j不支持分布式,社區(qū)版最多支持320億個實體倍靡、320億個關(guān)系的存儲猴伶。JanusGraph支持分布式存儲,可滿足百億級以上實體關(guān)系存儲塌西。
5)知識計算
知識計算即通過圖挖掘算法或知識推理在結(jié)構(gòu)化的知識存儲庫中發(fā)現(xiàn)隱含關(guān)系及知識他挎。圖挖掘技術(shù)包括:圖遍歷、最短路徑查詢捡需、子圖查詢办桨、路徑探尋等。
具體知識計算可分為以下兩方面:
- 基于規(guī)則提取特征
根據(jù)業(yè)務(wù)規(guī)則站辉,通過編寫CQL語句呢撞,把規(guī)則表示出來,展現(xiàn)在圖中饰剥。
2.基于模式的判斷
這種方法比較適用于找出團(tuán)體欺詐殊霞,它的核心在于通過一些模式來找到有可能存在風(fēng)險的團(tuán)體或者子圖(sub-graph),然后對這部分子圖做進(jìn)一步的分析汰蓉。 這種模式有很多種绷蹲,比如在下圖中,實體之間共享了很多其他的信息顾孽,可以看做是一個團(tuán)體祝钢,并對其做進(jìn)一步的分析。
6)可視化應(yīng)用:
數(shù)據(jù)展示依賴于底層知識圖譜岩齿,實體之間相互聯(lián)系構(gòu)成網(wǎng)狀結(jié)構(gòu)太颤,可視化是
將大量的數(shù)據(jù)、信息和知識轉(zhuǎn)化為一種人類的視覺可看的形式盹沈,知識圖譜的作用
是從全局層面解決人們認(rèn)識事物的能力龄章,從整體理解便于記憶和查找,通過對數(shù)
據(jù)的分析乞封,發(fā)現(xiàn)數(shù)據(jù)之間更加直觀的現(xiàn)象做裙,甚至發(fā)現(xiàn)數(shù)據(jù)之間不能直接分析得到
的結(jié)果,從而提高認(rèn)識和理解能力肃晚。在知識圖譜中重要的是關(guān)聯(lián)資源的分析圖锚贱,可以清楚看到每個實體與之相關(guān)所有其它實體的關(guān)系。
二关串、知識圖譜應(yīng)用場景:
1.反欺詐
知識圖譜在行業(yè)應(yīng)用目前處于起步探索階段拧廊,主要存在以下問題:1. 落地少监徘,處于布道階段,落地實際案例少吧碾;2. 場景少凰盔,場景零散,形態(tài)單一倦春,垂直專用户敬。目前探索比較有成效的場景主要集中在風(fēng)控反欺詐方面,具體介紹如下:近年來睁本,金融欺詐形式花樣繁多尿庐,團(tuán)伙欺詐、內(nèi)外勾結(jié)等手法推陳出新呢堰,不少欺詐案件會涉及到復(fù)雜的關(guān)系網(wǎng)絡(luò)抄瑟。在這種嚴(yán)峻形勢下,原來通過單點突破進(jìn)行反欺詐或者偵查的方法已經(jīng)遠(yuǎn)遠(yuǎn)落后于時代需要枉疼。我們要建立起一個積極有效的知識圖譜锐借,融合不同的數(shù)據(jù)源,發(fā)現(xiàn)更多更深層次的風(fēng)險模式往衷,找出欺詐者的蛛絲馬跡,挖掘其數(shù)據(jù)的矛盾點和可疑點严卖,識別和預(yù)防欺詐事件的發(fā)生席舍。反欺詐的核心是人,知識圖譜技術(shù)將把與投保人和受益人相關(guān)的所有數(shù)據(jù)源打通哮笆,整合投保人和收益人的基本信息来颤,如消費記錄、行為記錄稠肘、關(guān)系信息福铅、線上日志信息等,進(jìn)而進(jìn)行深度分析和預(yù)測项阴。
場景1:
利用知識推理算法滑黔,比如用戶1的周邊用戶(用戶10-用戶14)都是灰度騙賠用戶,則用戶1騙賠的概率就很大环揽,存在騙賠風(fēng)險略荡。
場景2:
比如用戶1的一代和二代直系親屬都沒有多指癥(屬于先天性遺傳病)歉胶,那么用戶1患這種先天性疾病的概率就比較小汛兜,存在騙賠風(fēng)險。
2.智能營銷
目前還不成熟通今。