知識圖譜知識

一饥漫、知識圖譜構(gòu)建流程:


image.png

1)知識建模:

? 理清業(yè)務(wù)邏輯 ? 歸納分類 ? 本體設(shè)計

知識建模就是在結(jié)合自身領(lǐng)域知識特征的基礎(chǔ)之上對知識圖譜進(jìn)行頂層設(shè)計,構(gòu)建一個適用于特定領(lǐng)域的知識體系妹孙。這個過程需要設(shè)計者進(jìn)行細(xì)致的思考與探索秋柄,設(shè)計者要決定在未來構(gòu)建好的圖譜中應(yīng)該包含哪些實體和哪些概念,以及實體與實體蠢正、概念與概念之間存在何種關(guān)系骇笔,是整個知識圖譜構(gòu)建的重要基石。

其關(guān)鍵點在于理清業(yè)務(wù)邏輯嚣崭,做好歸納分類笨触。

2)知識獲取:

主要包括實體抽取雹舀、屬性抽取及關(guān)系抽取芦劣。對于結(jié)構(gòu)化數(shù)據(jù),只要在第1步設(shè)計好了圖譜模型说榆,在對應(yīng)數(shù)據(jù)庫表中找到即可虚吟。知識獲取的難點在于非結(jié)構(gòu)化數(shù)據(jù)獲取寸认,需采用NLP技術(shù),結(jié)合人工規(guī)則進(jìn)行數(shù)據(jù)識別串慰,識別出具體的實體偏塞、屬性、關(guān)系邦鲫。

3)知識融合:

通過知識獲取得到的數(shù)據(jù)中往往包含很多冗余灸叼、重復(fù)甚至錯誤的信息,因此還需要進(jìn)行數(shù)據(jù)整合掂碱。知識融合的目的是將不同數(shù)據(jù)源獲取的知識進(jìn)行融合構(gòu)建數(shù)據(jù)之間的關(guān)聯(lián)怜姿。包括實體對齊、屬性對齊疼燥、沖突消解、規(guī)范化等蚁堤,更多的是做一個數(shù)據(jù)的映射醉者、實體的匹配,可能還會涉及的是本體的構(gòu)建和融合披诗。

在保險行業(yè)中撬即,由于數(shù)據(jù)質(zhì)量問題,可能導(dǎo)致一個客戶存有不同的手機(jī)號或地址呈队, 這都需要寫相關(guān)規(guī)則找出唯一一個確定的屬性值剥槐。在我司核心數(shù)據(jù)庫中,若投被保人為同一人宪摧,則客戶號相同粒竖,如果把投被保人看成兩類實體、則需要繼續(xù)做處理來唯一標(biāo)識相同客戶號的投被保人几于,還有一種情況蕊苗,把投被保人看成一類客戶實體,這種情況則涉及到屬性對齊沿彭,因為一個客戶作為投保人或被保人屬性值可能會不相同朽砰。

4)知識存儲:

知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數(shù)據(jù)庫的存儲喉刘。它們之間的區(qū)別如下圖所示瞧柔。RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫則把重點放在了高效的圖查詢和搜索上睦裳。其次造锅,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式推沸。

知識存儲主要是根據(jù)業(yè)務(wù)特點及數(shù)據(jù)規(guī)則選擇合適的方式將融合后的數(shù)據(jù)進(jìn)行保存备绽,選擇哪個圖數(shù)據(jù)庫也要看數(shù)據(jù)量以及對效率的要求券坞。目前主流的圖數(shù)據(jù)庫有Neo4j、JanusGraph肺素、OrientDB等恨锚。其中Neo4j不支持分布式,社區(qū)版最多支持320億個實體倍靡、320億個關(guān)系的存儲猴伶。JanusGraph支持分布式存儲,可滿足百億級以上實體關(guān)系存儲塌西。

5)知識計算

知識計算即通過圖挖掘算法或知識推理在結(jié)構(gòu)化的知識存儲庫中發(fā)現(xiàn)隱含關(guān)系及知識他挎。圖挖掘技術(shù)包括:圖遍歷、最短路徑查詢捡需、子圖查詢办桨、路徑探尋等。

具體知識計算可分為以下兩方面:

  1. 基于規(guī)則提取特征

根據(jù)業(yè)務(wù)規(guī)則站辉,通過編寫CQL語句呢撞,把規(guī)則表示出來,展現(xiàn)在圖中饰剥。

2.基于模式的判斷

這種方法比較適用于找出團(tuán)體欺詐殊霞,它的核心在于通過一些模式來找到有可能存在風(fēng)險的團(tuán)體或者子圖(sub-graph),然后對這部分子圖做進(jìn)一步的分析汰蓉。 這種模式有很多種绷蹲,比如在下圖中,實體之間共享了很多其他的信息顾孽,可以看做是一個團(tuán)體祝钢,并對其做進(jìn)一步的分析。

6)可視化應(yīng)用:

數(shù)據(jù)展示依賴于底層知識圖譜岩齿,實體之間相互聯(lián)系構(gòu)成網(wǎng)狀結(jié)構(gòu)太颤,可視化是

將大量的數(shù)據(jù)、信息和知識轉(zhuǎn)化為一種人類的視覺可看的形式盹沈,知識圖譜的作用

是從全局層面解決人們認(rèn)識事物的能力龄章,從整體理解便于記憶和查找,通過對數(shù)

據(jù)的分析乞封,發(fā)現(xiàn)數(shù)據(jù)之間更加直觀的現(xiàn)象做裙,甚至發(fā)現(xiàn)數(shù)據(jù)之間不能直接分析得到

的結(jié)果,從而提高認(rèn)識和理解能力肃晚。在知識圖譜中重要的是關(guān)聯(lián)資源的分析圖锚贱,可以清楚看到每個實體與之相關(guān)所有其它實體的關(guān)系。

二关串、知識圖譜應(yīng)用場景:
1.反欺詐
知識圖譜在行業(yè)應(yīng)用目前處于起步探索階段拧廊,主要存在以下問題:1. 落地少监徘,處于布道階段,落地實際案例少吧碾;2. 場景少凰盔,場景零散,形態(tài)單一倦春,垂直專用户敬。目前探索比較有成效的場景主要集中在風(fēng)控反欺詐方面,具體介紹如下:近年來睁本,金融欺詐形式花樣繁多尿庐,團(tuán)伙欺詐、內(nèi)外勾結(jié)等手法推陳出新呢堰,不少欺詐案件會涉及到復(fù)雜的關(guān)系網(wǎng)絡(luò)抄瑟。在這種嚴(yán)峻形勢下,原來通過單點突破進(jìn)行反欺詐或者偵查的方法已經(jīng)遠(yuǎn)遠(yuǎn)落后于時代需要枉疼。我們要建立起一個積極有效的知識圖譜锐借,融合不同的數(shù)據(jù)源,發(fā)現(xiàn)更多更深層次的風(fēng)險模式往衷,找出欺詐者的蛛絲馬跡,挖掘其數(shù)據(jù)的矛盾點和可疑點严卖,識別和預(yù)防欺詐事件的發(fā)生席舍。反欺詐的核心是人,知識圖譜技術(shù)將把與投保人和受益人相關(guān)的所有數(shù)據(jù)源打通哮笆,整合投保人和收益人的基本信息来颤,如消費記錄、行為記錄稠肘、關(guān)系信息福铅、線上日志信息等,進(jìn)而進(jìn)行深度分析和預(yù)測项阴。

場景1:

image

利用知識推理算法滑黔,比如用戶1的周邊用戶(用戶10-用戶14)都是灰度騙賠用戶,則用戶1騙賠的概率就很大环揽,存在騙賠風(fēng)險略荡。

場景2:

image

比如用戶1的一代和二代直系親屬都沒有多指癥(屬于先天性遺傳病)歉胶,那么用戶1患這種先天性疾病的概率就比較小汛兜,存在騙賠風(fēng)險。

2.智能營銷
目前還不成熟通今。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末粥谬,一起剝皮案震驚了整個濱河市肛根,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌漏策,老刑警劉巖派哲,帶你破解...
    沈念sama閱讀 222,464評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異哟玷,居然都是意外死亡狮辽,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評論 3 399
  • 文/潘曉璐 我一進(jìn)店門巢寡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喉脖,“玉大人,你說我怎么就攤上這事抑月∈鬟矗” “怎么了?”我有些...
    開封第一講書人閱讀 169,078評論 0 362
  • 文/不壞的土叔 我叫張陵谦絮,是天一觀的道長题诵。 經(jīng)常有香客問我,道長层皱,這世上最難降的妖魔是什么性锭? 我笑而不...
    開封第一講書人閱讀 59,979評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮叫胖,結(jié)果婚禮上草冈,老公的妹妹穿的比我還像新娘。我一直安慰自己瓮增,他們只是感情好怎棱,可當(dāng)我...
    茶點故事閱讀 69,001評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著绷跑,像睡著了一般拳恋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上砸捏,一...
    開封第一講書人閱讀 52,584評論 1 312
  • 那天谬运,我揣著相機(jī)與錄音,去河邊找鬼带膜。 笑死吩谦,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的膝藕。 我是一名探鬼主播式廷,決...
    沈念sama閱讀 41,085評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼芭挽!你這毒婦竟也來了滑废?” 一聲冷哼從身側(cè)響起蝗肪,我...
    開封第一講書人閱讀 40,023評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蠕趁,沒想到半個月后薛闪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,555評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡俺陋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,626評論 3 342
  • 正文 我和宋清朗相戀三年豁延,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腊状。...
    茶點故事閱讀 40,769評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡诱咏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缴挖,到底是詐尸還是另有隱情袋狞,我是刑警寧澤,帶...
    沈念sama閱讀 36,439評論 5 351
  • 正文 年R本政府宣布映屋,位于F島的核電站苟鸯,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏棚点。R本人自食惡果不足惜早处,卻給世界環(huán)境...
    茶點故事閱讀 42,115評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瘫析。 院中可真熱鬧陕赃,春花似錦、人聲如沸颁股。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽甘有。三九已至,卻和暖如春葡缰,著一層夾襖步出監(jiān)牢的瞬間亏掀,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評論 1 274
  • 我被黑心中介騙來泰國打工泛释, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留滤愕,地道東北人。 一個月前我還...
    沈念sama閱讀 49,191評論 3 378
  • 正文 我出身青樓怜校,卻偏偏與公主長得像间影,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子茄茁,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,781評論 2 361

推薦閱讀更多精彩內(nèi)容