1、為什么要用大數(shù)據(jù)來反欺詐希痴?
近些年來互聯(lián)網(wǎng)金融蓬勃發(fā)展,特別是P2P的興起团搞,顛覆了傳統(tǒng)的銀行貸款模式,給大眾帶來快速便捷的金融服務(wù)摆尝;在P2P行業(yè)中温艇,借款端的風(fēng)險是P2P公司面臨的主要風(fēng)險,而借款端的風(fēng)控水平可以說決定了一家P2P公司的核心競爭力堕汞。
借款端風(fēng)險的一個主要來源是欺詐風(fēng)險勺爱,傳統(tǒng)的反欺詐手段主要依賴于信息的人工審核,而身份證讯检、手機號碼琐鲁、銀行流水等材料的偽造成本非常低,各類信貸服務(wù)機構(gòu)均不得不投入大量的人力用于核實信息主體的身份及其提供材料的真實性人灼;在這種形式下大數(shù)據(jù)反欺詐成為了P2P平臺提高風(fēng)險控制水平的新思路围段。
大數(shù)據(jù)反欺詐,即是通過對數(shù)據(jù)的采集和分析挡毅,找出欺詐者的蛛絲馬跡蒜撮,挖掘其數(shù)據(jù)的矛盾點和可疑點,識別和預(yù)防欺詐事件的發(fā)生跪呈。大數(shù)據(jù)收集了大量異構(gòu)段磨、多樣化的信息,包括可交叉驗證信息主體所提供的信息以及第三方信息來源的真實性耗绿,尤其是對于第三方信息來源苹支,信息主體想要進行長時間、全方位的偽造误阻,非常困難债蜜,成本較高,并且事實上經(jīng)常不可行究反,因此大數(shù)據(jù)具有較強的反欺詐能力寻定。
2、面對的挑戰(zhàn)
大數(shù)據(jù)反欺詐技術(shù)又可以分解為兩個子問題精耐,第一個問題是在用戶的授權(quán)下如何收集用戶的相關(guān)數(shù)據(jù)狼速,包括去哪里收集和收集哪些數(shù)據(jù),為此我們對接了大量的第三方數(shù)據(jù)提供商的系統(tǒng)卦停,還在用戶的授權(quán)下向胡,利用網(wǎng)絡(luò)爬蟲抓取公開的互聯(lián)網(wǎng)數(shù)據(jù),從而不斷完善和豐富數(shù)據(jù)集惊完,增加覆蓋維度僵芹;第二個問題是如何整合和利用已收集的數(shù)據(jù)解決反欺詐問題,由于數(shù)據(jù)來源多小槐,數(shù)據(jù)異構(gòu)碎片化拇派,結(jié)構(gòu)(structure)、半結(jié)構(gòu)(semi-structure)和無結(jié)構(gòu)(adhoc)數(shù)據(jù)共存,并且規(guī)模龐大增長迅速攀痊,因此這一過程的挑戰(zhàn)在于如何整合異構(gòu)的數(shù)據(jù)源桐腌,如何有效的利用已有的數(shù)據(jù)進行交叉驗證。
為了應(yīng)對這個挑戰(zhàn)苟径,我們利用圖(Graph)的數(shù)據(jù)結(jié)構(gòu)案站,將不同渠道的碎片化、異構(gòu)數(shù)據(jù)整合成為機器可以理解的知識棘街,構(gòu)建了知識圖譜(Knowledge Graph)蟆盐,借助規(guī)則引擎(Rule Engine),實現(xiàn)了欺詐的識別與防御遭殉。
3石挂、知識圖譜的概念
知識圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),其目的是將真實世界所存在的實體险污,知識以及概念等描述成機器可以理解的數(shù)據(jù)結(jié)構(gòu)痹愚,將數(shù)據(jù)轉(zhuǎn)化為知識;圖的節(jié)點(Point)是真實世界所存在實體蛔糯,由一個全劇唯一的ID來標識和索引拯腮,每個實體可以帶有若干不同的屬性(Property),用來刻畫實體的特性蚁飒,而圖的邊(Edge)則用來描述兩個實體的關(guān)系动壤,例如is-a關(guān)系,表示一個實體是另一個實體的一種淮逻,或是has-a關(guān)系琼懊,表示一個實體具有另一個實體,這樣的關(guān)系都是用來刻畫實體之間的關(guān)聯(lián)關(guān)系爬早。知識圖譜可以看作一個巨大的網(wǎng)絡(luò)哼丈,是由數(shù)據(jù)繪制出來的一張知識圖。
知識圖譜最先由Google提出(http://googleblog.blogspot.sg/2012/05/introducing-knowledge-graph-things-not.html)筛严,用于提升搜索引擎質(zhì)量醉旦。舉一個簡單的例子,當我們用Google搜索“劉德華的老婆”時脑漫,Google返回了朱麗倩的信息髓抑,說明Google是理解了搜索框中的內(nèi)容才進行的搜索咙崎,而不是簡單的字符串檢索优幸,這就是一個知識圖譜的應(yīng)用場景。
4褪猛、知識圖譜在反欺詐場景的應(yīng)用
在反欺詐場景中网杆,知識圖譜聚合各類數(shù)據(jù)源,逐步繪制出借款人的profile,從而針對性質(zhì)的識別欺詐風(fēng)險碳却。以一個借款人舉例队秩,借款人可以有身份證號,手機號昼浦,學(xué)歷等個人信息馍资,屬于個人的屬性信息;而借款人可以有擔(dān)保人或是親屬好友关噪,借款人與擔(dān)保人之間的關(guān)系(也就是邊Edge)是被擔(dān)保與擔(dān)保的關(guān)系鸟蟹,借款人與其親屬好友之間的關(guān)系是父親、母親使兔、同事建钥、同學(xué)等關(guān)系;借款人也具有住址虐沥,銀行流水熊经,工作單位等信息。這些信息可以來自于多個渠道欲险,例如可以由借款人自己填寫镐依,或是積累的歷史數(shù)據(jù),或是數(shù)據(jù)提供商提供盯荤,或是在互聯(lián)網(wǎng)上獲得馋吗,甚至通過推理得到,往往具有冗余性秋秤;信息通過圖的形式連結(jié)宏粤,展示出了借款人的profile。
4.1灼卢、識別數(shù)據(jù)造假
當融合來自不同數(shù)據(jù)源的信息構(gòu)成知識圖譜時绍哎,有一些實體會同時屬于兩個互斥的類別(例如同時在兩個不同的城市工作),或某個實體所對應(yīng)的一個Property(同一個人的住址)對應(yīng)多個值鞋真,這樣就會出現(xiàn)不一致性崇堰,這個不一致性即可判定為潛在的可疑點。
通過這種不一致性檢測涩咖,我們利用繪制出的知識圖譜可以識別潛在的欺詐風(fēng)險海诲。在P2P行業(yè),欺詐風(fēng)險主要的騙術(shù)包括個人信息造假檩互、工作單位虛假特幔、代辦包裝、虛假聯(lián)系人闸昨、組團騙貸等蚯斯。以識別數(shù)據(jù)造假為例薄风,利用知識圖譜我們可以通過借款人的身份信息PII(Personal Identify Information),例如手機號或是身份證號拍嵌,直接索引到個人的全部信息遭赂,并以此與借款人的填寫信息進行不一致性檢測;也可以通過借款人的其他信息進行推理出其相關(guān)信息進行驗證横辆,舉一個例子撇他,我們可以通過借款人的身份證號和姓名可以獲得他的學(xué)歷信息和年齡,通過學(xué)歷信息和年齡可以推算出其工作年限狈蚤,再根據(jù)其所在城市逆粹,行業(yè),職位炫惩,結(jié)合互聯(lián)網(wǎng)上的招聘網(wǎng)站數(shù)據(jù)推理出其薪水范圍僻弹,進而驗證他的收入水平;甚至可以通過不同借款人之間的同事關(guān)系他嚷,驗證其工作單位的真假蹋绽。
4.2、組團欺詐和代辦包裝
除了對數(shù)據(jù)造假進行驗證外筋蓖,由于圖結(jié)構(gòu)帶來的天然關(guān)聯(lián)檢索的特點卸耘,知識圖譜可以識別潛在的代辦包裝或是組團騙貸。我們利用征信公司提供的欺詐數(shù)據(jù)粘咖,擁有的代辦包裝公司數(shù)據(jù)蚣抗,互聯(lián)網(wǎng)公開欺詐黑名單,行業(yè)黑名單聯(lián)盟等數(shù)據(jù)開發(fā)了大量的標簽數(shù)據(jù)瓮下,對實體(包括公司和人)貼上標簽翰铡,例如逾期,虛假手機號讽坏,代辦包裝或是組團騙貸等標簽锭魔,當借款人進行申請貸款時,如果我們發(fā)現(xiàn)他和bad people/company/info具有較多的關(guān)聯(lián)關(guān)系路呜,那么這個人有很大的可能是欺詐迷捧,從而識別出風(fēng)險。
與搜索引擎的場景不同胀葱,知識圖譜在反欺詐場景中具有較低的應(yīng)用門檻漠秋,數(shù)據(jù)量較少時也可以進行低程度的交叉驗證,而隨著數(shù)據(jù)量的積累和增多抵屿,知識圖譜也會越來越完善庆锦,其反欺詐能力也會越來越強。我們建立了名為”Matrix”的大數(shù)據(jù)反欺詐系統(tǒng)晌该,在借款人提交借款申請開始即介入整個風(fēng)控流程肥荔,對接多個數(shù)據(jù)源以獲取借款人的數(shù)據(jù)信息,在各個環(huán)節(jié)建立checkpoint朝群,通過可配置的規(guī)則引擎在各個checkpoint執(zhí)行預(yù)定的邏輯燕耿,識別和防御欺詐風(fēng)險。
結(jié)語
這篇文章介紹了點融網(wǎng)在大數(shù)據(jù)反欺詐領(lǐng)域的嘗試與實踐姜胖,比較系統(tǒng)的介紹了知識圖譜技術(shù)在反欺詐領(lǐng)域的應(yīng)用誉帅。知識圖譜的構(gòu)建離不開數(shù)據(jù)的積累,也需要知識庫右莱、自然語言理解蚜锨、機器學(xué)習(xí)和數(shù)據(jù)挖掘等多方面知識的融合;知識圖譜使得機器能夠理解現(xiàn)實世界的實體和關(guān)系慢蜓,正如Google所說亚再,a “graph”—that understands real-world entities and their relationships to one another: things, not strings.
本文作者:程書欣(點融黑幫),現(xiàn)任點融網(wǎng)研發(fā)工程師晨抡,關(guān)注大數(shù)據(jù)風(fēng)控技術(shù)氛悬,主導(dǎo)研發(fā)點融網(wǎng)反欺詐系統(tǒng)Matrix。