支付風(fēng)控系統(tǒng)設(shè)計(jì):風(fēng)控?cái)?shù)據(jù)倉庫建設(shè)(二)

轉(zhuǎn)載:http://www.woshipm.com/data-analysis/527332.html

這篇文章是支付風(fēng)控系統(tǒng)設(shè)計(jì)的第二篇络断,重點(diǎn)介紹支持支付風(fēng)控的數(shù)據(jù)倉庫建設(shè)。關(guān)于支付系統(tǒng)在風(fēng)控上的具體需求湘纵,可參見上一篇文章 《支付風(fēng)控場(chǎng)景分析》镶蹋。

支付風(fēng)控系統(tǒng)在數(shù)據(jù)存儲(chǔ)設(shè)計(jì)上和其它業(yè)務(wù)不同的地方在于數(shù)據(jù)獲取與使用的流程凹联。一般業(yè)務(wù)系統(tǒng)會(huì)先確定系統(tǒng)數(shù)據(jù)需求沐兰,再設(shè)計(jì)如何在業(yè)務(wù)流程中采集數(shù)據(jù),以及數(shù)據(jù)的格式怎么定義匕垫。而支付風(fēng)控面臨的是一個(gè)無法預(yù)知的場(chǎng)景僧鲁,需要在實(shí)踐中根據(jù)當(dāng)前運(yùn)行情況不斷調(diào)整。它會(huì)先把數(shù)據(jù)采集過來象泵,之后才能從中發(fā)現(xiàn)可能存在的問題寞秃,并針對(duì)該問題制訂風(fēng)控規(guī)則。也就是風(fēng)控是先采集數(shù)據(jù)偶惠,再使用數(shù)據(jù)春寿。

風(fēng)控分析不僅要看交易數(shù)據(jù),還得研究所有相關(guān)聯(lián)的數(shù)據(jù)忽孽,這才能全面分析出來風(fēng)險(xiǎn)的根源绑改,推斷出需要采取的措施。因而數(shù)據(jù)采集工作對(duì)風(fēng)控系統(tǒng)建設(shè)和演化是非常重要的兄一。本文分析風(fēng)控所需要的數(shù)據(jù)厘线,如何采集和存儲(chǔ)數(shù)據(jù),建立支持風(fēng)控的數(shù)據(jù)倉庫出革。

一造壮、數(shù)據(jù)來源

一筆交易的風(fēng)險(xiǎn)等級(jí)的計(jì)算需要考慮到多個(gè)維度。未成年人購買高檔酒骂束、促銷期間羊毛客刷單耳璧、在洗錢高發(fā)地區(qū)的商戶銷售的物品成交價(jià)格遠(yuǎn)超實(shí)際價(jià)格。這些可疑交易的識(shí)別展箱,僅依靠支付系統(tǒng)本身是無法完成的旨枯。用戶的年齡、商品特點(diǎn)(是否高檔酒)混驰、是否促銷攀隔、羊毛號(hào)的識(shí)別等皂贩,需要從各業(yè)務(wù)系統(tǒng),甚至公司外部收集和用戶竞慢、商品先紫、商家、地區(qū)筹煮、手機(jī)號(hào)相關(guān)的數(shù)據(jù),通過對(duì)這些數(shù)據(jù)進(jìn)行分析居夹,提取特征败潦,識(shí)別潛在的風(fēng)險(xiǎn)。

1. 內(nèi)部數(shù)據(jù)

風(fēng)控幾乎需要收集所有相關(guān)系統(tǒng)的數(shù)據(jù)准脂。 用戶系統(tǒng)需采集用戶的靜態(tài)信息劫扒,姓名、性別狸膏、年齡等沟饥。風(fēng)控系統(tǒng)不僅僅關(guān)注這些靜態(tài)信息,還需要重點(diǎn)關(guān)注用戶的行為信息湾戳,包括注冊(cè)贤旷、密碼修改、修改個(gè)人信息等操作砾脑,需要收集這些操作的時(shí)間幼驶、地點(diǎn)、設(shè)備等信息韧衣。 此外盅藻,用戶之間的關(guān)系,也是風(fēng)控系統(tǒng)需要關(guān)注的數(shù)據(jù)畅铭。

商戶系統(tǒng):除了采集機(jī)構(gòu)的基本信息氏淑,如成立時(shí)間、注冊(cè)時(shí)間硕噩、人員規(guī)模假残、營(yíng)業(yè)額、銷售額榴徐、經(jīng)營(yíng)范圍守问、注冊(cè)地點(diǎn)等, 還需要考慮到該商戶關(guān)聯(lián)的用戶坑资,包括法人代表耗帕、公司組織結(jié)構(gòu)、主要員工信息等袱贮。

商品系統(tǒng):商品的靜態(tài)信息仿便,包括類型、價(jià)格、上架時(shí)間嗽仪、庫存等信息荒勇; 商品的瀏覽、放入購物車闻坚、購買沽翔、評(píng)論、退貨等用戶操作窿凤,包括這些操作的時(shí)間仅偎、地點(diǎn)、設(shè)備等信息雳殊。

社交數(shù)據(jù)橘沥,包括評(píng)論、論壇夯秃、留言等座咆。

業(yè)務(wù)系統(tǒng),如視頻系統(tǒng)中的觀影記錄仓洼、類型偏好介陶、時(shí)間、地點(diǎn)衬潦、設(shè)備等信息斤蔓。

當(dāng)然,支付數(shù)據(jù)是風(fēng)控最重要基礎(chǔ)數(shù)據(jù)镀岛。用戶在支付系統(tǒng)中涉及到的數(shù)據(jù)都需要收集整理來支持風(fēng)控分析弦牡。包括但不限于賬戶數(shù)據(jù)、訂單數(shù)據(jù)漂羊、交易數(shù)據(jù)驾锰、優(yōu)惠券數(shù)據(jù)和賬務(wù)流水等。這些數(shù)據(jù)在支付數(shù)據(jù)庫中也存在走越,風(fēng)控所需要的數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)略有不同狈癞。除了業(yè)務(wù)數(shù)據(jù)外泉哈,風(fēng)控還關(guān)心如下數(shù)據(jù):

用戶當(dāng)前上下文環(huán)境本辐,包括用戶所用設(shè)備的類型潮太、操作系統(tǒng)、IP地址谆构、設(shè)備ID裸扶、所在地等,而這些數(shù)據(jù)往往并不是業(yè)務(wù)所關(guān)心的搬素。而且記錄太多的上下文數(shù)據(jù)也影響性能呵晨。

賬戶魏保,訂單等操作實(shí)體的狀態(tài)。在業(yè)務(wù)數(shù)據(jù)庫中一般僅保留實(shí)體的最終狀態(tài)摸屠,比如賬戶是否已鎖定谓罗、訂單是否已支付等。 而風(fēng)控需要關(guān)心這些狀態(tài)變更的時(shí)機(jī)季二,以及變更的時(shí)間間隔檩咱。例如,用戶頻繁更改交易密碼胯舷,超正常頻率提交訂單等税手,就不是一個(gè)正常的狀態(tài)。

這些數(shù)據(jù)一般可以從日志中采集需纳。

2. 外部數(shù)據(jù)

對(duì)于大部分業(yè)務(wù)單一和用戶量不大的公司來說,其數(shù)據(jù)有限而且單一艺挪,需要使用外部數(shù)據(jù)來輔助完成風(fēng)控計(jì)算不翩。

常用的外部數(shù)據(jù)包括:

公安部的實(shí)名認(rèn)證數(shù)據(jù),包括用戶姓名麻裳、身份證號(hào)信息口蝠;

央行發(fā)布的各種名單,如洗錢區(qū)域津坑,恐怖組織名單等妙蔗。

央行信用報(bào)告,這個(gè)查詢可是要真金白銀的疆瑰。

微博數(shù)據(jù)眉反,一個(gè)人經(jīng)常了解如何養(yǎng)卡,套現(xiàn)等內(nèi)容并不是太好的事情穆役。

工商局提供的公司信息寸五。

招聘網(wǎng)站上的公司招聘信息。公司一直有招聘說明業(yè)務(wù)還不錯(cuò)耿币。

芝麻信用梳杏,這個(gè)需要申請(qǐng)。

二淹接、采集方式

一般來說十性,風(fēng)控的非實(shí)時(shí)數(shù)據(jù)采集,不能直接從線上的數(shù)據(jù)庫中讀取塑悼,這會(huì)把數(shù)據(jù)庫打死劲适。主要的數(shù)據(jù)采集方式有從庫采集,日志采集和pingback三種方式拢肆。

1. 數(shù)據(jù)庫從庫

主流數(shù)據(jù)庫减响,如Hbase靖诗,Mysql都提供同步數(shù)據(jù)進(jìn)從庫的功能,讀取從庫不會(huì)影響主庫操作支示。但如上所述刊橘,采用從庫有如下問題:

分析所需數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)不同,還需要從其他途徑補(bǔ)充數(shù)據(jù)颂鸿。

將風(fēng)控所需數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)緊耦合起來了促绵。一旦業(yè)務(wù)有變更,風(fēng)控系統(tǒng)也需要調(diào)整嘴纺。

2.?日志

這是風(fēng)控?cái)?shù)據(jù)采集的主要方式败晴。 業(yè)務(wù)方可以將風(fēng)控所需要的數(shù)據(jù)輸出到日志中,風(fēng)控系統(tǒng)對(duì)接日志來異步采集數(shù)據(jù)栽渴。這使得數(shù)據(jù)采集不會(huì)影響業(yè)務(wù)處理主流程尖坤。 這種方式風(fēng)險(xiǎn)在于:

需要規(guī)范日志的格式,否則每個(gè)系統(tǒng)一套日志格式闲擦,會(huì)導(dǎo)致對(duì)接工作量巨大慢味。

保持日志的穩(wěn)定性。一旦代碼被修改墅冷,打印日志的代碼被刪除了纯路,會(huì)導(dǎo)致日志數(shù)據(jù)無法采集的風(fēng)險(xiǎn)。

需要注意日志采集系統(tǒng)的可靠性寞忿。目前主流的采集框架都有可能會(huì)丟失日志驰唬。雖然從我們使用的情況來還未發(fā)生這種事情,但不排除這個(gè)風(fēng)險(xiǎn)腔彰。

從技術(shù)上來說叫编,日志采集的框架主要框架有

ELK(Elastic + Logstash + Kibana), Logstash 駐留在日志輸出端采集日志萍桌,并發(fā)送到Elastic 服務(wù)器上宵溅。 Kibana則是一個(gè)日志分析的工具;

Flume + Kafka + Elastic 上炎。 通過Flume進(jìn)行采集恃逻,輸出到Kafka,匯總到Elastic進(jìn)行存儲(chǔ)藕施。日志分析可以在Elastic上離線非實(shí)時(shí)進(jìn)行寇损,也可以直接對(duì)接Kafka準(zhǔn)實(shí)時(shí)分析,即流處理裳食。 使用Storm 或者Spark都可以矛市。

3.?pingback

Pingback指在頁面上埋入腳本來監(jiān)測(cè)用戶的操作,特別是點(diǎn)擊操作和鍵盤操作诲祸,將檢測(cè)到的用戶行為異步發(fā)送到服務(wù)器端浊吏。這可以偵測(cè)到用戶在頁面停留時(shí)間而昨,鼠標(biāo)點(diǎn)擊的區(qū)域等信息,由此可以推斷用戶偏好找田,情緒等信息歌憨。 pingback的挑戰(zhàn)在于如何在服務(wù)器端應(yīng)對(duì)流量洪峰。pingback數(shù)據(jù)一般不直接入庫墩衙,可以先寫入Kafka务嫡,風(fēng)控系統(tǒng)對(duì)接Kafka來分析pingback數(shù)據(jù)。

三漆改、數(shù)據(jù)特征

用于支持風(fēng)控計(jì)算的最終數(shù)據(jù)心铃,在靜態(tài)與動(dòng)態(tài)數(shù)據(jù)為基礎(chǔ)計(jì)算出來的帶置信度的推算數(shù)據(jù)為主的離散數(shù)據(jù),有點(diǎn)繞口挫剑,我們?cè)敿?xì)分析下這里涉及到的幾個(gè)概念去扣,來說明最終用來支持風(fēng)控計(jì)算的數(shù)據(jù)有什么特征。

1.?靜態(tài)數(shù)據(jù)與動(dòng)態(tài)數(shù)據(jù)

上述采集到的數(shù)據(jù)樊破,大部分是靜態(tài)數(shù)據(jù)厅篓。也就是這些數(shù)據(jù)一旦產(chǎn)生,一般不會(huì)被修改捶码。但在分析時(shí),還需要一些易變的動(dòng)態(tài)數(shù)據(jù)來或链,比如用戶的 年齡惫恼,每天的訪問量,每天消費(fèi)金額等澳盐。

2.?原始數(shù)據(jù)與推算數(shù)據(jù)

不管靜態(tài)還是動(dòng)態(tài)數(shù)據(jù)祈纯,他們都是從用戶輸入或者系統(tǒng)采集的方式產(chǎn)生。但我們知道叼耙,互聯(lián)網(wǎng)的數(shù)據(jù)可靠性是有問題的腕窥。網(wǎng)上千嬌百媚的姑娘,在現(xiàn)實(shí)中可能是一位摳腳大漢筛婉。雖然系統(tǒng)中設(shè)計(jì)了復(fù)雜的表格來收集用戶信息簇爆,但會(huì)提供全部信息的用戶還是很少,大家對(duì)隱私內(nèi)容還是捂得很緊爽撒。

所以入蛆,在進(jìn)行風(fēng)險(xiǎn)計(jì)算前,還需要對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證和補(bǔ)充硕勿。這都需要借助其他數(shù)據(jù)來進(jìn)行推算哨毁,這些數(shù)據(jù)被稱為推算數(shù)據(jù)。推算數(shù)據(jù)和原始數(shù)據(jù)不同之處在于它會(huì)有多個(gè)可能取值源武,每個(gè)值都帶有置信度扼褪。完全可信為100%想幻,不可信為0。置信度總和為1话浇。比如正常情況下脏毯,用戶的性別要么男,要么女凳枝。假如有個(gè)用戶注冊(cè)時(shí)選擇性別女抄沮,但經(jīng)常買刮胡刀,襯衣岖瑰,沒有買過女性用品叛买,那實(shí)際性別為男的置信度就非常高。

3.?離散數(shù)據(jù)與連續(xù)數(shù)據(jù)

這是從屬性值的取值范圍來評(píng)估蹋订。比如用戶每天的訂單額率挣,一般來說是連續(xù)分布的。而性別露戒,職業(yè)椒功,愛好等,是離散值智什。一般來說动漾,離散值更容易做分析處理,刻畫特征荠锭,所以在分析前旱眯,需要對(duì)連續(xù)數(shù)值做離散化處理。

四证九、名單數(shù)據(jù)

名單數(shù)據(jù)是支付風(fēng)控?cái)?shù)據(jù)倉庫中最重要的內(nèi)容删豺。 風(fēng)控系統(tǒng)數(shù)據(jù)倉庫建設(shè),也一般都從名單數(shù)據(jù)開始愧怜。 名單加上簡(jiǎn)單的攔截規(guī)則呀页,已經(jīng)可以解決絕大部分風(fēng)控的問題。就算在更先進(jìn)的風(fēng)控系統(tǒng)中拥坛,名單仍然是風(fēng)控中的基礎(chǔ)數(shù)據(jù)蓬蝶。在評(píng)估事件風(fēng)險(xiǎn)時(shí),名單往往是用來執(zhí)行第一道攔截時(shí)所用的數(shù)據(jù)猜惋。比如用戶交易時(shí)使用的手機(jī)是黑名單中的手機(jī)疾党,則必須終止本次交易。

1. 黑白灰名單

大家都熟知黑名單與白名單惨奕,一個(gè)是必須阻止雪位,一個(gè)是必須放行。 除此之外梨撞,還有灰名單雹洗∠愎蓿灰名單用于對(duì)一些高風(fēng)險(xiǎn)的用戶進(jìn)行監(jiān)控。 這些用戶的行為不是直接阻止时肿,而是延遲交易庇茫,經(jīng)人工確認(rèn)無問題后再放行。

2. 更新周期

相對(duì)其它數(shù)據(jù)來說螃成,名單數(shù)據(jù)的更新頻率不高旦签,按天、周寸宏、月更新都有宁炫,很少有需要實(shí)時(shí)更新的內(nèi)容。對(duì)于手機(jī)號(hào)氮凝,證件號(hào)等名單羔巢,一般可以采取人工更新的策略。每天評(píng)估風(fēng)控?cái)?shù)據(jù)罩阵,對(duì)確認(rèn)有問題的號(hào)碼竿秆,加入到黑名單中。如果采用的是第三方名單稿壁,則需要按照第三方的要求對(duì)名單做更新幽钢。

3.?名單列表

一般來說,風(fēng)控系統(tǒng)需要配置的名單列表有:

(1)個(gè)人名單

如下名單是必備的(后續(xù)會(huì)及時(shí)更新):

央行的反洗錢恐怖分子名單

公安部的通緝犯名單

全國(guó)法院失信被執(zhí)行人名單信息公布與查詢

(2)IP名單

沒有權(quán)威的IP名單傅是。這需要在運(yùn)行中積累搅吁。建立IP名單需要注意如下事項(xiàng):公司內(nèi)部IP,合作伙伴IP可以列入白名單列表落午;手機(jī)運(yùn)營(yíng)商的IP也要做到白名單中,封一個(gè)IP等于封掉一大批手機(jī)號(hào)肚豺;代理服務(wù)器可以列入灰名單溃斋;訪問量大的IP也可能大公司的外網(wǎng)IP,不能僅依賴訪問量來識(shí)別黑IP吸申。

(3)公司名單

必備名單包括央行反洗錢制裁公司名單和工商局失信企業(yè)名單

(4)手機(jī)號(hào)名單

這也沒有權(quán)威數(shù)據(jù)梗劫,電信運(yùn)營(yíng)商也不會(huì)提供此類服務(wù)。支付寶正在推廣這個(gè)服務(wù)截碴,但還沒有公開梳侨。黑名單數(shù)據(jù)需要自主收集。

(5)地域名單

央行公布的聯(lián)合國(guó)反洗錢地區(qū)名單是必須在風(fēng)控時(shí)考慮的名單日丹,其他地域名單也需要自主收集走哺。

(6)協(xié)查名單

公檢法協(xié)查名單,接收到協(xié)查請(qǐng)求后哲虾,將人員全部信息拉黑丙躏。

4. 名單數(shù)據(jù)存儲(chǔ)

名單數(shù)據(jù)在使用上的特點(diǎn):

使用頻率高择示,實(shí)時(shí)性要求高。各種名單匹配基本都需要在線上做實(shí)時(shí)計(jì)算晒旅。

數(shù)據(jù)粒度小栅盲,總量大小不一,但存儲(chǔ)空間需求都不高废恋。大部分名單都是一些號(hào)碼表谈秫,幾個(gè)G的空間都能存儲(chǔ)。

更新頻率低鱼鼓。名單數(shù)據(jù)一般都比較穩(wěn)定拟烫,按天更新

在使用中,名單數(shù)據(jù)一般直接存儲(chǔ)在內(nèi)存中蚓哩,或者使用內(nèi)存數(shù)據(jù)庫(Redis构灸,Couchbase)。關(guān)系型數(shù)據(jù)庫可以用來保存名單數(shù)據(jù)岸梨,但不會(huì)直接被線上應(yīng)用所訪問喜颁,它無法滿足高訪問量的需求。

五曹阔、畫像數(shù)據(jù)

名單數(shù)據(jù)能夠快速發(fā)現(xiàn)用戶在某個(gè)維度上的異常行為半开。在實(shí)際使用中,存在過于簡(jiǎn)單粗暴赃份,一刀切的問題寂拆。比如如果限制單次購買金額為5000元,這個(gè)規(guī)則被試探出來后抓韩,攻擊者會(huì)選擇4999元來規(guī)避這個(gè)限制纠永。畫像技術(shù)則是嘗試從多個(gè)維度來評(píng)估當(dāng)前事件的風(fēng)險(xiǎn)。 比如畫像刻畫某用戶平時(shí)主要在北京地區(qū)登錄谒拴,購買習(xí)慣在10~300元之間尝江。某一天突然發(fā)生一筆在東莞的4999元額度的消費(fèi),那這筆交易就非秤⑸希可疑了炭序。而這種交易通過規(guī)則比較難發(fā)現(xiàn)出來。 支付風(fēng)控涉及的畫像包括用戶苍日、設(shè)備惭聂、商品、地域相恃、操作行為等辜纲。 這里重點(diǎn)介紹用戶、設(shè)備和商品的畫像。

1.?用戶畫像(persona)

用戶畫像是從用戶的角度來刻畫其背景和行為習(xí)慣侨歉,為判定某交易的風(fēng)險(xiǎn)等級(jí)提供支持屋摇。 用戶畫像的內(nèi)容包括但不限于:

人口信息:一般就叫基本信息,主要包括:姓名幽邓、性別炮温、出生日期、出生地牵舵、民族柒啤、星座等。

聯(lián)系方式:家庭地址畸颅、工作地址担巩、手機(jī)、固定電話没炒、緊急聯(lián)系人涛癌、QQ、微信號(hào)等送火。

資產(chǎn)特征:月工資拳话、年收入、工資外收入种吸、房產(chǎn)弃衍、車等

家庭特征:婚姻狀況、是否有小孩坚俗、小孩關(guān)聯(lián)镜盯、家庭成員等

交易偏好:交易頻率(總計(jì)、年猖败、月速缆、日)、交易金額(總計(jì)恩闻、年艺糜、月、日)判呕、常用賬戶、交易時(shí)間偏好送滞、交易地點(diǎn)偏好侠草、交易所使用設(shè)備、交易物品犁嗅、交易物品所屬類別等边涕。

行為特征,這是和業(yè)務(wù)相關(guān)的特征。比如對(duì)于電商功蜓,關(guān)注 用戶瀏覽的物品园爷、瀏覽的物品類別、購買的物品等式撼。而對(duì)于視頻網(wǎng)站童社,則關(guān)注用戶查看的視頻、觀影時(shí)長(zhǎng)著隆、類別偏好扰楼、觀影地點(diǎn)偏好等信息。

對(duì)于已登錄用戶美浦,可以使用用戶ID來識(shí)別并做畫像弦赖,但對(duì)未登錄用戶,系統(tǒng)需要通過設(shè)備來識(shí)別浦辨。

2.?設(shè)備畫像

一個(gè)用戶配備多臺(tái)智能設(shè)備已經(jīng)是很常見的事情了蹬竖。手機(jī),PAD流酬,筆記本币厕,臺(tái)式機(jī),都是常用的設(shè)備康吵。用戶在不同的設(shè)備上的行為往往是不一樣的劈榨。有人偏好在電腦上尋找要購買的商品,卻最終使用手機(jī)來下單晦嵌,因?yàn)槭謾C(jī)支付更便捷同辣。 對(duì)設(shè)備進(jìn)行畫像,和用戶畫像類似惭载,實(shí)際上是刻畫使用設(shè)備的用戶的特征旱函。 此外,對(duì)于未登錄用戶描滔,由于無法標(biāo)識(shí)棒妨,也只能通過設(shè)備來代表這個(gè)用戶。設(shè)備畫像關(guān)注如下信息:

設(shè)備信息含长,包括設(shè)備類型券腔、型號(hào)、屏幕大小拘泞、內(nèi)存大小纷纫、CPU類型、購買時(shí)間陪腌、購買時(shí)價(jià)格辱魁、現(xiàn)在價(jià)格等烟瞧。

交易偏好,同用戶畫像染簇;

行為特征参滴,同用戶畫像。

對(duì)設(shè)備畫像來說锻弓,生成一個(gè)能唯一識(shí)別該設(shè)備的標(biāo)識(shí)砾赔,即設(shè)備指紋,是數(shù)據(jù)采集中的一個(gè)挑戰(zhàn)弥咪。設(shè)備指紋具有如下特點(diǎn)

唯一性过蹂,每臺(tái)機(jī)器的指紋都不同,不能重復(fù)聚至。

一致性酷勺,機(jī)器指紋在一臺(tái)機(jī)器上是唯一的,不同應(yīng)用扳躬,不同登錄用戶中取到的指紋都是一樣的脆诉。

穩(wěn)定性,指紋不會(huì)隨時(shí)間變更贷币,不會(huì)由于外圍設(shè)備變更而變更击胜。重裝應(yīng)用,重裝操作系統(tǒng)也應(yīng)該保持不變役纹。

我們將在專門的主題中介紹如何生成設(shè)備指紋偶摔。

3.?商品畫像

商品畫像是從商品的角度來刻畫購買或者擁有該商品的人的特性。

基本特征:名稱促脉,價(jià)格辰斋,類別,是否虛擬資產(chǎn)瘸味,上架時(shí)間宫仗,下架時(shí)間等

促銷信息:價(jià)格,開始時(shí)間旁仿,截止時(shí)間

購買者特征:偏離這個(gè)特征越多藕夫,風(fēng)險(xiǎn)越大。購買時(shí)間分布枯冈,地點(diǎn)分布毅贮,價(jià)格分布,數(shù)量分布尘奏,年齡分布滩褥,性別分布等。

4.?畫像數(shù)據(jù)存儲(chǔ)

畫像數(shù)據(jù)有如下特點(diǎn):

數(shù)據(jù)粒度大罪既。一個(gè)用戶的畫像數(shù)據(jù)铸题,成百上千個(gè)維度都正常。

大部分?jǐn)?shù)據(jù)都是推算數(shù)據(jù)琢感,也就是數(shù)據(jù)格式是帶置信度的丢间,比如 {性別: 男,80%驹针;女烘挫,20%};

每個(gè)維度的數(shù)據(jù)一般最終都需要離散化,比如年齡柬甥,雖然0~150的取值區(qū)間還不算稀疏饮六,一般還會(huì)將年齡再分段。

數(shù)據(jù)量大苛蒲。考慮到匿名用戶和設(shè)備卤橄,上千萬規(guī)模的注冊(cè)用戶,匿名用戶和設(shè)備會(huì)在數(shù)十億規(guī)模的量級(jí)臂外。

數(shù)據(jù)結(jié)構(gòu)不穩(wěn)定窟扑。根據(jù)業(yè)務(wù)需要會(huì)頻繁添加新的數(shù)據(jù)維度,甚至添加新實(shí)體進(jìn)來漏健。

數(shù)據(jù)更新頻繁嚎货。采用推算數(shù)據(jù),每天不僅僅要計(jì)算新增數(shù)據(jù)蔫浆,也需要重新計(jì)算現(xiàn)有數(shù)據(jù)的維度權(quán)重殖属。

數(shù)據(jù)訪問頻率高。交易時(shí)計(jì)算權(quán)重瓦盛,也需要使用畫像數(shù)據(jù)洗显。

很難有一個(gè)數(shù)據(jù)庫能夠同時(shí)滿足上述的需求。畫像數(shù)據(jù)存儲(chǔ)需要綜合采用多種數(shù)據(jù)庫來滿足不同應(yīng)用上的需求谭溉。

數(shù)據(jù)寫入庫墙懂, 需要支持?jǐn)?shù)據(jù)批量、快速地寫入扮念,Hbase是個(gè)不錯(cuò)的選擇损搬。

數(shù)據(jù)讀取庫,需要支持?jǐn)?shù)據(jù)高速讀取柜与, couchbase可以滿足這個(gè)需求巧勤。但couchbase不能存儲(chǔ)所有數(shù)據(jù),這樣成本太高弄匕。 可以把couchbase作為HBase的緩存來使用颅悉。

寫庫和讀庫之間的數(shù)據(jù)同步∏ń常可以根據(jù)業(yè)務(wù)量選取合適的消息隊(duì)列剩瓶。每天更新的數(shù)據(jù)規(guī)模在百萬及其以下驹溃,ActiveMQ可以滿足需求;而上千萬的數(shù)據(jù)延曙,則需要使用Kafka豌鹤。

六、知識(shí)圖譜

畫像是從群體和個(gè)體的統(tǒng)計(jì)角度評(píng)估事件的風(fēng)險(xiǎn)枝缔,而圖譜則更進(jìn)一步布疙,從關(guān)系的角度來評(píng)估風(fēng)險(xiǎn)。 知識(shí)圖譜是由Google提出來并應(yīng)用到搜索引擎上愿卸,其后在多個(gè)領(lǐng)域都得到很好的應(yīng)用灵临。 交易是一種社會(huì)行為,所以從關(guān)系的角度來評(píng)估這個(gè)行為趴荸,能夠更精確的了解行為中存在的風(fēng)險(xiǎn)儒溉。一個(gè)簡(jiǎn)單的例子,如果發(fā)現(xiàn)A是高風(fēng)險(xiǎn)的用戶发钝,而通過社交圖譜分析睁搭,發(fā)現(xiàn)A經(jīng)常和B有交易關(guān)系, 那B的風(fēng)險(xiǎn)等級(jí)也相應(yīng)地會(huì)被調(diào)高笼平。

圖譜在本質(zhì)上是一個(gè)語義網(wǎng)絡(luò)园骆, 是一種基于圖的數(shù)據(jù)結(jié)構(gòu), 它由點(diǎn)和邊組成的寓调。點(diǎn)代表一個(gè)實(shí)體锌唾,如人、公司夺英、電話晌涕、商品、地址等痛悯,邊代表實(shí)體之間的關(guān)系余黎。

如上所示, 如果A和B兩人之間是夫妻關(guān)系载萌, 則在圖中惧财, A和B分別被用一個(gè)節(jié)點(diǎn)來標(biāo)識(shí), 稱為實(shí)體扭仁,他們的關(guān)系是 is_wife_of垮衷。對(duì)電話、出生日期乖坠、出生地點(diǎn)搀突、公司等,也可以使用這種方式來表示熊泵。 圖譜的表達(dá)能力仰迁,不僅在于描述實(shí)體之間的關(guān)系甸昏,而且通過關(guān)系還可以推理出潛在的進(jìn)一步關(guān)系。 比如A是B的母親筒扒, A是C的妻子, 則有很大的概率可以推斷出來C是B的父親。 支付風(fēng)控需要像建立畫像一樣建立圖譜,需要支持包括人,機(jī)構(gòu),地區(qū)冤议,日期蕊温,電話按灶,手機(jī)號(hào),設(shè)備,商品等實(shí)體,以及實(shí)體之間的關(guān)系。圖譜數(shù)據(jù)源也是和畫像一樣司忱。此外繁扎,還有一些互聯(lián)網(wǎng)數(shù)據(jù)也有利于建立圖譜 百度百科锻离,有很不錯(cuò)的公司铺峭,明星,電影汽纠,音樂等信息卫键,一般僅限于國(guó)內(nèi)或者中文版本的資料。由于編審并不嚴(yán)謹(jǐn)虱朵,數(shù)據(jù)質(zhì)量不高莉炉。 wiki,有各種語言的版本碴犬,提供各種領(lǐng)域的實(shí)體絮宁,參與的專業(yè)人士多,質(zhì)量較高服协。 各專業(yè)數(shù)據(jù)庫绍昂,

知識(shí)圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲(chǔ)主要是使用圖數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫和Hbase等nosql數(shù)據(jù)庫在處理圖的關(guān)系以及關(guān)系計(jì)算上性能較差窘游,需要專用的圖數(shù)據(jù)庫唠椭,當(dāng)前主要的圖數(shù)據(jù)庫有neo4j,Titan,Jena等忍饰。neo4j是使用最多的圖數(shù)據(jù)庫贪嫂,而且可以和spark graph集成,方便對(duì)圖譜數(shù)據(jù)做處理艾蓝。

七力崇、總結(jié)

總結(jié)一下,本文將風(fēng)控系統(tǒng)所需要的數(shù)據(jù)分為名單赢织、畫像和圖譜三個(gè)主題亮靴,這三個(gè)主題也對(duì)應(yīng)了風(fēng)控系統(tǒng)發(fā)展的不同的階段。這里列出了每個(gè)階段所需要的典型數(shù)據(jù)敌厘,以及這些數(shù)據(jù)會(huì)如何存儲(chǔ)。風(fēng)控系統(tǒng)會(huì)如何使用這些數(shù)據(jù)朽合,將下一篇博文中分享俱两。

系列文章

支付風(fēng)控系統(tǒng)設(shè)計(jì):支付風(fēng)控場(chǎng)景分析(一)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市曹步,隨后出現(xiàn)的幾起案子宪彩,更是在濱河造成了極大的恐慌,老刑警劉巖讲婚,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尿孔,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡筹麸,警方通過查閱死者的電腦和手機(jī)活合,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來物赶,“玉大人白指,你說我怎么就攤上這事〗妥希” “怎么了告嘲?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)奖地。 經(jīng)常有香客問我橄唬,道長(zhǎng),這世上最難降的妖魔是什么参歹? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任仰楚,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘缸血。我一直安慰自己蜜氨,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布捎泻。 她就那樣靜靜地躺著飒炎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪笆豁。 梳的紋絲不亂的頭發(fā)上郎汪,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音闯狱,去河邊找鬼煞赢。 笑死,一個(gè)胖子當(dāng)著我的面吹牛哄孤,可吹牛的內(nèi)容都是我干的照筑。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼瘦陈,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼凝危!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起晨逝,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤蛾默,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后捉貌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體支鸡,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年趁窃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了牧挣。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡醒陆,死狀恐怖浸踩,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情统求,我是刑警寧澤检碗,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站码邻,受9級(jí)特大地震影響折剃,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜像屋,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一怕犁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦奏甫、人聲如沸戈轿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽思杯。三九已至,卻和暖如春挠进,著一層夾襖步出監(jiān)牢的瞬間色乾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工领突, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留暖璧,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓君旦,卻偏偏與公主長(zhǎng)得像澎办,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子金砍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容