打造線上的大數(shù)據(jù)風(fēng)控绪励,我們發(fā)現(xiàn)了這三個坑創(chuàng)事記新浪科技_新浪網(wǎng)
http://tech.sina.com.cn/zl/post/detail/i/2016-12-07/pid_8509284.htm
談"線上大數(shù)據(jù)風(fēng)控" - 創(chuàng)業(yè)就業(yè) - 人在海外 - 美國華裔教授專家網(wǎng) ScholarsUpdate.com
http://scholarsupdate.hi2net.com/news.asp?NewsID=22092
文/粘旻環(huán)
今年10月渴肉,我在羅敏的邀請下從美國回到了國內(nèi)淫僻,在這之前答毫,我一直都在美國的商業(yè)銀行Capital One工作挣饥。
在美國期間锚赤,我也在關(guān)注中國的消費金融市場题翻。一方面宽涌,中國這幾年在Fintech領(lǐng)域的突破令全世界都嘆為觀止平夜,對全球的金融機構(gòu)來說,“中國Fintech”都是一個很好的研究樣本卸亮。另一方面忽妒,有很多我在美國的同事在近幾年陸陸續(xù)續(xù)的回國投身到了金融創(chuàng)新的大潮中,我們有一個微信群,也會經(jīng)常在群里面交流锰扶,這也成了我了解中國金融現(xiàn)狀的另外一個通道献酗。
在回國的這一個多月里,我跟我現(xiàn)在的同事有過很多的交流坷牛。這是一個很能打仗的團隊罕偎,他們在一年半的時間內(nèi)已經(jīng)基本上完成了將線下風(fēng)控搬到線上的目標(biāo)。
風(fēng)控由線下轉(zhuǎn)到線上是一個大趨勢京闰,對這一點我在之后的文章會探討颜及。但線上大數(shù)據(jù)風(fēng)控的搭建需要長期的完善過程,不論從我們個體還是整個行業(yè)來看蹂楣,大數(shù)據(jù)風(fēng)控都還有許多的坑需要我們?nèi)ヌ睢?/p>
第一個坑是具有中國特色的團伙欺詐難題俏站。
目前國內(nèi)的信用市場,反欺詐仍然是頭號難題痊土,而授信將會被作為長期的目標(biāo)逐步完善肄扎。當(dāng)然,我提到中國特色反欺詐并不意味國外就沒有欺詐赁酝,只不過各地的犯罪分子會“因地制宜”的制定不同的欺詐策略使得欺詐更容易得手犯祠。
在Capital One的時候,我們會對欺詐進行分類酌呆,比如說有first-party fraud以及third-party fraud衡载。
所謂的first-party fraud是指欺詐主體就是犯罪分子自己,沒有第三方受害者隙袁,犯罪分子會用虛假的信息來偽裝成好人然后獲取信用痰娱。在美國,曾經(jīng)很常用的一種first-party fraud手段是虛假信息養(yǎng)號菩收。
美國的銀行調(diào)用傳統(tǒng)征信機構(gòu)數(shù)據(jù)時梨睁,如果能發(fā)現(xiàn)某個人的信用記錄,那就會默認(rèn)這個人存在娜饵。犯罪分子會利用這一點而姐,先制造多個假的名字和身份去申請信用貸款或成為主賬號的授權(quán)用戶,初期他們很可能會被拒絕划咐,但這些假的身份信息已經(jīng)被記錄在案拴念,而且他的信用等級也有可能會隨著時間的推移而逐漸好轉(zhuǎn)。接下來褐缠,他可能會去申請一些小額的次級信貸政鼠,比如抵押300美元,獲得500美元的貸款队魏,如果他表現(xiàn)良好公般,信用等級會進一步提高万搔。在把賬號逐漸養(yǎng)肥了以后,這些犯罪分子會申請高額度的貸款然后跑路官帘。
而third-party fraud是指犯罪分子將自己偽裝成別人來欺詐瞬雹,也就是盜用別人的信用身份。在國外最猖獗的一種欺詐方式是交易欺詐刽虹,比如說信用卡盜用酗捌。國外的信用卡非常普及,犯罪分子可能會利用黑客技術(shù)去盜用信息復(fù)制卡片涌哲,然后刷卡跑路胖缤。這種詐騙的危險性很高,如果你不在交易當(dāng)時就阻止他阀圾,之后就很難追回被欺詐的錢款哪廓。這種欺詐在國內(nèi)也有過相關(guān)的記錄,但數(shù)量比較少初烘。
[1.jpg]
黑客問題始終在威脅美國信用卡用戶
中國特色的欺詐特點是有組織的黑產(chǎn)軍團涡真,直接與商家短兵相接,一有不慎肾筐,商家就損失慘重综膀。
針對first-party fraud,我們現(xiàn)在有比較完善的解決方案局齿,主要是采用人臉動靜態(tài)識別,手機實名識別橄登,筆跡識別等一系列的手段抓歼,讓你證明“你是你”,然后通過自有和第三方的詐騙黑名單拢锹,將一系列有詐騙嫌疑的用戶剔除谣妻。但有的詐騙老手可能已經(jīng)知道自己在黑名單里面了,他在填寫信息時會采用更改敏感信息的方式來欺騙數(shù)據(jù)庫卒稳,這個時候我們需要用到機器學(xué)習(xí)里面的模糊匹配蹋半,用一些關(guān)鍵詞的變種去捕捉用戶的真實身份。更高級的方式是進行用戶網(wǎng)絡(luò)畫像充坑,根據(jù)用戶的地址减江、電話、社交圈等等屬性捻爷,以一個個人為點辈灼,形成一個復(fù)雜的用戶網(wǎng)絡(luò)。每個人在他的網(wǎng)絡(luò)里會有一些活躍的因素也榄,如果你的網(wǎng)絡(luò)里面欺詐的指數(shù)比其他的網(wǎng)絡(luò)要高巡莹,那就可以判斷你的欺詐指數(shù)比較高。
真正棘手的問題在于團伙作案的third-party fraud。比較常見的一種方式是刷單詐騙:詐騙分子以付費刷單為由找到我們的用戶降宅,讓用戶下單以后將借到的錢或買的貨轉(zhuǎn)給他骂远,并保證借款不需要由用戶來還,但事實上腰根,詐騙分子在拿到借款以后就會跑路激才,還款以及逾期都壓到了用戶的頭上。這樣的案例唠雕,跟銀行儲蓄用戶被欺詐轉(zhuǎn)賬實際上是同樣的性質(zhì)贸营,行業(yè)內(nèi)的多家企業(yè)都已經(jīng)受到侵害,從根本上看岩睁,這不僅僅是線上風(fēng)控的問題钞脂,線下風(fēng)控團隊也難以規(guī)避,因為找到我們借款的用戶用的都是真實的信息捕儒,我們給用戶的額度也在合理的范圍內(nèi)冰啃,這樣的詐騙方式會讓平臺處于很被動的處境。
現(xiàn)在的處理方式只能是發(fā)現(xiàn)一起就抓一起刘莹,發(fā)生之后處理的速度是關(guān)鍵阎毅。但之后,我們會采用更主動的方式來防御点弯。目前扇调,我們在搜集我們自己和同行們遇到的相關(guān)案例,尋找這部分容易被利用的人群身上的共性抢肛。在有足夠的樣本以后狼钮,我們可以梳理出這些用戶的畫像,并建立相關(guān)的風(fēng)控模型捡絮。在以后熬芜,我們將不僅僅是守株待兔,更可以主動出擊福稳,對有被欺詐風(fēng)險的用戶主動做出提醒涎拉、溝通確認(rèn)或暫緩貸款的規(guī)避措施。
第二個坑是系統(tǒng)和數(shù)據(jù)沒經(jīng)過壓力測試的圆。
硬件產(chǎn)品在出廠之前往往要經(jīng)過壓力測試鼓拧,例如蘋果手機在發(fā)布前會抽樣進行摔落、重壓越妈、扭曲毁枯、敲擊等一系列的折磨,以保障產(chǎn)品在真實使用過程中的高度可靠叮称。
風(fēng)控系統(tǒng)也一樣种玛,我們在搭建風(fēng)控系統(tǒng)時要考慮可能會面臨的各種經(jīng)濟狀況藐鹤,以保障風(fēng)控的有效性。而我們的大數(shù)據(jù)概念赂韵,是近幾年才建立起來的娱节,客觀來說,現(xiàn)在的大數(shù)據(jù)并不全面祭示,無法覆蓋到所有的經(jīng)濟情況肄满。這個時候,更多的是需要風(fēng)控專家的經(jīng)驗质涛,保證風(fēng)控系統(tǒng)在經(jīng)濟環(huán)境發(fā)生變化時不會突然失控稠歉。
我在Capital One的時候,曾經(jīng)經(jīng)歷過風(fēng)控突然失靈的狀況汇陆。我們在搭建風(fēng)控模型初期怒炸,曾經(jīng)把剛畢業(yè)的用戶是否申請了學(xué)生貸款作為一個重要的參數(shù)。理論上來說毡代,學(xué)生申請學(xué)生貸款阅羹,通常是為了就讀高花費的學(xué)位,例如MBA教寂。畢業(yè)后捏鱼,這些學(xué)生也往往能獲得華爾街和硅谷名企的offer,是一個受到高等教育同時擁有高收入的群體酪耕,因此風(fēng)險相對較小导梆。在很長的一段時間內(nèi),他們的風(fēng)控表現(xiàn)的確符合我們的預(yù)期迂烁。
然而看尼,這個參數(shù)在2008年金融危機時期突然失效了,雖然那段時間美國整體的逾期率都有上升婚被,但這部分曾經(jīng)的優(yōu)質(zhì)用戶逾期率上升幅度遠(yuǎn)大于平均值。我們在分析時發(fā)現(xiàn)梳虽,這部分用戶在雙重經(jīng)濟壓力下導(dǎo)致信用崩潰址芯。美國失業(yè)率在2009年10月上升到10.2%,是1983年以來的最高失業(yè)率窜觉,是危機前失業(yè)率的兩倍谷炸。而這部分高學(xué)歷學(xué)生所向往的金融行業(yè)是失業(yè)高發(fā)行業(yè),他們在畢業(yè)后面臨著非常嚴(yán)苛的就業(yè)環(huán)境禀挫,同時旬陡,他們在畢業(yè)后也面臨著償還高額的學(xué)生貸款。雙重壓力使他們的還款能力大幅下降语婴。
[1.jpg]
經(jīng)濟危機中描孟,雷曼兄弟破產(chǎn)
我們發(fā)現(xiàn)這個問題后也想做一些模型上的改動驶睦,但發(fā)現(xiàn)這將會牽扯太多的因素,修改周期內(nèi)也會產(chǎn)生更多的損失匿醒,最后我們強行加了一個算法场航,有學(xué)生貸款的用戶在進風(fēng)控之前就先砍掉,先止損然后逐步改進算法廉羔。
我們國內(nèi)的風(fēng)控也面臨著同樣甚至更大的風(fēng)險溉痢,美國經(jīng)歷過的金融危機我們并沒有經(jīng)歷過,但這不能保證以后不會發(fā)生憋他。這要求我們在做風(fēng)控時要考慮更多的細(xì)節(jié)孩饼,更有預(yù)見性和前瞻性。但這件事情同時也充滿了挑戰(zhàn)竹挡,大數(shù)據(jù)的維度太多镀娶,要在哪些維度上深入探究才能起到最好的防范效果,需要進行長期的測試此迅。
第三個坑是高速發(fā)展過程中的模型搭建問題汽畴。
中國的Fintech市場經(jīng)歷過一段搶用戶的時期,高速的增長意味著我們沒有時間先給風(fēng)控體系做出規(guī)劃耸序,而往往是走一步忍些,看需要什么樣的算法,然后進行開發(fā)坎怪、測試罢坝。
這樣的風(fēng)控做法很符合互聯(lián)網(wǎng)思維:快速試錯、快速糾偏搅窿。我們能這樣做也是基于現(xiàn)在業(yè)務(wù)小額嘁酿、短周期的特點,而這樣的打法也有利于我們快速的做出決策男应。從逾期率等一系列業(yè)務(wù)指標(biāo)來看闹司,這樣的風(fēng)控很適合我們現(xiàn)在的業(yè)務(wù)模式。但從長期來看沐飘,長期的游桩、中大額的借貸肯定是我們要發(fā)展的方向,在開展這類業(yè)務(wù)時耐朴,目前的風(fēng)控將面臨很多的問題借卧。
首先,我們的系統(tǒng)不是一個有條理性的系統(tǒng)筛峭。我們在用戶的注冊铐刘、審核、消費等階段都會有反欺詐∮跋現(xiàn)在的做法是镰吵,如果發(fā)現(xiàn)風(fēng)控結(jié)果有偏差檩禾,就會逐個階段去測試相關(guān)參數(shù),用第三方的數(shù)據(jù)加在上面捡遍,去看結(jié)果锌订。然而,我們在打造風(fēng)控時并沒有按照一個邏輯順序來設(shè)計画株,而是需要什么算法辆飘,就在外面嵌套一層,從結(jié)構(gòu)上來看谓传,就像一鍋大雜燴蜈项,所有的算法都混雜在一起,沒有主次優(yōu)先续挟。
其次紧卒,這個系統(tǒng)是龐雜而混亂的,我們沒有一個人能完完整整的推理出目前風(fēng)控系統(tǒng)的邏輯诗祸,它是如何運轉(zhuǎn)的跑芳,又是怎樣實現(xiàn)這樣的算法。這導(dǎo)致的問題是直颅,一旦我們的業(yè)務(wù)轉(zhuǎn)向長期和大額博个,在遇到問題時去調(diào)整時會很吃力,效率也會很低功偿。因為你要看的不只是未來的一兩個月盆佣,而是未來一兩年,甚至更長的風(fēng)控狀況械荷。我們不知道哪些數(shù)據(jù)是在緊急情況中最核心的共耍,我們也不知道一個策略會產(chǎn)生一個什么樣的影響。
為了解決這個問題吨瞎,我們已經(jīng)開始著手進行系統(tǒng)梳理痹兜。我們要做的是把現(xiàn)在的風(fēng)控引擎進行拆分,梳理出所有的策略模型颤诀,然后用模塊化的方式架構(gòu)起來字旭。之后,每個風(fēng)控模塊有自己獨立的功能着绊,模塊之間的架構(gòu)也不是一層套一層谐算,而是像積木一樣熟尉,以API的形式來連接归露。當(dāng)主體邏輯判斷某個用戶的審核需要某個模塊時,引擎會自己調(diào)用斤儿。
這樣模塊化的風(fēng)控引擎有三個優(yōu)點:
首先剧包,在每個客戶每個階段的風(fēng)控審核中恐锦,風(fēng)控引擎的作用將會非常明晰,有利于對用戶分級的進一步細(xì)化〗海現(xiàn)在一铅,我們根據(jù)多個維度給用戶做了近千層的分級,但這樣的分級還是太過粗略堕油,我們真正的目標(biāo)是要做到微分層潘飘,細(xì)化到每個用戶個體,這可以通過每個用戶調(diào)用不同的模塊實現(xiàn)掉缺。
其次卜录,風(fēng)控系統(tǒng)出現(xiàn)問題時,我們可以快速定位出現(xiàn)問題的模塊眶明,修改將會更有目的性艰毒。
最后,系統(tǒng)的進化將更為便捷快速搜囱。新的算法和模塊可以獨立開發(fā)丑瞧,即插即用,而不會出現(xiàn)牽一發(fā)而動全身的情況蜀肘。
總結(jié):
這三個坑是我回國以后需要解決的課題绊汹,從目前的情況來看,國內(nèi)的Fintech行業(yè)前景還是非常樂觀幌缝。中國的大數(shù)據(jù)風(fēng)控不論在實用性還是開放性上灸促,都要優(yōu)于國外,企業(yè)也愿意投入更多的資金來促進技術(shù)的進步涵卵,這都為我們行業(yè)的發(fā)展提供了充足的動力浴栽。
文/粘旻環(huán) 趣店集團首席風(fēng)控官