面對團隊騙貸的解決辦法:設(shè)備指紋以及關(guān)系網(wǎng)絡(luò)模型
1.設(shè)備指紋:
相對于cookie,設(shè)備指紋具備不受瀏覽器兼容性限制、用戶無法修改羊壹、不會被瀏覽器清除、可跨應(yīng)用追蹤等諸多優(yōu)點齐婴,可謂集美貌與智慧于一身油猫,在網(wǎng)絡(luò)營銷、反欺詐等領(lǐng)域應(yīng)用廣泛柠偶。
設(shè)備指紋也有門派之分情妖,其中主動式發(fā)展最早、技術(shù)門檻相對較低诱担,因而目前應(yīng)用比被動式和混合式兩種更為廣泛毡证。
但即便如此,主動式設(shè)備指紋的應(yīng)用也十分復雜蔫仙,需要收集諸多信息才能保證設(shè)備識別的準確性料睛,如MAC地址、設(shè)備IMEI號摇邦、廣告跟蹤ID恤煞、設(shè)備唯一序列號、地理位置等等施籍。
這種主動式設(shè)備指紋技術(shù)有其特有的優(yōu)點和適用場景居扒,但其缺陷也相當突出。
首先法梯,存在明顯的用戶隱私侵犯苔货,并因此可能導致被Google和蘋果Apple Store下架犀概。 舉個例子,金融夜惭、支付行業(yè)中有很多業(yè)務(wù)場景對于用戶隱私的保護要求很高姻灶,就無法使用主動式設(shè)備指紋做設(shè)備識別。
其次诈茧,主動式指紋不能實現(xiàn)App和mobile web間产喉,不同瀏覽器間的設(shè)備識別。主動式設(shè)備指紋對于需要跨網(wǎng)頁/應(yīng)用追蹤用戶行為的場景敢会,比如追蹤App安裝究竟來自哪個廣告渠道曾沈,就無能為力。
另外鸥昏,主動式設(shè)備指紋所取特征均暴露于客戶端塞俱,欺詐者可輕易通過一些一鍵新機等工具篡改相應(yīng)特征信息,從而使指紋無效吏垮。
最新的被動式設(shè)備指紋技術(shù)障涯,從數(shù)據(jù)包的OSI七層協(xié)議中,提取出這臺設(shè)備的操作系統(tǒng)膳汪、協(xié)議棧和網(wǎng)絡(luò)狀態(tài)相關(guān)的特征唯蝶,并結(jié)合機器學習算法以標識和跟蹤具體的移動設(shè)備。相比于主動式設(shè)備指紋技術(shù)遗嗽,被動式設(shè)備指紋技術(shù)在適用范圍和靈活性上粘我,有著不可比擬的優(yōu)勢:
1)更大的適用范圍,由于被動式設(shè)備指紋技術(shù)完全工作在服務(wù)器側(cè)痹换,一些無法植入SDK或JS的場景也可使用征字;
2)跨Web/App,跨瀏覽器的識別;
3)完全不侵犯用戶隱私晴音,避免了被AppStore下架的風險柔纵。
2.關(guān)系網(wǎng)絡(luò)反欺詐技術(shù):
利用關(guān)系網(wǎng)絡(luò),通過無監(jiān)督學習算法锤躁,挖掘詐騙團伙的特征搁料,從而識別詐騙團伙的反欺詐技術(shù)。
一種最常用的反欺詐模型系羞,是通過建立一個規(guī)則引擎或者機器學習模型來描述欺詐行為的特征郭计,從而將欺詐行為從正常操作中區(qū)別開來。在反欺詐規(guī)則引擎中椒振,這些甄別欺詐行為的規(guī)則依賴于從大量歷史案例中總結(jié)出來的“專家知識”昭伸。例如,如果一個人申請貸款所用的手機號與其常用的手機號不一致澎迎,則這筆申請的欺詐風險就被認定稍高一些庐杨。
另一種則是反欺詐機器學習模型选调,它指的是采用數(shù)據(jù)挖掘方法,基于歷史數(shù)據(jù)(即灵份,已知的欺詐申請和正常申請的數(shù)據(jù))而建立的分類模型仁堪。這類模型的訓練往往需要大量數(shù)據(jù)。
兩者有何區(qū)別填渠?上面提到的規(guī)則引擎可以看作是一種特殊的最簡單的機器學習模型:決策樹模型弦聂。決策樹模型具有極好的可解釋性,因而氛什,即使數(shù)據(jù)量不足莺葫,也可以通過專家知識來補全規(guī)則集。而廣義上的反欺詐機器學習模型往往指的是采用更復雜的算法建立的模型(如隨即森林枪眉、深度學習等)捺檬。這些模型的訓練需要大量的歷史數(shù)據(jù)并且其結(jié)果通常很難解讀。
不論是規(guī)則引擎還是機器學習模型瑰谜,都是從歷史案例中發(fā)現(xiàn)金融欺詐時重復出現(xiàn)的個體行為模式欺冀。這個方法在很多領(lǐng)域被證明為有效(例如树绩,用于審核個人還款能力意愿的信用評分模型)萨脑,然而在解決金融欺詐問題時表現(xiàn)一般, 原因有兩個:
其一饺饭,金融欺詐的模式隨時間不斷演化和發(fā)展渤早,而不僅僅是重復出現(xiàn)在歷史案例中的個體行為模式;
其二瘫俊,隨著反欺詐技術(shù)的進步鹊杖,金融欺詐越來越難以由個體完成,而是需要通過團伙有組織的進行扛芽。
關(guān)系網(wǎng)絡(luò)提供了全新的反欺詐分析角度
基于上述金融欺詐發(fā)生的兩個特點骂蓖,采用關(guān)系網(wǎng)絡(luò)進行反欺詐檢測變得越來越重要。關(guān)系網(wǎng)據(jù)指的是一種基于圖的數(shù)據(jù)結(jié)構(gòu)川尖,由節(jié)點和邊組成登下,如下圖1所示。每個節(jié)點代表一個個體叮喳,每條邊為個體與個體之間的關(guān)系被芳。關(guān)系網(wǎng)絡(luò)把不同的個體按照其關(guān)系連接在一起,從而提供了從“關(guān)系”的角度分析問題的能力馍悟。這更有利于從正常行為中識別出到異常的團伙欺詐行為畔濒。
關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)取決于如何定義個體與個體之間的關(guān)系。如果人與人存在“關(guān)系”指的是彼此認識锣咒,那么最終的網(wǎng)絡(luò)結(jié)構(gòu)將是一個無標度網(wǎng)絡(luò)侵状,其典型特征是在網(wǎng)絡(luò)中的大部分節(jié)點只和很少節(jié)點連接赞弥,而有極少的節(jié)點與非常多的節(jié)點連接。如果將“關(guān)系”定義為親屬關(guān)系趣兄,則最終的網(wǎng)絡(luò)結(jié)構(gòu)將是一個個非連通的子圖嗤攻,每個子圖代表一個家族。
在解決實際問題的時候诽俯,關(guān)系的定義需要依據(jù)業(yè)務(wù)需求并且常常極為復雜妇菱。例如,某市公安局為了摸清犯罪嫌疑人的團伙暴区,定義了24種人與人之間的關(guān)系闯团。在反欺詐領(lǐng)域,如何定義“關(guān)系”更是需要保密仙粱,這是為了避免欺詐團伙采取針對性地防范策略房交,本文對這部分內(nèi)容就不做過多的說明了。
圖2展示了由從某一線城市抽樣的20,000余條貸款申請數(shù)據(jù)所構(gòu)成的關(guān)系網(wǎng)絡(luò)伐割。因為所定義的“關(guān)系”均為強關(guān)系候味,所以圖的結(jié)構(gòu)不是一個連通的無標度網(wǎng)絡(luò),而是由一個個孤立的“團”組成的網(wǎng)絡(luò)隔心。其中白群,大部分的“團”由兩個個體組成,他們之間通過某種關(guān)系相連硬霍。個別的“團”是由幾十甚至上百個體組成的具有復雜結(jié)構(gòu)的網(wǎng)絡(luò)帜慢。
網(wǎng)絡(luò)分析在反欺詐中的獨道運用:
接下來,我們來討論關(guān)系網(wǎng)絡(luò)在反欺詐中的應(yīng)用場景唯卖,主要分為監(jiān)督模型和無監(jiān)督模型兩種情況粱玲。所謂的監(jiān)督模型,指的是在已知“好”和“壞”標簽的前提下拜轨,嘗試從歷史數(shù)據(jù)中抽减,挖掘出欺詐團伙的典型特征和行為模式,從而能夠有效的識別出金融欺詐團伙橄碾。監(jiān)督模型雖然在預測準確性上有不錯的表現(xiàn)卵沉,但是,實際情況中堪嫂,“好”和“壞”的標簽往往很難得到偎箫。因此,在沒有標簽信息時皆串,無監(jiān)督模型分析也變得尤為重要淹办。當然,本文提到的分析方法只是關(guān)系網(wǎng)絡(luò)在反欺詐場景中的冰山一角恶复,更多的算法模型需要結(jié)合實際業(yè)務(wù)需求進行設(shè)計和開發(fā)怜森。
典型運用一:異常檢測
異常檢測是在無監(jiān)督模型學習中比較有代表性的方法速挑,即在數(shù)據(jù)中找出具有異常性質(zhì)的點或團體。在檢測欺詐團體的情況下副硅,異常檢測被認為是比較有效果的姥宝。以貸款申請為例,許多團伙會選擇共享一些申請信息恐疲,如提供同一個皮包公司的地址作為公司信息腊满,或者聯(lián)系人電話重合程度高。因此培己,在關(guān)系網(wǎng)絡(luò)中碳蛋,大多數(shù)的正常的個體應(yīng)該是獨立的節(jié)點,或者與另一個節(jié)點組成規(guī)模為二的團體(在這種情況下省咨,多數(shù)可能為家人或親友關(guān)系)肃弟。若出現(xiàn)三個點以上甚至十幾個點關(guān)系密切時,則這些團體可被歸為異常零蓉。上文中的20,000筆貸款申請組成的關(guān)系網(wǎng)絡(luò)中含有300多個團體笤受,團體規(guī)模分布由下圖所示,其中大部分團體的規(guī)模較小敌蜂,當團體規(guī)模超過某一閾值時箩兽,其可被認為異常。
我們對團體規(guī)模大小和欺詐度的相關(guān)性進行了分析紊册。其中比肄,欺詐度的定義為:欺詐度=團體中欺詐申請者的數(shù)目/團體中申請者總數(shù)。我們通過行業(yè)內(nèi)的網(wǎng)貸黑名單數(shù)據(jù)來判定某一個體是否為欺詐申請者囊陡。相關(guān)性結(jié)果如下圖所示,其中掀亥,橫坐標表示團體規(guī)模大小撞反,縱坐標表示欺詐度√禄ǎ可以看出遏片,當團伙只有兩個人時,欺詐度的中位數(shù)是0撮竿,而當規(guī)模變大時吮便,欺詐度陡然增加。當團體規(guī)模大小為三人時幢踏,欺詐度最高髓需,達到30%,其次為規(guī)模超過六人的團體房蝉。
異常檢測并不能夠明確的給出一個團體是否欺詐僚匆,但是可以通過這種方法排查出可疑的團伙微渠,從而進行調(diào)查。該算法并不是基于歷史數(shù)據(jù)挖掘隱藏的欺詐模式咧擂,因而常常能夠有效地識別出新出現(xiàn)的未曾記錄的欺詐行為逞盆。
典型運用二:團體分群
分群是一種常常被用于客戶精準營銷的無監(jiān)督聚類算法,根據(jù)客戶各個維度的信息松申,將其歸并于某一特定群組云芦,并對不同群組的客戶采取差異化的營銷策略。除了用于精準營銷贸桶,分群算法還可以用于離群行為的檢測焕数,即,檢測哪些客戶的行為與同一群體的其他客戶不同刨啸。這些離群行為或是預示著這些客戶處于某些特殊事件情境中堡赔,或是預示著欺詐行為。這一部分主要和前文提到的異常檢測相關(guān)设联,這里不再贅述善已。
與客戶分群不同,團體分群不僅依賴于團體中每個個體的特征离例,還依賴于整個團體作為一個整體的特征换团。這一方面使得團體分群擁有足夠豐富的數(shù)據(jù)維度,另一方面也增加了問題的復雜性宫蛆。一般來說艘包,團體的特征可以分為 (1)和網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的團伙拓撲特征以及(2)和個體信息相關(guān)的團伙實體特征這兩個大的維度。其中耀盗,團體的拓撲特征包括團的節(jié)點的數(shù)量想虎、平均自由度、團體中節(jié)點間最長的最短路徑等叛拷;團的實體特征包括團中男女比例舌厨、最大年齡差,平均年齡忿薇、團體總資產(chǎn)裙椭、團體總負債等弄跌。
團體分群即是對給定網(wǎng)絡(luò)中的團體依據(jù)以上特征進行區(qū)分加叁,從而挖掘有潛在欺詐風險的團體的方法。舉一個簡單的例子约急,以團體中的男性占比和年齡差者兩個特征來對網(wǎng)絡(luò)中的團體進行分群筋栋。作為以家人關(guān)系而形成的團體炊汤,一般由三人形成,多為兩男一女或兩女一男,男性占比33%或67%婿崭,并且年齡差一般為20-30歲拨拓。具有這種性質(zhì)的團體一般為家庭團體,因而風險性較小氓栈。但對于人數(shù)較多渣磷,男性占比高,而且年齡差較小的團體授瘦,則有可能是欺詐團伙醋界,需要進一步調(diào)查。
實際問題中提完,描述一個團伙的數(shù)據(jù)維度非常豐富形纺,有時可多達數(shù)十個,這就對分群造成了困難(在高維空間中徒欣,尋找點的集群并不是一件容易的事逐样,俗稱“維度災難”)。一個常用的解決方法是先對高維數(shù)據(jù)進行降維打肝,然后再在低維空間中進行聚類脂新。圖5是對一組數(shù)據(jù)中由貸款申請構(gòu)成的300多個團體進行分群的結(jié)果。在這個分析中粗梭,我們用男女比例争便、最大年齡差、有車個體占比断医、有房個體占比滞乙、有貸款個體占比和買理財產(chǎn)品個體占比這六個維度對團伙進行描述。我們采用t-SNE(t-Distributed Stochastic Neighbor Embedding)算法對高維數(shù)據(jù)進行降維和DBSCAN聚類算法對低維數(shù)據(jù)進行分群鉴嗤。由圖5可見斩启,在低維空間中,確實存在明顯分隔的集群躬窜,這說明團體分群在實際操作中的可行性浇垦。
我們對圖5中每一個集群進行分析荣挨。集群1中的團體男女比例1:1,年齡相差0-5歲朴摊,集群中無人有貸款或買理財產(chǎn)品默垄。這個集群很可能描述了由年輕情侶構(gòu)成的團體。對于集群2中的團伙甚纲,男女比例2:1口锭,年齡相差15-30歲,每個團伙中平均有一人有車和房,并且背有貸款鹃操,這個集群很可能描述了由父母子女構(gòu)成的“團伙”韭寸。按照同樣的方法可以對圖5每一個集群進行分析,這里不一一贅述荆隘。盡管我們沒有“好”恩伺、“壞”標簽,無法得知哪個集群含有大量欺詐團伙椰拒,但是我們可以依據(jù)經(jīng)驗和專家知識篩選出可疑的集群晶渠,為進一步調(diào)查做好準備。例如集群6中全部由男性“團伙”構(gòu)成燃观,年齡相差0-10歲褒脯,團伙中大量個體都背有貸款。這個集群的欺詐嫌疑就比其他集群要高一些缆毁,下一步就可以繼續(xù)對其進行進一步的調(diào)查番川。