在風(fēng)控領(lǐng)域最主要的兩個問題就是信用風(fēng)險和欺詐風(fēng)險伏蚊,如果能解決這兩個問題,只要能拿到資金方的資金膛虫,有流量草姻,就可以躺著掙錢了,可以享受著讓別人幫你掙錢的樂趣稍刀。
異常檢測是反欺詐中的很少一部分撩独,還有其他很多方法來做反欺詐,圖譜相關(guān)我覺得是最有效果的反欺詐账月。
我們這邊用iforest做異常檢測综膀,主要用來做三件事
一:數(shù)據(jù)過異常檢測,檢測出來直接用決策引擎卡閾值來拒人
二:檢測出異常的用戶局齿,給異常數(shù)據(jù)做標(biāo)簽剧劝,把這部分用戶導(dǎo)入到人工審核
三:檢測出異常數(shù)據(jù),給有監(jiān)督樹模型抓歼,數(shù)據(jù)加權(quán)
iforest 算法部分(最主要是檢測出離群數(shù)據(jù))
在數(shù)學(xué)層面理解讥此,分布稀疏的區(qū)域表示數(shù)據(jù)發(fā)生在此區(qū)域的概率很低,可以認(rèn)為落在該區(qū)域的數(shù)據(jù)為異常數(shù)據(jù)
黑色的點(diǎn)為異常點(diǎn)谣妻,白色點(diǎn)為正常的點(diǎn)(在一個簇中)萄喳。iForest檢測到的異常邊界為紅色,它可以正確地檢測到所有黑點(diǎn)異常點(diǎn)蹋半。
重點(diǎn):
Iforest 有點(diǎn)類似于隨機(jī)森林他巨,是由多個itree構(gòu)成,采用隨機(jī)采樣一部分?jǐn)?shù)據(jù)去構(gòu)建每一顆樹,構(gòu)建好樹之后染突,預(yù)測的過程是把測試記錄在Itree上走一篇匪傍,看測試數(shù)落在葉子哪個節(jié)點(diǎn)上,算一下數(shù)據(jù)的平均高度觉痛,關(guān)心小于平均高度的數(shù)據(jù),異常點(diǎn)一般都是非常稀有的茵休,在iTree中會很快被劃分到葉子節(jié)點(diǎn)薪棒,因此可以用葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑h(x)長度來判斷一條記錄x是否是異常點(diǎn)
公式:
E(h(x))表示記錄x在每棵樹的高度均值,
算法原理 :
假設(shè)我們有一個一堆檢測的特征D
第一步:
我們從特征集D中隨機(jī)選取一個特征attr1
第二步:
1.確定特征attr1的最大值和最小值
2.隨機(jī)從特征attr1里面選擇一個值value1榕莺,這個value1大于最小值小于最大值
3.循環(huán)遍歷attr1把大于value1的值放到右節(jié)點(diǎn)上俐芯,把小于value1的值放到左節(jié)點(diǎn)上
第三步:
重復(fù)第二步
滿足以下條件停止:
傳入的數(shù)據(jù)集只有一條記錄或者多條一樣的記錄;
樹的高度達(dá)到了限定高度
4個測試樣本遍歷一棵iTree的例子如下:
b和c的高度為3钉鸯,a的高度是2吧史,d的高度是1。
上代碼部分
感慨一下:
最近因?yàn)樽约旱臅r間比較忙唠雕,一直在弄自己的東西贸营,異常檢測我就交給我們組里面其他的兩個小伙伴做,遇到了很多問題岩睁,最主要的問題出現(xiàn)在特征選擇上钞脂,特別是在做壞人的召回,準(zhǔn)確率的時候特別低捕儒,不能直視冰啃,最開始召回在10%左右,是
特征一定要選擇連續(xù)性變量