1彬坏、風(fēng)控建模中好壞定義的依據(jù)是什么朦促,怎樣劃定表現(xiàn)期和觀察期?
在貸款發(fā)生過(guò)程中栓始,一般可以用客戶(hù)延期還款時(shí)間長(zhǎng)短來(lái)刻畫(huà)客戶(hù)的逾期程度务冕,逾期時(shí)間越長(zhǎng),客戶(hù)風(fēng)險(xiǎn)越高幻赚。但是禀忆,并不是客戶(hù)一旦有逾期行為就定義為’壞客戶(hù)‘臊旭,相反,逾期一定時(shí)間內(nèi)的客戶(hù)的還款概率也是較高的箩退,是有收益的离熏,業(yè)務(wù)上也是可以接受的。因此這里可以依據(jù)自身業(yè)務(wù)水平戴涝,借助用戶(hù)的還款滾動(dòng)率分析來(lái)界定逾期多少天才為壞用戶(hù)滋戳。(滾動(dòng)率是用戶(hù)的還款狀態(tài)由上個(gè)時(shí)間段向下個(gè)時(shí)間段滾動(dòng)的比率計(jì)算。)
賬齡分析可以看出充分暴漏壞用戶(hù)所用的時(shí)間周期喊括,常用于劃定建模數(shù)據(jù)的表現(xiàn)期和觀察期胧瓜。
2、個(gè)人總結(jié)風(fēng)控經(jīng)驗(yàn)雜談
風(fēng)控后臺(tái)設(shè)計(jì)郑什,從表字段管理府喳、產(chǎn)品線管理、場(chǎng)景管理蘑拯、規(guī)則部署钝满、額度利率設(shè)置、風(fēng)控報(bào)告查驗(yàn)申窘、權(quán)限設(shè)置等都要邏輯清晰弯蚜、系統(tǒng)規(guī)范,使用流暢剃法;
風(fēng)控后臺(tái)要有部署單條規(guī)則碎捺、組合規(guī)則以及評(píng)分規(guī)則的基本功能,應(yīng)界面清晰友好贷洲,部署簡(jiǎn)單化收厨,最好有部署集成模型的功能(可以上傳變量文件和模型文件),規(guī)則名稱(chēng)命名符合規(guī)范优构,系統(tǒng)有檢查規(guī)則名稱(chēng)唯一性提示诵叁;
部署規(guī)則前應(yīng)該先要在所需場(chǎng)景(貸前、貸中等)下綁定數(shù)據(jù)接口(比如在貸前場(chǎng)景下綁定芝麻分接口)钦椭,在表管理里面添加需要的表和字段拧额,最后按照規(guī)范化要求新增規(guī)則,并把規(guī)則綁定到該場(chǎng)景下彪腔,即生效侥锦;
風(fēng)控?cái)?shù)據(jù)庫(kù)中的數(shù)據(jù)表要按照分析或者模型需求存儲(chǔ),方便后續(xù)工作開(kāi)展德挣。比如恭垦,第三方表要按照時(shí)間鏈條方式存儲(chǔ),并可以和借、還款訂單一一關(guān)聯(lián)署照;衍生變量按照時(shí)效性分為借款時(shí)更新祸泪、還款成功時(shí)更新以及定時(shí)更新,保證規(guī)則可以取到合理有效的數(shù)據(jù)建芙;當(dāng)指標(biāo)為空時(shí)没隘,要確定是第三方數(shù)據(jù)為空(第三方數(shù)據(jù)為空的原因),還是系統(tǒng)調(diào)用出現(xiàn)問(wèn)題為空(有數(shù)值未調(diào)用到)等禁荸;
規(guī)則或者模型用到的變量(入?yún)ⅲ┮约敖Y(jié)果輸出(出參)是否存儲(chǔ)邏輯清晰右蒲、合理;用戶(hù)的額度赶熟、利率變化記錄是否存儲(chǔ)瑰妄;用戶(hù)的借款記錄、還款記錄映砖、逾期記錄是否存儲(chǔ)合理间坐,并實(shí)時(shí)更新;
不同風(fēng)控場(chǎng)景下邑退,規(guī)則盡量以規(guī)則集的形式部署竹宋,單條規(guī)則散落沒(méi)有邏輯性,不方便維護(hù)調(diào)整地技,模型可以單獨(dú)部署蜈七。所有規(guī)則、模型都要有一套完整的命名規(guī)范莫矗;
風(fēng)控后臺(tái)的規(guī)則的變動(dòng)(增飒硅、刪、改)都要做好實(shí)時(shí)記錄作谚,什么時(shí)間點(diǎn)三娩、基于什么原因,規(guī)則變動(dòng)詳情都要做好記錄食磕;對(duì)于風(fēng)控系統(tǒng)的bug尽棕,產(chǎn)生的影響也要記錄在案喳挑;
可以成立風(fēng)控小組共享文件彬伦,里面記錄一些組內(nèi)成員的日常風(fēng)控經(jīng)驗(yàn)以及知識(shí),比如伊诵,額度計(jì)算策略单绑、利率計(jì)算策略、收益計(jì)算公式曹宴、評(píng)分卡建模取數(shù)邏輯搂橙、好壞定義的邏輯來(lái)源等,也可以放置關(guān)于風(fēng)控業(yè)務(wù)的分享文件笛坦,方便組內(nèi)人員高效查詢(xún)区转;
規(guī)則或者模型都要定期做數(shù)據(jù)檢查苔巨、校驗(yàn),形成檢驗(yàn)報(bào)告废离,并通知到組內(nèi)小組成員目前數(shù)據(jù)侄泽、規(guī)則和模型的運(yùn)行狀況,有問(wèn)題即使反饋蜻韭,并共同商議解決辦法悼尾。
成立風(fēng)控學(xué)習(xí)分享小組,定期或者不定期進(jìn)行組內(nèi)風(fēng)控知識(shí)的分享肖方、交流闺魏、專(zhuān)題報(bào)告等(這是個(gè)人覺(jué)得非常有意義的事情,增進(jìn)同事友誼俯画,共同學(xué)習(xí)業(yè)務(wù)經(jīng)驗(yàn))
3析桥、為什么要做拒絕推斷?常用的拒絕推斷方法有哪些艰垂?
拒絕推斷目的:
第一烹骨、做模型時(shí)只選擇風(fēng)控通過(guò)的用戶(hù),忽略了被拒絕的用戶(hù)材泄,這樣的建模樣本是不能代表用戶(hù)總體的沮焕;第二、由于風(fēng)控策略的變動(dòng)拉宗,原來(lái)被拒絕的用戶(hù)不一定現(xiàn)在被拒絕峦树,只考慮審批通過(guò)的會(huì)極大可能造成誤判;第三旦事、利于挖掘被拒絕用戶(hù)中好的用戶(hù)魁巩,逐步完善風(fēng)控策略;第四姐浮、模型做拒絕推斷谷遂,可以避免模型的得分以及拒絕率在線上線下差異過(guò)大。
拒絕推斷方法:
截?cái)喾ǎ合壤脤徟ㄟ^(guò)的用戶(hù)建立初始模型卖鲤,利用該模型對(duì)拒絕用戶(hù)進(jìn)行打分肾扰,設(shè)定拒絕閾值,把劃分的好壞用戶(hù)加入到建模樣本蛋逾,重新建模集晚。
分配法:先利用審批通過(guò)的用戶(hù)建立初始模型,并且進(jìn)行評(píng)分分組区匣,計(jì)算各組違約率偷拔;然后對(duì)拒絕用戶(hù)進(jìn)行評(píng)分,同理分組,以各分組的違約率為抽樣比例莲绰,隨機(jī)抽取該分組下的違約用戶(hù)為壞用戶(hù)欺旧,剩下的則是好用戶(hù),把標(biāo)記好的用戶(hù)納入樣本蛤签,重新建模切端。
4、簡(jiǎn)述風(fēng)控建模的一般流程
業(yè)務(wù)和數(shù)據(jù)了解:做評(píng)分模型之前一定要先去熟悉產(chǎn)品業(yè)務(wù)顷啼,了解建模目的以及建模意義踏枣,有方向?qū)蚪#涣私鈹?shù)據(jù)钙蒙,利于前期理清取數(shù)邏輯茵瀑,同時(shí),熟悉指標(biāo)含義躬厌,利于變量篩選和處理马昨;
模型設(shè)計(jì):包括取數(shù)邏輯的確定、模型的選擇扛施、是否做拒絕推斷鸿捧、觀察期表現(xiàn)期確定、項(xiàng)目周期計(jì)劃制定疙渣,是否需要開(kāi)發(fā)指標(biāo)等匙奴;
指標(biāo)選取:選取合理觀察期表現(xiàn)期的全量數(shù)據(jù)指標(biāo)妄荔,定義好壞用戶(hù)標(biāo)準(zhǔn)泼菌;
數(shù)據(jù)預(yù)處理:對(duì)選取的指標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、例如缺失值處理啦租、異常點(diǎn)處理哗伯、單一值處理∨窠牵可以用psi考察變量在時(shí)間序列上的穩(wěn)定性焊刹。變量的描述性統(tǒng)計(jì)分析;
特征工程:主要是特征的篩選恳蹲。如果是評(píng)分卡主要是依據(jù)隨機(jī)森林虐块、lasso回歸、IV值計(jì)算xgboost算法等阱缓,另外會(huì)基于對(duì)業(yè)務(wù)的深入理解做特征構(gòu)造工作非凌,包括特征交叉举农,特征轉(zhuǎn)換荆针,對(duì)特征進(jìn)行四則運(yùn)算、時(shí)間切片等。同時(shí)航背,還要對(duì)變量進(jìn)行woe分箱處理喉悴;
模型建立與評(píng)估:建立合適的模型(基于logistic的評(píng)分模型、集成模型等)玖媚,借助ks箕肃、auc、psi等來(lái)評(píng)價(jià)模型效果以及模型穩(wěn)定性今魔;
模型部署:在風(fēng)控后臺(tái)上配置模型規(guī)則勺像,或?qū)⒎庋b為類(lèi)來(lái)實(shí)時(shí)調(diào)用,注意模型部署方式的正確性错森;
模型監(jiān)控:主要是檢測(cè)模型是否正常運(yùn)行吟宦,比如,模型分?jǐn)?shù)是否正確涩维,分?jǐn)?shù)以及變量值是否存儲(chǔ)殃姓,模型分?jǐn)?shù)與利率(額度)策略是否匹配等。模型分?jǐn)?shù)(概率)分布是否與模型數(shù)據(jù)集偏差較大瓦阐,模型拒絕率等蜗侈。后期積累一定線上用戶(hù)后可評(píng)估線上模型的AUC,KS,與線下進(jìn)行比較睡蟋,衡量模型的線上的實(shí)際效果踏幻。
5、風(fēng)控模型的部署方式有哪些戳杀?
評(píng)分卡模型部署方式較為簡(jiǎn)單叫倍,只需要部署模型中的變量、變量區(qū)間以及對(duì)應(yīng)得分豺瘤,最后所有變量得分相加即為用戶(hù)得分吆倦。
集成模型部署方式較為復(fù)雜,目前坐求,通常會(huì)采用pmml方式部署蚕泽。一般是將模型文件轉(zhuǎn)換為pmml格式,并封裝pmml桥嗤,在風(fēng)控后臺(tái)上上傳pmml文件和變量參數(shù)文件须妻,并配置好模型的閾值
6、可以從哪些方面評(píng)價(jià)評(píng)分卡模型的有效性
業(yè)務(wù)上具有可解釋性:一個(gè)有效的評(píng)分模型首先要在業(yè)務(wù)上具有可解釋性泛领,比如變量評(píng)分趨勢(shì)是否單調(diào)(通常荒吏,變量會(huì)和分?jǐn)?shù)呈現(xiàn)單調(diào)關(guān)系,若不單調(diào)渊鞋,在業(yè)務(wù)上可解釋的通也是可以的)绰更,變量評(píng)分趨勢(shì)是否符合業(yè)務(wù)邏輯(芝麻分越高瞧挤,是否得分越高)等;
模型復(fù)雜程度:一般評(píng)分模型評(píng)分變量盡量在8-12個(gè)之內(nèi)儡湾,變量太多特恬,可能會(huì)造成模型冗余,變量重要程度或顯著性不高徐钠,穩(wěn)定性也會(huì)下降癌刽;
好用戶(hù)和壞用戶(hù)的評(píng)分區(qū)間交集太多說(shuō)明模型好壞區(qū)分能力不強(qiáng);
模型指標(biāo)ks尝丐、auc值要在可接受的范圍內(nèi)显拜,太低說(shuō)明模型效果不好;
模型用戶(hù)總評(píng)分分布不宜太聚集(主要集中于中間分?jǐn)?shù)段)爹袁,不利于用戶(hù)分層劃分讼油;
(一定周期后)隨時(shí)間推移,模型整體得分成正態(tài)分布呢簸,模型單個(gè)變量的得分占比較穩(wěn)定矮台;
(一定周期后)用戶(hù)的評(píng)分與用戶(hù)的資金損失應(yīng)該呈反比關(guān)系,用戶(hù)評(píng)分越高根时,資損越低瘦赫;
(一定周期后)模型在線上、線下樣本集上分?jǐn)?shù)區(qū)間劃分樣本占比應(yīng)該相差不大蛤迎,拒絕率與預(yù)設(shè)值差別不大确虱,psi值較小(低于0.1)替裆。
7校辩、不同風(fēng)控階段的評(píng)分卡特點(diǎn)有哪些?
申請(qǐng)?jiān)u分卡主要部署在貸前階段辆童,主要作用有3個(gè):參與決策宜咒、授信額度、初始利率把鉴。是貸前審核的基礎(chǔ)模型故黑,一般用到的指標(biāo)包括兩方面:自身屬性(通訊錄,個(gè)人信息等)和第三方屬性(歷史信貸庭砍、運(yùn)營(yíng)商信息场晶、消費(fèi)記錄、信用記錄(芝麻分)怠缸、多頭借貸等)诗轻,通常,a卡建模會(huì)使用拒絕推斷
行為評(píng)分卡主要部署在貸中階段揭北,主要是對(duì)用戶(hù)貸中行為的評(píng)判扳炬,防控貸中風(fēng)險(xiǎn)吏颖,同時(shí)對(duì)用戶(hù)額度做合理的調(diào)整。主要用到的指標(biāo)除了a卡中指標(biāo)外鞠柄,還包括用戶(hù)的行為屬性(登錄侦高、瀏覽嫉柴、消費(fèi)厌杜、借款、還款计螺、逾期等)
催收評(píng)分卡主要部署在貸后階段夯尽,是對(duì)逾期用戶(hù)預(yù)測(cè)催收反應(yīng)的概率,從而采取相應(yīng)的催收策略與措施
8登馒、評(píng)分卡建模時(shí)匙握,特征工程主要做哪些方面?
特征衍生:
數(shù)據(jù)維度:根據(jù)已有的變量進(jìn)行特征衍生陈轿,比如按照時(shí)間切片對(duì)變量求和圈纺、求均值、波動(dòng)麦射、最值蛾娶、計(jì)數(shù)等;
業(yè)務(wù)維度:基于業(yè)務(wù)經(jīng)驗(yàn)衍生新的指標(biāo)變量潜秋,比如蛔琅,一個(gè)月內(nèi)接聽(tīng)和撥打同一電話占比(一月內(nèi)接聽(tīng)和撥打同一電話去重計(jì)數(shù)/本月所有通話號(hào)碼去重計(jì)數(shù))
特征選擇:
數(shù)據(jù)分析:特征分布分析,數(shù)據(jù)的質(zhì)量檢驗(yàn)(數(shù)據(jù)可用性峻呛、一致性罗售、正確性等)
特征處理:缺失率較高、單一值比例較高钩述、非常稀疏的特征可以先剔除掉寨躁,并進(jìn)行異常值處理,文本信息處理牙勘,啞變量編碼朽缎;
指標(biāo)初篩:根據(jù)隨機(jī)森林、lasso回歸谜悟、IV值话肖、xgboost等進(jìn)行特征重要性排序(過(guò)高IV值白能量也要去掉,整個(gè)模型受到單個(gè)變量影響太大葡幸,不穩(wěn)定)最筒;
相關(guān)篩選:相關(guān)性較高的變量需要剔除
影響關(guān)系:最后考察剩余變量與目標(biāo)變量的可解釋能力,并保證變量評(píng)分合理性蔚叨。
9床蜘、風(fēng)控模型上線后是如何進(jìn)行監(jiān)控的辙培?
實(shí)時(shí)監(jiān)控:
模型上線后,應(yīng)立刻監(jiān)控用戶(hù)通過(guò)模型邢锯,各個(gè)數(shù)據(jù)指標(biāo)值的存儲(chǔ)是否正確扬蕊,變量評(píng)分是否正確;
模型上線后丹擎,應(yīng)立刻檢驗(yàn)用戶(hù)總分是否存儲(chǔ)尾抑,抽檢單個(gè)用戶(hù)各個(gè)變量得分之和是否等于總分;
模型上線后蒂培,應(yīng)立刻檢查用戶(hù)額度再愈、利率是否存儲(chǔ),是否與總分配置區(qū)間匹配正確护戳;
前期監(jiān)控:
一定時(shí)間周期內(nèi)翎冲,統(tǒng)計(jì)單個(gè)變量不同得分占比是否穩(wěn)定(比如,芝麻分得10分占比為20%媳荒,得20分占比未30%抗悍,得30分占比未50%,這個(gè)比例是否一段時(shí)間段內(nèi)較為穩(wěn)定)
設(shè)置的cutoff點(diǎn)可以對(duì)比線上線下拒絕率差異钳枕,若差異過(guò)大缴渊,考慮是否發(fā)生分?jǐn)?shù)總體偏移或分布差異;
通過(guò)計(jì)算psi值來(lái)監(jiān)控模型整體的穩(wěn)定性么伯,若psi過(guò)大疟暖,是否發(fā)生分?jǐn)?shù)總體偏移或分布差異;
對(duì)比線上田柔、線下數(shù)據(jù)集分?jǐn)?shù)的分?jǐn)?shù)分布俐巴,分別做出分布柱狀圖更能直觀對(duì)比分布差異;
后期監(jiān)控:
判斷模型區(qū)分好壞用戶(hù)的能力硬爆,可以計(jì)算模型指標(biāo)ks欣舵、auc值,并對(duì)比建模時(shí)候指標(biāo)缀磕;
用戶(hù)的評(píng)分與用戶(hù)的資金損失應(yīng)該呈反比關(guān)系缘圈,用戶(hù)評(píng)分越高,資損越低袜蚕;
10糟把、互聯(lián)網(wǎng)金融風(fēng)控中的反欺詐是如何做的呢?
反欺詐這個(gè)重要環(huán)節(jié)主要在貸前場(chǎng)景:
黑名單驗(yàn)證:注冊(cè)認(rèn)證是填寫(xiě)的客戶(hù)的四要素是姓名+身份證號(hào)+手機(jī)號(hào)+銀行卡號(hào)牲剃,通過(guò)SDK抓取到你的設(shè)備指紋和IP遣疯,這6個(gè)為索引條件進(jìn)行黑名單匹配,命中即拒絕凿傅;
多頭借貸:主要是通過(guò)設(shè)備指紋缠犀、IP数苫、四要素等分析在不同平臺(tái)的申請(qǐng)頻率,過(guò)高則認(rèn)為是高危人群,具有較高欺詐風(fēng)險(xiǎn);
真人驗(yàn)證:通過(guò)短信驗(yàn)證扮惦、語(yǔ)音驗(yàn)證、圖形驗(yàn)證嚼隘、人臉識(shí)別、虹膜識(shí)別等一系列人工智能技術(shù)來(lái)識(shí)別活體真人;
勾稽規(guī)則:主要是對(duì)比填寫(xiě)的信息(學(xué)歷、性別赏殃、年齡敷待、收入间涵、工作、住址榜揖,單位地址等)與抓取信息的一致性(部分為模糊匹配)勾哩;命中風(fēng)險(xiǎn)給與分值累加,超過(guò)閾值人工審核或者拒絕举哟;
社交關(guān)系網(wǎng)絡(luò):統(tǒng)計(jì)申請(qǐng)人的通訊錄以及通話記錄中失信人員思劳、黑名單人員、催收公司號(hào)碼占比情況妨猩,給與相應(yīng)策略潜叛;
欺詐模型:參考鏈接 反欺詐(Fraud Detection)中所用到的機(jī)器學(xué)習(xí)模型有哪些?
https://zhuanlan.zhihu.com/p/56474197(風(fēng)控模型師準(zhǔn)備--業(yè)務(wù)+模型篇)
https://blog.csdn.net/WangYouJin321/article/details/105026155(風(fēng)控建模相關(guān)問(wèn)題(轉(zhuǎn)自七月算法))