? ? ? ? 在構(gòu)建評(píng)分卡模型的工作中冬骚,數(shù)據(jù)的預(yù)處理和特征構(gòu)建工作是至關(guān)重要的一步。數(shù)據(jù)預(yù)處理可以有效處理缺失值和異常值,從而增強(qiáng)模型的穩(wěn)健性唉韭。特征構(gòu)建工作可以從數(shù)據(jù)中提煉信息夜涕,形成具有業(yè)務(wù)含義的優(yōu)異特征。
1.評(píng)分卡簡(jiǎn)介
風(fēng)控場(chǎng)景中的評(píng)分卡
o 以風(fēng)險(xiǎn)的形式衡量風(fēng)險(xiǎn)幾率的一種手段
o 是對(duì)未來一段時(shí)間違約属愤、失聯(lián)的概率預(yù)測(cè)
o 預(yù)測(cè)分?jǐn)?shù)有一個(gè)明確的(正)區(qū)間,評(píng)分越高越好
o 數(shù)據(jù)驅(qū)動(dòng)
o 反欺詐酸役、申請(qǐng)住诸、行為、催收評(píng)分卡
非風(fēng)控場(chǎng)景中的評(píng)分卡
o 推薦/營(yíng)銷涣澡、流失評(píng)分卡
1.1申請(qǐng)?jiān)u分卡(application scorecard)
用在貸前審核環(huán)節(jié)贱呐,評(píng)估放貸后是否會(huì)違約的模型。常用特征:個(gè)人信息(性別入桂、年齡奄薇、工作)、央行征信信息(歷史信用記錄)抗愁、申請(qǐng)行為信息(申請(qǐng)產(chǎn)品類型馁蒂、申請(qǐng)渠道)、其他輔助信息(電商蜘腌、運(yùn)營(yíng)商信息)沫屡。
1.2行為評(píng)分卡(behavioral scorecard)
用在貸后監(jiān)控環(huán)節(jié),做早期預(yù)警工作撮珠。常用特征:貸后還款行為(還款率沮脖、額度)、消費(fèi)行為芯急。通常適用于還款周期長(zhǎng)的產(chǎn)品或者循環(huán)授信類產(chǎn)品勺届。
1.3催收評(píng)分卡(behavioral scorecard)
用在發(fā)生逾期后的管理環(huán)節(jié),為催收工作提供指導(dǎo)娶耍。催收評(píng)分卡可細(xì)分為預(yù)測(cè)失聯(lián)的失聯(lián)評(píng)分卡免姿,預(yù)測(cè)逾期加重的滾動(dòng)率評(píng)分卡和預(yù)測(cè)催收后的還款率的還款率評(píng)分卡。常用特征:個(gè)人信息伺绽、貸后的還款行為信息养泡、消費(fèi)行為信息、聯(lián)系人信息奈应。
開發(fā)步驟:
1-確定場(chǎng)景澜掩、人群(樣本)定義
2-選取數(shù)據(jù),清洗數(shù)據(jù)杖挣,特征工程
3-模型構(gòu)建肩榕,參數(shù)估計(jì)
4-性能測(cè)試
5-驗(yàn)證模型,審批模型
6-模型部署
7-持續(xù)線上監(jiān)控
評(píng)分卡常用模型:
1-邏輯回歸:優(yōu)點(diǎn):簡(jiǎn)單,穩(wěn)定株汉,可解釋筐乳,技術(shù)成熟,易于監(jiān)測(cè)和部署乔妈;缺點(diǎn):準(zhǔn)確度不高蝙云,不能有缺失值,異常值敏感路召。
2-決策樹:優(yōu)點(diǎn):易解釋勃刨,數(shù)據(jù)質(zhì)量要求不高,可以處理缺失值股淡;缺點(diǎn):準(zhǔn)確度不高身隐。
3-組合模型(隨機(jī)森林、gbdt唯灵、xgboost等):優(yōu)點(diǎn):準(zhǔn)確度高贾铝,不易過擬合;缺點(diǎn):不易解釋埠帕,部署相對(duì)困難垢揩,計(jì)算量大。
2.特征構(gòu)建
? ? ? ? 在評(píng)分卡模型的開發(fā)中搞监,特征構(gòu)造是極為關(guān)鍵的步驟水孩,其作用是將分散在不同字段中的信息加以組合,從中提煉出有價(jià)值的琐驴、可用的信息而進(jìn)行評(píng)分卡 模型的開發(fā)俘种。
1.部分常用的特征構(gòu)造方法有:
求和:例如過去一段時(shí)間內(nèi)的每月網(wǎng)購金額的總和
比例:例如申請(qǐng)貸款的月還款本息與月收入的占比
頻率:例如過去一段時(shí)間內(nèi)境外消費(fèi)次數(shù)
平均:例如過去一段時(shí)間內(nèi)平均每次信用卡取現(xiàn)額度
2.好的特征需要具備以下優(yōu)勢(shì):
穩(wěn)定性高:在人群分布穩(wěn)定,產(chǎn)品營(yíng)銷穩(wěn)定绝淡、宏觀經(jīng)濟(jì)穩(wěn)定宙刘、監(jiān)管政策穩(wěn)定時(shí),特征的分布要穩(wěn)定
區(qū)分度高:未來違約與非違約的人群在特征分布上要有顯著區(qū)別
差異性大:不能對(duì)全部人群或者絕大部分人群有單一的取值
符合業(yè)務(wù)邏輯:特征與信用風(fēng)險(xiǎn)的關(guān)聯(lián)關(guān)系要符合業(yè)務(wù)邏輯
3.數(shù)據(jù)質(zhì)量檢驗(yàn)與異常處理
1.數(shù)據(jù)集中度
在模型開發(fā)過程中牢酵,數(shù)據(jù)集中度是常見的問題悬包,即在變量中,某單一數(shù)值的占比就占了全部樣本的絕大多數(shù)馍乙。例如在一批訓(xùn)練樣本中布近,學(xué)歷為本科的樣本占了90%,具有極高集中度的字段或者變量丝格,需要按照風(fēng)險(xiǎn)程度進(jìn)行區(qū)分:
(1)“多數(shù)值”與“少數(shù)值”的壞樣本率沒有顯著差別撑瞧。由于包含的信息較少,對(duì)模型開發(fā)沒有太大價(jià)值显蝌,可以直接將字段刪除预伺;
(2)“多數(shù)值”與“少數(shù)值”的壞樣本率有顯著差別,且“少數(shù)值”的壞樣本率低于“多數(shù)值”的壞樣本率,但我們更加關(guān)注風(fēng)險(xiǎn)度高的一組酬诀,“少數(shù)值”并不會(huì)帶來額外的意義脏嚷,可以直接將字段刪除;
(3)“多數(shù)值”與“少數(shù)值”的壞樣本率有顯著差別瞒御,且“少數(shù)值”的壞樣本率高于“多數(shù)值”的壞樣本率父叙,“少數(shù)值”的存在會(huì)帶來較大的收益,保留字段肴裙;
2.數(shù)據(jù)缺失
數(shù)據(jù)缺失度是數(shù)據(jù)質(zhì)量檢驗(yàn)的重要一項(xiàng)高每,主要有兩個(gè)檢驗(yàn)維度:
(1)字段維度,即某個(gè)字段在全部樣本上缺失值個(gè)數(shù)占比践宴;
(2)樣本維度,即某條樣本在所有字段上缺失值的個(gè)數(shù)占比爷怀;
處理方法:
(1)刪除:缺失占比過高
(2)補(bǔ)缺(前提是缺失率不宜過高阻肩,否則會(huì)引入較大偏差):對(duì)于數(shù)值型,均值法运授、回歸法烤惊;對(duì)于類別型,眾數(shù)法
(3)缺失值作為特殊取值
3.異常值
LR模型對(duì)異常值比較敏感吁朦,需要具體情況具體處理柒室,有時(shí)數(shù)值異常大,會(huì)有業(yè)務(wù)意義逗宜,比如人行征信查詢次數(shù)雄右,查詢過多意味著資金需求高,風(fēng)險(xiǎn)較大
4.數(shù)據(jù)含義一致性
實(shí)際工作中纺讲,原本屬于同一含義的記錄會(huì)有不同的表示形式擂仍,比如:“QQ”與“qq”。
(如有不同見解熬甚,望不吝賜教7暧妗!)