搭建金融信貸風(fēng)控中的機(jī)器學(xué)習(xí)模型-(3)評(píng)分卡與數(shù)據(jù)簡(jiǎn)介

? ? ? ? 在構(gòu)建評(píng)分卡模型的工作中冬骚,數(shù)據(jù)的預(yù)處理和特征構(gòu)建工作是至關(guān)重要的一步。數(shù)據(jù)預(yù)處理可以有效處理缺失值和異常值,從而增強(qiáng)模型的穩(wěn)健性唉韭。特征構(gòu)建工作可以從數(shù)據(jù)中提煉信息夜涕,形成具有業(yè)務(wù)含義的優(yōu)異特征。

1.評(píng)分卡簡(jiǎn)介

風(fēng)控場(chǎng)景中的評(píng)分卡
o 以風(fēng)險(xiǎn)的形式衡量風(fēng)險(xiǎn)幾率的一種手段
o 是對(duì)未來一段時(shí)間違約属愤、失聯(lián)的概率預(yù)測(cè)
o 預(yù)測(cè)分?jǐn)?shù)有一個(gè)明確的(正)區(qū)間,評(píng)分越高越好
o 數(shù)據(jù)驅(qū)動(dòng)
o 反欺詐酸役、申請(qǐng)住诸、行為、催收評(píng)分卡
非風(fēng)控場(chǎng)景中的評(píng)分卡
o 推薦/營(yíng)銷涣澡、流失評(píng)分卡

1.1申請(qǐng)?jiān)u分卡(application scorecard)

用在貸前審核環(huán)節(jié)贱呐,評(píng)估放貸后是否會(huì)違約的模型。常用特征:個(gè)人信息(性別入桂、年齡奄薇、工作)、央行征信信息(歷史信用記錄)抗愁、申請(qǐng)行為信息(申請(qǐng)產(chǎn)品類型馁蒂、申請(qǐng)渠道)、其他輔助信息(電商蜘腌、運(yùn)營(yíng)商信息)沫屡。

1.2行為評(píng)分卡(behavioral scorecard)

用在貸后監(jiān)控環(huán)節(jié),做早期預(yù)警工作撮珠。常用特征:貸后還款行為(還款率沮脖、額度)、消費(fèi)行為芯急。通常適用于還款周期長(zhǎng)的產(chǎn)品或者循環(huán)授信類產(chǎn)品勺届。

1.3催收評(píng)分卡(behavioral scorecard)

用在發(fā)生逾期后的管理環(huán)節(jié),為催收工作提供指導(dǎo)娶耍。催收評(píng)分卡可細(xì)分為預(yù)測(cè)失聯(lián)的失聯(lián)評(píng)分卡免姿,預(yù)測(cè)逾期加重的滾動(dòng)率評(píng)分卡和預(yù)測(cè)催收后的還款率的還款率評(píng)分卡。常用特征:個(gè)人信息伺绽、貸后的還款行為信息养泡、消費(fèi)行為信息、聯(lián)系人信息奈应。
開發(fā)步驟:
1-確定場(chǎng)景澜掩、人群(樣本)定義
2-選取數(shù)據(jù),清洗數(shù)據(jù)杖挣,特征工程
3-模型構(gòu)建肩榕,參數(shù)估計(jì)
4-性能測(cè)試
5-驗(yàn)證模型,審批模型
6-模型部署
7-持續(xù)線上監(jiān)控
評(píng)分卡常用模型:
1-邏輯回歸優(yōu)點(diǎn):簡(jiǎn)單,穩(wěn)定株汉,可解釋筐乳,技術(shù)成熟,易于監(jiān)測(cè)和部署乔妈;缺點(diǎn):準(zhǔn)確度不高蝙云,不能有缺失值,異常值敏感路召。
2-決策樹優(yōu)點(diǎn):易解釋勃刨,數(shù)據(jù)質(zhì)量要求不高,可以處理缺失值股淡;缺點(diǎn):準(zhǔn)確度不高身隐。
3-組合模型(隨機(jī)森林、gbdt唯灵、xgboost等)優(yōu)點(diǎn):準(zhǔn)確度高贾铝,不易過擬合;缺點(diǎn):不易解釋埠帕,部署相對(duì)困難垢揩,計(jì)算量大。

2.特征構(gòu)建

? ? ? ? 在評(píng)分卡模型的開發(fā)中搞监,特征構(gòu)造是極為關(guān)鍵的步驟水孩,其作用是將分散在不同字段中的信息加以組合,從中提煉出有價(jià)值的琐驴、可用的信息而進(jìn)行評(píng)分卡 模型的開發(fā)俘种。

1.部分常用的特征構(gòu)造方法有:

求和:例如過去一段時(shí)間內(nèi)的每月網(wǎng)購金額的總和
比例:例如申請(qǐng)貸款的月還款本息與月收入的占比
頻率:例如過去一段時(shí)間內(nèi)境外消費(fèi)次數(shù)
平均:例如過去一段時(shí)間內(nèi)平均每次信用卡取現(xiàn)額度

2.好的特征需要具備以下優(yōu)勢(shì):

穩(wěn)定性高:在人群分布穩(wěn)定,產(chǎn)品營(yíng)銷穩(wěn)定绝淡、宏觀經(jīng)濟(jì)穩(wěn)定宙刘、監(jiān)管政策穩(wěn)定時(shí),特征的分布要穩(wěn)定
區(qū)分度高:未來違約與非違約的人群在特征分布上要有顯著區(qū)別
差異性大:不能對(duì)全部人群或者絕大部分人群有單一的取值
符合業(yè)務(wù)邏輯:特征與信用風(fēng)險(xiǎn)的關(guān)聯(lián)關(guān)系要符合業(yè)務(wù)邏輯

3.數(shù)據(jù)質(zhì)量檢驗(yàn)與異常處理

1.數(shù)據(jù)集中度

在模型開發(fā)過程中牢酵,數(shù)據(jù)集中度是常見的問題悬包,即在變量中,某單一數(shù)值的占比就占了全部樣本的絕大多數(shù)馍乙。例如在一批訓(xùn)練樣本中布近,學(xué)歷為本科的樣本占了90%,具有極高集中度的字段或者變量丝格,需要按照風(fēng)險(xiǎn)程度進(jìn)行區(qū)分:
(1)“多數(shù)值”與“少數(shù)值”的壞樣本率沒有顯著差別撑瞧。由于包含的信息較少,對(duì)模型開發(fā)沒有太大價(jià)值显蝌,可以直接將字段刪除预伺;
(2)“多數(shù)值”與“少數(shù)值”的壞樣本率有顯著差別,且“少數(shù)值”的壞樣本率低于“多數(shù)值”的壞樣本率,但我們更加關(guān)注風(fēng)險(xiǎn)度高的一組酬诀,“少數(shù)值”并不會(huì)帶來額外的意義脏嚷,可以直接將字段刪除;
(3)“多數(shù)值”與“少數(shù)值”的壞樣本率有顯著差別瞒御,且“少數(shù)值”的壞樣本率高于“多數(shù)值”的壞樣本率父叙,“少數(shù)值”的存在會(huì)帶來較大的收益,保留字段肴裙;

2.數(shù)據(jù)缺失

數(shù)據(jù)缺失度是數(shù)據(jù)質(zhì)量檢驗(yàn)的重要一項(xiàng)高每,主要有兩個(gè)檢驗(yàn)維度:
(1)字段維度,即某個(gè)字段在全部樣本上缺失值個(gè)數(shù)占比践宴;
(2)樣本維度,即某條樣本在所有字段上缺失值的個(gè)數(shù)占比爷怀;
處理方法:
(1)刪除:缺失占比過高
(2)補(bǔ)缺(前提是缺失率不宜過高阻肩,否則會(huì)引入較大偏差):對(duì)于數(shù)值型,均值法运授、回歸法烤惊;對(duì)于類別型,眾數(shù)法
(3)缺失值作為特殊取值

3.異常值

LR模型對(duì)異常值比較敏感吁朦,需要具體情況具體處理柒室,有時(shí)數(shù)值異常大,會(huì)有業(yè)務(wù)意義逗宜,比如人行征信查詢次數(shù)雄右,查詢過多意味著資金需求高,風(fēng)險(xiǎn)較大

4.數(shù)據(jù)含義一致性

實(shí)際工作中纺讲,原本屬于同一含義的記錄會(huì)有不同的表示形式擂仍,比如:“QQ”與“qq”。

(如有不同見解熬甚,望不吝賜教7暧妗!)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末乡括,一起剝皮案震驚了整個(gè)濱河市肃廓,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌诲泌,老刑警劉巖盲赊,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異档礁,居然都是意外死亡角钩,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來递礼,“玉大人惨险,你說我怎么就攤上這事〖顾瑁” “怎么了辫愉?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)将硝。 經(jīng)常有香客問我恭朗,道長(zhǎng),這世上最難降的妖魔是什么依疼? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任痰腮,我火速辦了婚禮,結(jié)果婚禮上律罢,老公的妹妹穿的比我還像新娘膀值。我一直安慰自己,他們只是感情好误辑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布沧踏。 她就那樣靜靜地躺著,像睡著了一般巾钉。 火紅的嫁衣襯著肌膚如雪翘狱。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天砰苍,我揣著相機(jī)與錄音潦匈,去河邊找鬼。 笑死师骗,一個(gè)胖子當(dāng)著我的面吹牛历等,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播辟癌,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼寒屯,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了黍少?” 一聲冷哼從身側(cè)響起寡夹,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎厂置,沒想到半個(gè)月后菩掏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡昵济,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年智绸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了野揪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡瞧栗,死狀恐怖斯稳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情迹恐,我是刑警寧澤挣惰,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站殴边,受9級(jí)特大地震影響憎茂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锤岸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一竖幔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧是偷,春花似錦赏枚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽凡辱。三九已至戒职,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間透乾,已是汗流浹背洪燥。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乳乌,地道東北人捧韵。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像汉操,于是被迫代替她去往敵國(guó)和親再来。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容