風(fēng)控建模流程

? ? ? ? 以下以申請(qǐng)?jiān)u分卡(A卡)建模為例秘车，描述模型開(kāi)發(fā)的基本流程：
1.數(shù)據(jù)準(zhǔn)備：定義目標(biāo)變量载城，整合樣本特征；劃分?jǐn)?shù)據(jù)集：訓(xùn)練集、驗(yàn)證集與測(cè)試集，由于金融業(yè)務(wù)中的樣本的積累周期比較長(zhǎng)，因此測(cè)試集有必要?jiǎng)澐譃閮煞N檩电，一種為訓(xùn)練集時(shí)間跨度內(nèi)拄丰，一種為訓(xùn)練集時(shí)間跨度之外府树，用時(shí)間外的測(cè)試集驗(yàn)證模型特征的穩(wěn)定性。
2.探索性數(shù)據(jù)分析：統(tǒng)計(jì)每個(gè)特征取值的分布料按；統(tǒng)計(jì)每個(gè)特征的覆蓋率奄侠，去掉覆蓋率較低的特征；處理樣本的異常值和缺失值载矿。
3.數(shù)據(jù)預(yù)處理：根據(jù)經(jīng)驗(yàn)對(duì)特征作預(yù)篩選垄潮，篩除于目標(biāo)變量無(wú)關(guān)的特征；特征分箱闷盔；WOE轉(zhuǎn)換弯洗。
4.特征選擇：計(jì)算IV值，特征選擇逢勾。
5.模型開(kāi)發(fā)：常用邏輯回歸模型進(jìn)行擬合牡整。
6.模型評(píng)估：模型常見(jiàn)的評(píng)估指標(biāo)有AUC,ROC,KS,Gani-chat,Lift-chat，特征穩(wěn)定性的評(píng)估指標(biāo)psi溺拱。
7.生成評(píng)分卡逃贝。
流程示意圖如下所示：

風(fēng)控建模流程示意圖.png

1.數(shù)據(jù)準(zhǔn)備

? ? ? ? 不同的評(píng)分模型需要的數(shù)據(jù)是不同的谣辞，在建模之前需要對(duì)對(duì)要解決的問(wèn)題建立明確的數(shù)學(xué)定義。
1.排除一些特定的建模用戶
? ? ? ? 用于建模的用戶必須是日常審批中接觸到的用戶沐扳，不能是異常情況泥从，比如欺詐等。
2.明確用戶的屬性
? ? ? ? 用戶的基本屬性沪摄，比如學(xué)歷躯嫉、年齡、收入情況等杨拐；征信機(jī)構(gòu)的數(shù)據(jù)和其他外部數(shù)據(jù)和敬，比如芝麻分。
3.目標(biāo)變量的確立
? ? ? ? 評(píng)分模型是利用歷史的數(shù)據(jù)預(yù)測(cè)未來(lái)的行為戏阅，需要明確定義正負(fù)樣本的標(biāo)簽昼弟。不能出現(xiàn)歧義，重疊等奕筐。
4.劃分?jǐn)?shù)據(jù)集
? ? ? ? 通常訓(xùn)練模型需要?jiǎng)澐钟?xùn)練集舱痘、驗(yàn)證集與測(cè)試集。信貸業(yè)務(wù)中樣本成熟的經(jīng)歷的時(shí)間比較長(zhǎng)离赫，因此測(cè)試集需要時(shí)間內(nèi)和時(shí)間外的數(shù)據(jù)芭逝，時(shí)間內(nèi)外是相對(duì)訓(xùn)練集的時(shí)間跨度而言，避免經(jīng)過(guò)一段時(shí)間后特征波動(dòng)或失效的發(fā)生渊胸。

2.探索性數(shù)據(jù)分析(EDA,Exploratory Data Analysis)

EDA的實(shí)施主要包括：
1.描述性統(tǒng)計(jì)
? ? ? ? 描述性統(tǒng)計(jì)是用一些統(tǒng)計(jì)量來(lái)對(duì)變量分析旬盯，如：平均值，標(biāo)準(zhǔn)差翎猛，最小值胖翰，最大值等。
2.統(tǒng)計(jì)每個(gè)變量值的分布切厘、特征覆蓋率及檢驗(yàn)正態(tài)分布
? ? ? ? 通常使用直方圖繪制變量不同取值的樣本分布萨咳，以及變量在樣本中的覆蓋率，篩除樣本中有值特別少的變量疫稿。
3.極值的識(shí)別與處理
? ? ? ? 每個(gè)變量需要設(shè)定一個(gè)正常的取值范圍培他。對(duì)數(shù)量較少的超出正常范圍的極端值作替換處理，若極端值的數(shù)量超過(guò)10%,則說(shuō)明數(shù)據(jù)的生成機(jī)制不止一個(gè)遗座。
4.缺失值的處理
4.1缺失值機(jī)制

完全隨機(jī)缺失(missing completely at random,MCAR)
缺失數(shù)據(jù)與該變量真實(shí)值無(wú)關(guān)舀凛，與其他變量的數(shù)值也無(wú)關(guān)。舉例：一位老師丟失幾張學(xué)生試卷途蒋，導(dǎo)致幾位學(xué)生沒(méi)有成績(jī)猛遍。成績(jī)的缺失與成績(jī)本身變量無(wú)關(guān)，也與性別無(wú)關(guān)，是完全隨機(jī)的螃壤。
隨機(jī)缺失（MAR）:缺失變量與其他變量有關(guān)抗果。舉例：統(tǒng)計(jì)學(xué)生信息時(shí)，體重缺失奸晴，一般來(lái)說(shuō)冤馏，女生的體重缺失，與性別有關(guān)寄啼。
非隨機(jī)缺失（NNAR）:缺失數(shù)量與該變量本身有關(guān)逮光。舉例：統(tǒng)計(jì)收入數(shù)據(jù)時(shí)，一般缺失的是收入過(guò)高或過(guò)低墩划。
完全變量：數(shù)據(jù)集中不含缺失值的變量涕刚。
不完全變量：數(shù)據(jù)集中含有缺失值的變量。
? ? ? ? 1,對(duì)缺失特別多的變量直接剔除乙帮；2,利用統(tǒng)計(jì)值替換杜漠，比如平均值，對(duì)離散變量察净，取同類樣本中取值最多的特征值驾茴。

3.數(shù)據(jù)預(yù)處理

1.特征初篩
? ? ? ? 根據(jù)業(yè)務(wù)經(jīng)驗(yàn)預(yù)先篩除掉與目標(biāo)變量無(wú)關(guān)的變量。
2.特征分箱
1)對(duì)于連續(xù)變量可以使用等頻分箱氢卡、等距分箱锈至、卡方分箱與最優(yōu)分箱；
2)對(duì)于離散變量译秦，可以卡方分箱峡捡，對(duì)離散變量取值合并分箱。
3.特征編碼
1)特征分箱離散化后可計(jì)算每個(gè)bin的woe值筑悴，形成每個(gè)bin的woe編碼
2)one-hot編碼
3)dummy編碼们拙，與one-hot編碼類似

4.特征選擇

1.計(jì)算IV值與psi值
? ? ? ? IV(Information Value):信息價(jià)值。IV可以用來(lái)衡量自變量的預(yù)測(cè)能力雷猪；WOE(Weight of Evidence,證據(jù)權(quán)重)和IV使用來(lái)衡量變量的預(yù)測(cè)能力睛竣，值越大晰房，表示此變量的預(yù)測(cè)能力越強(qiáng)求摇。PSI可以用來(lái)衡量特征的穩(wěn)定性。
? ? ? ? 在訓(xùn)練模型時(shí)殊者，挑選特征是一個(gè)比較復(fù)雜的過(guò)程与境，要考慮的因素有很多，比如猖吴，變量的預(yù)測(cè)能力摔刁，變量之間的相關(guān)性，變量的簡(jiǎn)單性(容易生成和使用)海蔽，變量的強(qiáng)壯性(不容易被繞過(guò))共屈，變量在業(yè)務(wù)中的可解釋性绑谣。其中變量的預(yù)測(cè)能力可以通過(guò)IV值衡量。IV的計(jì)算是以WOE為基礎(chǔ)的拗引。

(1).WOE

? ? ? ? 要對(duì)一個(gè)變量進(jìn)行WOE編碼借宵，必須對(duì)變量離散化(分箱)，分箱后矾削，第i組的woe值得計(jì)算公式為:
$WOE_{i}=ln(\frac{py_i}{pn_i}))=ln(\frac{(\frac{\#y_i}{\#y_T})}{(\frac{\#n_i}{\#n_T})})$
其中壤玫， $py_i$ 為這個(gè)組中響應(yīng)客戶(風(fēng)險(xiǎn)模型中為違約客戶，正樣本)的哼凯，占總體正樣本的比例欲间， $pn_i$ 為負(fù)樣本所占比例， $\#y_i$ 為該分組中正樣本數(shù)量断部， $\#n_i$ 為該組負(fù)樣本數(shù)量猎贴， $\#y_T,\#n_T$ 代表總體樣本中的正負(fù)樣本數(shù)量，WOE實(shí)際代表該分組中的正負(fù)樣本比例的差異蝴光，值越大嘱能，差異越大，該分組越能區(qū)分正負(fù)樣本虱疏。第i組的IV 值為:
$IV_i=(py_i-pn_i)*WOE_i$
整個(gè)變量的IV值為(n個(gè)分組 $IV_i$ 值得嘉和)：
$IV=\sum_{i}^{n}IV_i$

特征信息值(IV)	預(yù)測(cè)能力
<0.03	無(wú)預(yù)測(cè)能力
0.03~0.09	低
0.1~0.29	中
0.3~0.49	高
0.5~	極高

2.特征篩選
選擇IV值高惹骂，PSI值低，覆蓋率高的特征入模做瞪。

5.模型開(kāi)發(fā)

1.模型擬合
常用lr邏輯回歸模型進(jìn)行分類对粪。
2.step-wise模型優(yōu)化
根據(jù)p值篩選模型變量，原假設(shè)(變量不重要装蓬，與目標(biāo)變量無(wú)光)著拭，在此假設(shè)基礎(chǔ)上計(jì)算chi-square,若chi-square值大，則p值小牍帚，p值<0.01說(shuō)明變量很重要儡遮。

6.模型評(píng)估

? ? ? ? 模型擬合之后，需要評(píng)估模型的好壞暗赶。好的模型一般要有以下三個(gè)基本要求：
1.精確性鄙币。模型在預(yù)測(cè)時(shí)，要有一定的精確性蹂随；2.穩(wěn)健性十嘿。模型必須對(duì)從總體樣本中抽取的所有樣本都有效；3.有意義
以下介紹幾個(gè)常用的評(píng)價(jià)指標(biāo)：
1.混淆矩陣
2.KS曲線
3.AUC曲線
4.ROC指標(biāo)
5.Gini系數(shù)
6.Lift-chart提升圖

7.生成評(píng)分卡

? ? ? ? 一個(gè)事件發(fā)生的幾率（Odds）岳锁，是指該事件發(fā)生的概率與該事件不發(fā)生概率的比值绩衷。若一個(gè)客戶違約概率為p，則其正常的概率為1-p，由此可得：
$Odds=\frac{p}{1-p}$
此時(shí)咳燕，客戶違約的概率p可以表示為:
$p=\frac{Odds}{1+Odds}$
評(píng)分卡表達(dá)式為：
$Score=A-B\log(Odds)$
其中A勿决、B為常數(shù)。由于log函數(shù)在(0→+∞)單調(diào)遞增招盲，所以當(dāng)用戶違約幾率Odds越大時(shí)剥险，Score評(píng)分越低。通過(guò)給定 :
（1）某特定Odds時(shí)的Score值S0宪肖；
（2）該特定Odds值翻倍時(shí)Score增加值PD0;
通過(guò)給定值S0與PD0帶入評(píng)分卡表達(dá)式表制，可求得A、B控乾。

(未完待續(xù)么介。。蜕衡。)

最后編輯于：2019.08.18 12:30:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末壤短，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子慨仿，更是在濱河造成了極大的恐慌久脯，老刑警劉巖，帶你破解...
沈念sama閱讀 221,820評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件镰吆，死亡現(xiàn)場(chǎng)離奇詭異帘撰，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)万皿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門摧找，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人牢硅，你說(shuō)我怎么就攤上這事蹬耘。” “怎么了减余？”我有些...
開(kāi)封第一講書人閱讀 168,324評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵综苔，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我位岔，道長(zhǎng)如筛，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書人閱讀 59,714評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任赃承，我火速辦了婚禮妙黍，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘瞧剖。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,724評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布抓于。她就那樣靜靜地躺著做粤，像睡著了一般。火紅的嫁衣襯著肌膚如雪捉撮。梳的紋絲不亂的頭發(fā)上怕品，一...
開(kāi)封第一講書人閱讀 52,328評(píng)論 1贊 310
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音巾遭，去河邊找鬼肉康。笑死，一個(gè)胖子當(dāng)著我的面吹牛灼舍，可吹牛的內(nèi)容都是我干的吼和。我是一名探鬼主播，決...
沈念sama閱讀 40,897評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼骑素，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼炫乓！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起献丑，我...
開(kāi)封第一講書人閱讀 39,804評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤末捣，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后创橄，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體箩做，經(jīng)...
沈念sama閱讀 46,345評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,431評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年妥畏，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了卒茬。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,561評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡咖熟，死狀恐怖圃酵，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情馍管，我是刑警寧澤郭赐，帶...
沈念sama閱讀 36,238評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站确沸，受9級(jí)特大地震影響捌锭，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜罗捎，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,928評(píng)論 3贊 334
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一观谦、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧桨菜，春花似錦豁状、人聲如沸捉偏。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 32,417評(píng)論 0贊 24
一樁弒父案泻红，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)夭禽。三九已至，卻和暖如春谊路，著一層夾襖步出監(jiān)牢的瞬間讹躯，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,528評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工缠劝，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留潮梯，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,983評(píng)論 3贊 376
代替公主和親
正文我出身青樓惨恭，卻偏偏與公主長(zhǎng)得像秉馏，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子喉恋，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,573評(píng)論 2贊 359