評(píng)分模型的開發(fā)
步驟1 確定評(píng)分目的
步驟2 基本定義
觀察期與績(jī)效期
觀察期一般是指預(yù)測(cè)變量的歷史時(shí)間間隔防嗡,一般過(guò)長(zhǎng)的話會(huì)沒(méi)有辦法反映出逾期的標(biāo)簽;如果過(guò)短的話會(huì)不太穩(wěn)定,一般以6-12個(gè)月為觀察期。
績(jī)效期又叫表現(xiàn)期硅急,也就是準(zhǔn)備預(yù)測(cè)客戶出現(xiàn)違約概率的時(shí)間長(zhǎng)度,根據(jù)產(chǎn)品和客群的不同佳遂,通常預(yù)測(cè)時(shí)間長(zhǎng)度為12-24個(gè)月营袜。
違約定義
評(píng)分模型關(guān)鍵在于區(qū)分好壞用戶,所以最重要的是定義壞用戶(bad)丑罪,壞用戶不僅是逾期荚板,包括催收,呆賬等等吩屹。
灰色地帶
有一些用戶可能只出現(xiàn)了M1和M2的的逾期跪另,這個(gè)有可能是因?yàn)橛脩敉涍€款,往往在提醒后能夠還上款祟峦,為了模型的好壞區(qū)分能力罚斗,這部分灰色地帶的用戶不適合作為模型的訓(xùn)練樣本,但是可以作為后面驗(yàn)證模型分?jǐn)?shù)分布的樣本宅楞,這部分樣本的分?jǐn)?shù)應(yīng)該大多數(shù)落在中間范圍內(nèi)。
選擇好壞和灰色地帶
一般來(lái)說(shuō)袱吆,我們可以通過(guò)轉(zhuǎn)移分析去查看厌衙,也就是將劃分不同類別的用戶在經(jīng)過(guò)12個(gè)月以后再看它們所處的狀態(tài),看是否穩(wěn)定绞绒,從而判定逾期的定義是否準(zhǔn)確和穩(wěn)定婶希。
樣本區(qū)間
一般來(lái)說(shuō)需要按照客群和產(chǎn)品特性對(duì)樣本進(jìn)行不同的間隔區(qū)分,對(duì)每個(gè)客群或者產(chǎn)品做子模型或者做不同的分?jǐn)?shù)準(zhǔn)駁切點(diǎn)蓬衡。
步驟3 資料準(zhǔn)備
步驟4 變量分析
變量的形態(tài)可以分為連續(xù)變量和分類變量喻杈,首先要做變量的共線性分析彤枢,根據(jù)預(yù)測(cè)能力和穩(wěn)定性選擇其中一個(gè)就可以了。
接下來(lái)進(jìn)行單因子分析筒饰。單因子分析主要是為了檢測(cè)變量對(duì)好壞的區(qū)分能力缴啡。
包括woe分析和iv值分析。woe分析可以檢測(cè)出一個(gè)變量在哪個(gè)區(qū)間段對(duì)好壞的區(qū)分程度最高瓷们,作為該變量的切分位點(diǎn)业栅。iv值分析可以對(duì)比不同變量對(duì)于標(biāo)簽的預(yù)測(cè)能力。
一般來(lái)說(shuō)谬晕,WOE的絕對(duì)值隨著變量的值增大隨之增大碘裕,說(shuō)明預(yù)測(cè)效果比較好,好壞區(qū)分能力強(qiáng)攒钳。
為了使訊息值提高帮孔,需要把臨近的分組進(jìn)行合并,最后得到的是粗分組不撑。重新計(jì)算iv值文兢,通過(guò)iv值高低進(jìn)行排序,從中挑選變量燎孟,排除穩(wěn)定性不強(qiáng)禽作,趨勢(shì)異常,只選取高度相關(guān)的變量揩页,作為短變量清單旷偿。可以用順向進(jìn)入法爆侣,反向排除法以及逐步回歸法篩選入模變量萍程。
步驟5 建立模型
一般來(lái)說(shuō),理想的分類模型應(yīng)該是能夠良好地區(qū)分出好壞用戶的兔仰,但實(shí)際上由于真實(shí)場(chǎng)景中的壞用戶比例是很低的茫负,為了增強(qiáng)模型的預(yù)測(cè)能力,一般是將好壞用戶的比例調(diào)整到3:1~5:1乎赴。并且會(huì)用70%的數(shù)據(jù)作為訓(xùn)練集忍法,30%的數(shù)據(jù)作為后面的驗(yàn)證集。
一般二分類問(wèn)題會(huì)采用邏輯回歸模型榕吼,邏輯回歸對(duì)于二分類的問(wèn)題(0或者1)可以給出每個(gè)樣本預(yù)測(cè)為正樣本的概率大小饿序,該概率大小可以映射為一個(gè)評(píng)分卡分?jǐn)?shù)(score)。評(píng)分卡分?jǐn)?shù)可以分為兩個(gè)部分羹蚣,一個(gè)是基礎(chǔ)分?jǐn)?shù)原探,也就是base score,另外一個(gè)是scale,也就是隨著好壞比例的增長(zhǎng)分?jǐn)?shù)的增加幅度咽弦。
公式為:
邏輯回歸可以得到徒蟆,也就是好壞帳戶的比例的對(duì)數(shù)。也稱為勝算率型型。
scale為增長(zhǎng)單位時(shí)分?jǐn)?shù)增加的大小段审。
假設(shè)當(dāng)odds從1:2增加到1:1的時(shí)候,score增加20
那么就有:
可以解出來(lái)scale=10
當(dāng)odds為1:1的時(shí)候输莺,score為50戚哎,那么帶入公式可以解出
所以公式為
可以獲得模型的對(duì)應(yīng)的分?jǐn)?shù)。
步驟6 婉拒推論(又叫拒絕推論)
信貸的流程:
用戶接觸到貸款平臺(tái)->進(jìn)件->審核->核準(zhǔn)通過(guò)或者拒絕
我們用來(lái)構(gòu)建模型的樣本往往是通過(guò)第一道核準(zhǔn)通過(guò)的嫂用,因此模型接觸到的好壞樣本分布與現(xiàn)實(shí)的好壞樣本分布是不同的型凳。因此我們需要加入在核準(zhǔn)之前的部分壞樣本,重新訓(xùn)練模型使得模型的預(yù)測(cè)能夠更加接近實(shí)際的狀況嘱函,進(jìn)行模型修正甘畅。
整個(gè)流程大概如下:
常使用的婉拒推論的方法是「擴(kuò)充法」。也就是使用有標(biāo)簽的樣本訓(xùn)練出一個(gè)模型往弓,模型去預(yù)測(cè)婉拒的樣本疏唾,推測(cè)其好壞,將其加入到核準(zhǔn)的有標(biāo)簽樣本中重新訓(xùn)練模型函似。有兩種擴(kuò)充法槐脏,一種是「單純擴(kuò)充法」,另外一種是「分群法」撇寞。
單純擴(kuò)充法
單純擴(kuò)充法是直接根據(jù)訓(xùn)練的模型對(duì)婉拒的樣本進(jìn)行預(yù)測(cè)正樣本的概率顿天,以一定的閾值作為區(qū)分好壞的標(biāo)準(zhǔn),將高于該閾值的作為正樣本蔑担,其余為負(fù)樣本牌废,加入到原本的樣本中重新訓(xùn)練。
分群法
分群法是指給原本核準(zhǔn)的樣本預(yù)測(cè)的分?jǐn)?shù)或者概率進(jìn)行從小到大分箱啤握,計(jì)算每個(gè)分箱里面正負(fù)樣本的比例鸟缕,以模型去給婉拒樣本預(yù)測(cè)為正樣本的概率,同樣從小到大分箱排抬,以前面的核準(zhǔn)樣本的各個(gè)分箱里面正負(fù)樣本的比例去隨機(jī)抽取婉拒樣本的正負(fù)比例懂从。
步驟7 效力驗(yàn)證
效力驗(yàn)證包括兩方面:「區(qū)分能力的驗(yàn)證」和「穩(wěn)定性的驗(yàn)證」。驗(yàn)證的方式包括樣本外的驗(yàn)證(out-of-sample validation)和時(shí)間外的驗(yàn)證(out-of-time validation)蹲蒲。
前者主要是校驗(yàn)?zāi)P驮跍y(cè)試集上面的區(qū)分效果莫绣,后者主要是在時(shí)間維度上測(cè)量模型對(duì)于好壞樣本區(qū)分的穩(wěn)定性。
區(qū)分能力的驗(yàn)證
一般來(lái)說(shuō)最優(yōu)的模型都是能夠把好壞完全區(qū)分開悠鞍,然而現(xiàn)實(shí)是模型對(duì)于好壞的預(yù)測(cè)分?jǐn)?shù)總是有一部分的重疊,但較優(yōu)的模型都是預(yù)測(cè)壞用戶的分?jǐn)?shù)集中在低分段,好用戶集中在高分?jǐn)?shù)段咖祭。以下是模型對(duì)樣本預(yù)測(cè)分?jǐn)?shù)的理想掩宜,正常和較差的分布情況。
目前用來(lái)衡量區(qū)分能力大小的指標(biāo)有ks值和auc么翰。
ks值是先畫出好壞客戶的累積分布曲線牺汤,其中最大的差距就是ks value,就是max(bad%(累積)-good%(累積))浩嫌。
ks值的解釋能力
穩(wěn)定性的驗(yàn)證
一般來(lái)說(shuō)檐迟,建模都是根據(jù)某個(gè)時(shí)間段的樣本去建模的,隨著時(shí)間的延長(zhǎng)有可能出現(xiàn)模型的穩(wěn)定性降低最終失效的問(wèn)題码耐。用來(lái)衡量模型的穩(wěn)定性一般用psi值追迟。psi一般用來(lái)比較兩個(gè)分布的差別。在風(fēng)控骚腥,psi值用來(lái)衡量模型在預(yù)測(cè)某個(gè)時(shí)間點(diǎn)前后的樣本的評(píng)分的分布差異敦间。
psi的計(jì)算公式:
psi的解釋能力
一般來(lái)說(shuō),模型上線以后還需要持續(xù)監(jiān)控模型區(qū)分能力和穩(wěn)定性束铭,一旦發(fā)生比較大的改變需要去監(jiān)控變量是否發(fā)生了比較大的改變廓块。