消費(fèi)信貸評(píng)分建模與應(yīng)用_建模部分

評(píng)分模型的開發(fā)

步驟1 確定評(píng)分目的

步驟2 基本定義

觀察期與績(jī)效期

觀察期一般是指預(yù)測(cè)變量的歷史時(shí)間間隔防嗡,一般過(guò)長(zhǎng)的話會(huì)沒(méi)有辦法反映出逾期的標(biāo)簽;如果過(guò)短的話會(huì)不太穩(wěn)定,一般以6-12個(gè)月為觀察期。

績(jī)效期又叫表現(xiàn)期硅急,也就是準(zhǔn)備預(yù)測(cè)客戶出現(xiàn)違約概率的時(shí)間長(zhǎng)度,根據(jù)產(chǎn)品和客群的不同佳遂,通常預(yù)測(cè)時(shí)間長(zhǎng)度為12-24個(gè)月营袜。

違約定義

評(píng)分模型關(guān)鍵在于區(qū)分好壞用戶,所以最重要的是定義壞用戶(bad)丑罪,壞用戶不僅是逾期荚板,包括催收,呆賬等等吩屹。

灰色地帶

有一些用戶可能只出現(xiàn)了M1和M2的的逾期跪另,這個(gè)有可能是因?yàn)橛脩敉涍€款,往往在提醒后能夠還上款祟峦,為了模型的好壞區(qū)分能力罚斗,這部分灰色地帶的用戶不適合作為模型的訓(xùn)練樣本,但是可以作為后面驗(yàn)證模型分?jǐn)?shù)分布的樣本宅楞,這部分樣本的分?jǐn)?shù)應(yīng)該大多數(shù)落在中間范圍內(nèi)。

選擇好壞和灰色地帶

一般來(lái)說(shuō)袱吆,我們可以通過(guò)轉(zhuǎn)移分析去查看厌衙,也就是將劃分不同類別的用戶在經(jīng)過(guò)12個(gè)月以后再看它們所處的狀態(tài),看是否穩(wěn)定绞绒,從而判定逾期的定義是否準(zhǔn)確和穩(wěn)定婶希。

樣本區(qū)間

一般來(lái)說(shuō)需要按照客群和產(chǎn)品特性對(duì)樣本進(jìn)行不同的間隔區(qū)分,對(duì)每個(gè)客群或者產(chǎn)品做子模型或者做不同的分?jǐn)?shù)準(zhǔn)駁切點(diǎn)蓬衡。

步驟3 資料準(zhǔn)備

步驟4 變量分析

變量的形態(tài)可以分為連續(xù)變量分類變量喻杈,首先要做變量的共線性分析彤枢,根據(jù)預(yù)測(cè)能力和穩(wěn)定性選擇其中一個(gè)就可以了。

接下來(lái)進(jìn)行單因子分析筒饰。單因子分析主要是為了檢測(cè)變量對(duì)好壞的區(qū)分能力缴啡。

包括woe分析和iv值分析。woe分析可以檢測(cè)出一個(gè)變量在哪個(gè)區(qū)間段對(duì)好壞的區(qū)分程度最高瓷们,作為該變量的切分位點(diǎn)业栅。iv值分析可以對(duì)比不同變量對(duì)于標(biāo)簽的預(yù)測(cè)能力。

WOE=ln(\frac{好用戶的占比}{壞用戶的占比})

一般來(lái)說(shuō)谬晕,WOE的絕對(duì)值隨著變量的值增大隨之增大碘裕,說(shuō)明預(yù)測(cè)效果比較好,好壞區(qū)分能力強(qiáng)攒钳。

IV=\sum_{i=1}^n(好用戶的占比-壞用戶的占比)*WOE_i

為了使訊息值提高帮孔,需要把臨近的分組進(jìn)行合并,最后得到的是粗分組不撑。重新計(jì)算iv值文兢,通過(guò)iv值高低進(jìn)行排序,從中挑選變量燎孟,排除穩(wěn)定性不強(qiáng)禽作,趨勢(shì)異常,只選取高度相關(guān)的變量揩页,作為短變量清單旷偿。可以用順向進(jìn)入法爆侣,反向排除法以及逐步回歸法篩選入模變量萍程。

步驟5 建立模型

一般來(lái)說(shuō),理想的分類模型應(yīng)該是能夠良好地區(qū)分出好壞用戶的兔仰,但實(shí)際上由于真實(shí)場(chǎng)景中的壞用戶比例是很低的茫负,為了增強(qiáng)模型的預(yù)測(cè)能力,一般是將好壞用戶的比例調(diào)整到3:1~5:1乎赴。并且會(huì)用70%的數(shù)據(jù)作為訓(xùn)練集忍法,30%的數(shù)據(jù)作為后面的驗(yàn)證集。

一般二分類問(wèn)題會(huì)采用邏輯回歸模型榕吼,邏輯回歸對(duì)于二分類的問(wèn)題(0或者1)可以給出每個(gè)樣本預(yù)測(cè)為正樣本的概率大小饿序,該概率大小可以映射為一個(gè)評(píng)分卡分?jǐn)?shù)(score)。評(píng)分卡分?jǐn)?shù)可以分為兩個(gè)部分羹蚣,一個(gè)是基礎(chǔ)分?jǐn)?shù)原探,也就是base score,另外一個(gè)是scale,也就是隨著好壞比例的增長(zhǎng)分?jǐn)?shù)的增加幅度咽弦。

公式為:

score=ln(odds)*scale+location

邏輯回歸可以得到ln(odds)徒蟆,也就是好壞帳戶的比例的對(duì)數(shù)。也稱為勝算率型型。

scale為增長(zhǎng)單位ln(odds)時(shí)分?jǐn)?shù)增加的大小段审。

假設(shè)當(dāng)odds從1:2增加到1:1的時(shí)候,score增加20

那么就有:

Score\_01=ln(\frac{1}{2})*scale+location

Score\_02=ln(\frac{1}{1})*scale+location

score\_02-score\_01=20

可以解出來(lái)scale=10

當(dāng)odds為1:1的時(shí)候输莺,score為50戚哎,那么帶入公式可以解出location=50

所以公式為

score=ln(odds)*10+50

可以獲得模型的ln(odds)對(duì)應(yīng)的分?jǐn)?shù)。

步驟6 婉拒推論(又叫拒絕推論)

信貸的流程:

用戶接觸到貸款平臺(tái)->進(jìn)件->審核->核準(zhǔn)通過(guò)或者拒絕

我們用來(lái)構(gòu)建模型的樣本往往是通過(guò)第一道核準(zhǔn)通過(guò)的嫂用,因此模型接觸到的好壞樣本分布與現(xiàn)實(shí)的好壞樣本分布是不同的型凳。因此我們需要加入在核準(zhǔn)之前的部分壞樣本,重新訓(xùn)練模型使得模型的預(yù)測(cè)能夠更加接近實(shí)際的狀況嘱函,進(jìn)行模型修正甘畅。

整個(gè)流程大概如下:

常使用的婉拒推論的方法是「擴(kuò)充法」。也就是使用有標(biāo)簽的樣本訓(xùn)練出一個(gè)模型往弓,模型去預(yù)測(cè)婉拒的樣本疏唾,推測(cè)其好壞,將其加入到核準(zhǔn)的有標(biāo)簽樣本中重新訓(xùn)練模型函似。有兩種擴(kuò)充法槐脏,一種是「單純擴(kuò)充法」,另外一種是「分群法」撇寞。

單純擴(kuò)充法

單純擴(kuò)充法是直接根據(jù)訓(xùn)練的模型對(duì)婉拒的樣本進(jìn)行預(yù)測(cè)正樣本的概率顿天,以一定的閾值作為區(qū)分好壞的標(biāo)準(zhǔn),將高于該閾值的作為正樣本蔑担,其余為負(fù)樣本牌废,加入到原本的樣本中重新訓(xùn)練。

分群法

分群法是指給原本核準(zhǔn)的樣本預(yù)測(cè)的分?jǐn)?shù)或者概率進(jìn)行從小到大分箱啤握,計(jì)算每個(gè)分箱里面正負(fù)樣本的比例鸟缕,以模型去給婉拒樣本預(yù)測(cè)為正樣本的概率,同樣從小到大分箱排抬,以前面的核準(zhǔn)樣本的各個(gè)分箱里面正負(fù)樣本的比例去隨機(jī)抽取婉拒樣本的正負(fù)比例懂从。

步驟7 效力驗(yàn)證

效力驗(yàn)證包括兩方面:「區(qū)分能力的驗(yàn)證」「穩(wěn)定性的驗(yàn)證」。驗(yàn)證的方式包括樣本外的驗(yàn)證(out-of-sample validation)和時(shí)間外的驗(yàn)證(out-of-time validation)蹲蒲。

前者主要是校驗(yàn)?zāi)P驮跍y(cè)試集上面的區(qū)分效果莫绣,后者主要是在時(shí)間維度上測(cè)量模型對(duì)于好壞樣本區(qū)分的穩(wěn)定性。

區(qū)分能力的驗(yàn)證

一般來(lái)說(shuō)最優(yōu)的模型都是能夠把好壞完全區(qū)分開悠鞍,然而現(xiàn)實(shí)是模型對(duì)于好壞的預(yù)測(cè)分?jǐn)?shù)總是有一部分的重疊,但較優(yōu)的模型都是預(yù)測(cè)壞用戶的分?jǐn)?shù)集中在低分段,好用戶集中在高分?jǐn)?shù)段咖祭。以下是模型對(duì)樣本預(yù)測(cè)分?jǐn)?shù)的理想掩宜,正常和較差的分布情況。

目前用來(lái)衡量區(qū)分能力大小的指標(biāo)有ks值和auc么翰。

ks值是先畫出好壞客戶的累積分布曲線牺汤,其中最大的差距就是ks value,就是max(bad%(累積)-good%(累積))浩嫌。

ks值的解釋能力

穩(wěn)定性的驗(yàn)證

一般來(lái)說(shuō)檐迟,建模都是根據(jù)某個(gè)時(shí)間段的樣本去建模的,隨著時(shí)間的延長(zhǎng)有可能出現(xiàn)模型的穩(wěn)定性降低最終失效的問(wèn)題码耐。用來(lái)衡量模型的穩(wěn)定性一般用psi值追迟。psi一般用來(lái)比較兩個(gè)分布的差別。在風(fēng)控骚腥,psi值用來(lái)衡量模型在預(yù)測(cè)某個(gè)時(shí)間點(diǎn)前后的樣本的評(píng)分的分布差異敦间。

psi的計(jì)算公式:

PSI=\sum_{i=1}^n(post\%-base\%)ln(\frac{post\%}{base\%})

psi的解釋能力

一般來(lái)說(shuō),模型上線以后還需要持續(xù)監(jiān)控模型區(qū)分能力和穩(wěn)定性束铭,一旦發(fā)生比較大的改變需要去監(jiān)控變量是否發(fā)生了比較大的改變廓块。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市契沫,隨后出現(xiàn)的幾起案子带猴,更是在濱河造成了極大的恐慌,老刑警劉巖懈万,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拴清,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡钞速,警方通過(guò)查閱死者的電腦和手機(jī)贷掖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)渴语,“玉大人苹威,你說(shuō)我怎么就攤上這事〖菪祝” “怎么了牙甫?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵口渔,是天一觀的道長(zhǎng)杨帽。 經(jīng)常有香客問(wèn)我,道長(zhǎng)铺然,這世上最難降的妖魔是什么技肩? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任且轨,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘旋奢。我一直安慰自己泳挥,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布至朗。 她就那樣靜靜地躺著屉符,像睡著了一般。 火紅的嫁衣襯著肌膚如雪锹引。 梳的紋絲不亂的頭發(fā)上矗钟,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音嫌变,去河邊找鬼吨艇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛初澎,可吹牛的內(nèi)容都是我干的秸应。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼碑宴,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼软啼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起延柠,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤祸挪,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后贞间,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贿条,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年增热,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了整以。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡峻仇,死狀恐怖公黑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情摄咆,我是刑警寧澤凡蚜,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站吭从,受9級(jí)特大地震影響朝蜘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜涩金,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一谱醇、第九天 我趴在偏房一處隱蔽的房頂上張望暇仲。 院中可真熱鬧,春花似錦枣抱、人聲如沸熔吗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至讼载,卻和暖如春轿秧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背咨堤。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工菇篡, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人一喘。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓驱还,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親凸克。 傳聞我的和親對(duì)象是個(gè)殘疾皇子议蟆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354