本文是基于書籍《信用風(fēng)險(xiǎn)評分卡研究》學(xué)習(xí)總結(jié)徘熔,此篇為提綱车猬,后續(xù)會針對每一部分詳細(xì)介紹
標(biāo)準(zhǔn)評分卡
- 申請?jiān)u分卡(A卡)
側(cè)重貸前霉猛,在客戶獲取期,建立信用風(fēng)險(xiǎn)評分珠闰,預(yù)測客戶帶來違約風(fēng)險(xiǎn)的概率大小惜浅。
- 行為評分卡(B卡)
側(cè)重貸中,在客戶申請?zhí)幚砥谥酰⑸暾堬L(fēng)險(xiǎn)評分模型赡矢,預(yù)測客戶開戶后一定時(shí)期內(nèi)違約拖欠的風(fēng)險(xiǎn)概率。
- 催收評分卡(C卡)
側(cè)重貸后阅仔,在帳戶管理期吹散,建立催收評分模型,對逾期帳戶預(yù)測催收策略反應(yīng)的概率八酒。
1.問題準(zhǔn)備
明確業(yè)務(wù)要解決的問題空民,確定模型的評價(jià)指標(biāo)和數(shù)據(jù)來源
2.數(shù)據(jù)獲取和整合
將雜亂的數(shù)據(jù)處理為模型所需格式
- 變量類型
原始變量,衍生業(yè)務(wù)指標(biāo)(有業(yè)務(wù)含義)羞迷,分析變量(缺少明確的含義界轩、但預(yù)測能力高)
- 建模視圖
- 具體包括:ID標(biāo)識,候選自變量衔瓮,描述變量浊猾,報(bào)告變量,違約狀態(tài)字段热鞍。
- 從分析角度包括:名義變量(分類變量)葫慎,順序變量(有序分類變量)衔彻,連續(xù)變量。
此部分是建模所需數(shù)據(jù)匯總偷办,但可能只有一部分?jǐn)?shù)據(jù)會最終使用艰额。
- 數(shù)據(jù)來源
人口統(tǒng)計(jì)學(xué)特征、征信機(jī)構(gòu)數(shù)據(jù)和外部數(shù)據(jù)椒涯、交易記錄等柄沮,實(shí)際需根據(jù)業(yè)務(wù)確定
- 數(shù)據(jù)校準(zhǔn)、合并废岂、整合祖搓、檢驗(yàn)
對數(shù)據(jù)的業(yè)務(wù)真實(shí)性作校驗(yàn),對不同來源數(shù)據(jù)作整合泪喊,并檢驗(yàn)數(shù)據(jù)的完整性
3.EDA(探索性數(shù)據(jù)分析)
- 描述性統(tǒng)計(jì)(單變量統(tǒng)計(jì):均值棕硫、方差、眾數(shù)袒啼、四分位數(shù)等)
- 評估變量值的分布和檢驗(yàn)正態(tài)假設(shè)
- 極端值的識別和處理
- 缺失值的計(jì)算和處理
- 關(guān)鍵變量列聯(lián)表統(tǒng)計(jì)量計(jì)算(卡方統(tǒng)計(jì)量)
- 變量間相關(guān)性和關(guān)聯(lián)性指標(biāo)計(jì)算(皮爾遜相關(guān)系數(shù)哈扮、斯皮爾曼相關(guān)系數(shù)、基尼方差等)
通過以上的數(shù)據(jù)分析篩選出一部分可以入模型的變量蚓再。
4.數(shù)據(jù)準(zhǔn)備
這部分是評分卡模型一些特有的處理方法滑肉,目的是為了增加變量的預(yù)測能力。
- 降低基數(shù)摘仅,對于類別數(shù)較多的名義變量靶庙,合并部分類別。
- 將連續(xù)變量分段(最優(yōu)分段:決策樹算法)娃属,進(jìn)行證據(jù)權(quán)重轉(zhuǎn)換(woe)
- 抽樣和權(quán)重轉(zhuǎn)換(隨機(jī)抽樣六荒、均衡抽樣、分層抽樣)
5.建模和變量選擇方法
- 模型算法:Logistic算法
- 變量選擇:正向選擇矾端,逆向選擇掏击,逐步選擇,最優(yōu)得分統(tǒng)計(jì)模型秩铆。
評分卡模型需要可解釋砚亭,所以目前業(yè)內(nèi)大部分采用Logistic算法,后續(xù)會詳細(xì)介紹殴玛。
6.模型評估
- 要求:精準(zhǔn)性捅膘,穩(wěn)健性,有意義
- 評估方法:混淆矩陣滚粟,洛倫茲曲線寻仗,K-S曲線,ROC曲線凡壤。
通過這些方法判斷模型好壞愧沟,最后再整體考慮選擇最優(yōu)變量和模型蔬咬,這是一個(gè)平衡的過程。
7.評分卡實(shí)施和報(bào)告
在模型調(diào)優(yōu)完成后就需要在業(yè)務(wù)中應(yīng)用沐寺,對每一位客戶評分,并設(shè)置評分的臨界水平盖奈,通過評分判斷是否放貸混坞,貸款金額、貸款利率等钢坦。
根據(jù)評分卡在實(shí)際業(yè)務(wù)中的表現(xiàn)究孕,制作實(shí)施前報(bào)告和實(shí)施后報(bào)告,并根據(jù)客戶群體和市場的變化評估模型的穩(wěn)定性爹凹,不定期調(diào)整模型厨诸。
8.拒絕演繹
目前申請?jiān)u分卡所研究的數(shù)據(jù)并不是從申請總體中隨機(jī)選擇的,而只是從過去已經(jīng)通過審批的賬戶中選擇的禾酱,因此將模型用于所有的群體隱含著對被拒絕用戶的忽視微酬,所以,在建立評分卡時(shí)將被拒絕這部分用戶進(jìn)行演繹加入到模型數(shù)據(jù)集中颤陶,這種方法被稱為拒絕演繹颗管。
在信用評分領(lǐng)域,并不是所有人都認(rèn)同拒絕演繹的價(jià)值和有效性滓走,這仍是一個(gè)有爭議的話題垦江,所以本文并不把這部分作為重點(diǎn)介紹。
以上是信用評分卡的整體流程簡介搅方,書中主要使用sas完成開發(fā)比吭,在后續(xù)對每一部分做詳細(xì)拆解中會側(cè)重使用python。
人生苦短姨涡,我用python衩藤。