年初的時(shí)候,我參考SAS評(píng)分卡指南整理了一份如何設(shè)計(jì)評(píng)分卡的文檔尸闸,后來請(qǐng)同事用 R語言重新寫了一遍。評(píng)分卡還有一個(gè)很高大上的名字,叫規(guī)則引擎吮廉。按說規(guī)則引擎要復(fù)雜得多睹栖,至少還要有模型性能評(píng)估與監(jiān)測(cè)、模型管理等內(nèi)容茧痕,但在國內(nèi)野来,無論是監(jiān)管部門還是信貸機(jī)構(gòu),對(duì)風(fēng)控模型的管理要求都不高踪旷,所以很多信貸機(jī)構(gòu)曼氛、特別是非銀信貸機(jī)構(gòu)的規(guī)則引擎里,除了評(píng)分卡之外令野,就沒有其他內(nèi)容了舀患。
評(píng)分卡是什么樣子的?
上圖是一個(gè)典型的貸前審批評(píng)分卡聊浅。
有三個(gè)特征:年齡、居住情況现使、收入低匙。每個(gè)特征又分為若干個(gè)屬性,例如碳锈,居住情況有兩個(gè)屬性顽冶,自有房或租房。
如果一名新用戶來申請(qǐng)貸款售碳,年齡35歲强重,收入38K,有房贸人,對(duì)應(yīng)的信用分?jǐn)?shù)分別是210间景、225、225艺智,加起來等于660倘要。該信貸機(jī)構(gòu)定義600以上授信,600以下不授信力惯,因此該機(jī)構(gòu)會(huì)給這名用戶授信碗誉。
那么,問題來了父晶。哮缺。。
所以甲喝,評(píng)分卡設(shè)計(jì)圍繞三個(gè)問題開展:
- Attributes : 如何對(duì)年齡尝苇、收入這樣的連續(xù)變量進(jìn)行分組?
- Score Points :有了分組的結(jié)果后,每個(gè)分組應(yīng)該給多少信用分糠溜?
- Cut-off : 如何定義一個(gè)合適的授信門檻分?jǐn)?shù)淳玩?
如何對(duì)變量進(jìn)行分組?
這個(gè)問題有點(diǎn)難非竿,為什么這么說呢蜕着?不同的分組方法會(huì)影響評(píng)分卡的性能,其中最重要的一個(gè)性能是红柱,評(píng)分卡可以盡可能地拒絕潛在的違約申請(qǐng)者承匣。
SAS 給變量分組起了一個(gè)很好聽的名字:Interactive Grouping Node (IGN),交互式分組節(jié)點(diǎn)锤悄。
在沒有科學(xué)分組之前韧骗,“機(jī)械式”分組方法是比較常用的做法,例如零聚,年齡每隔10年分一組袍暴,收入每兩萬元為一組等等。但這種分組并沒有考慮對(duì)評(píng)分卡性能的影響隶症。實(shí)際上政模,有些分組是可以合并的,而有些分組又必須得拆開沿腰。
例如览徒,假設(shè)15歲~25歲區(qū)間的違約率和26歲~35歲區(qū)間的違約率相同,那為什么不合并為一個(gè)區(qū)間呢颂龙?收入1萬~3萬區(qū)間違約率在2萬5有一個(gè)突然的下降,那是不是在2萬5這個(gè)點(diǎn)重新分組比較合理呢纽什?
于是措嵌,人們開始尋找解決辦法,設(shè)法建立變量分組和評(píng)分卡性能之間的關(guān)系芦缰。變量分組可以有無數(shù)種方案企巢,哪一種方案最能改善評(píng)分卡性能呢?也就是說我們需要一種測(cè)量工具让蕾,幫助我們對(duì)每一種方案進(jìn)行評(píng)估浪规,然后確定最好的分組方案。
好在信息論領(lǐng)域給我們提供了一些很好的測(cè)量工具探孝。例如:
- WOE:Weight of Evidence 證據(jù)權(quán)重值
- IV:Information Value 信息價(jià)值
- GINI:基尼系數(shù)
還有很多工具笋婿,例如熵指數(shù)等等。這里只講 WOE 和 IV顿颅,這也是 SAS 進(jìn)行變量分組的默認(rèn)工具缸濒。
舉例說明 WOE 和 IV 的計(jì)算:
21歲~24歲區(qū)間,有 82 個(gè)好用戶庇配,在全部好用戶中占 82/700 = 0.11714斩跌,有 52 個(gè)壞用戶,在全部壞用戶中占 52/300 = 0.17333捞慌,那么WOE = ln (0.11714/0.17333) x 100 = -39.18耀鸦,WOE 越小越好,表明這個(gè)分組可以更有效地識(shí)別出壞用戶啸澡。年齡的 IV 等于 0.089袖订。IV 的標(biāo)準(zhǔn)如下:
計(jì)算 IV 的目的是保留對(duì)性能提升有幫助的變量,刪除影響較小的變量锻霎。如下圖所示著角。
然后才到了對(duì)變量進(jìn)行分組的步驟,如下圖所示旋恼。
經(jīng)過反復(fù)的精細(xì)分組吏口,得到單調(diào)的WOE曲線,如下圖所示冰更。
如何給變量分組賦分产徊?
截止到變量分組,所有的工作都還是數(shù)據(jù)預(yù)處理蜀细,包括數(shù)據(jù)清洗舟铜、變量分組、特征工程等等奠衔,這些工作是極其重要的工作谆刨,SAS 的評(píng)分卡指南有41頁,其中27頁是描述數(shù)據(jù)預(yù)處理的归斤,差不多占了67%的篇幅痊夭。
變量分組和信用分?jǐn)?shù)之間是靠模型聯(lián)系在一起的,SAS 使用的是 Logistic 回歸模型脏里,這是工業(yè)界常用的一種算法她我。以某信貸機(jī)構(gòu)評(píng)分卡為例。
我們千辛萬苦搞定變量分組,引入了能夠和評(píng)分卡性能提升扯上關(guān)系的 WOE矾踱,但我們發(fā)現(xiàn)這還不夠恨狈,還得引入模型,而模型的好壞又間接地影響了評(píng)分卡性能介返。
怎么評(píng)價(jià)模型好壞呢拴事? 有很多工具可以評(píng)價(jià)模型好壞沃斤。例如杠桿比。如下圖所示刃宵。
或者觀察odds和信用得分的關(guān)系牲证,如下圖所示哮针。
我們解釋了變量分組問題坦袍,引入了 WOE十厢,然后通過建模,解決了變量分組轉(zhuǎn)化為信用分?jǐn)?shù)的問題捂齐。里面有很多細(xì)節(jié)蛮放,需要用到不同的工具。這里只講了 SAS 的作法奠宜,其實(shí)還有很多方法包颁。我們來解決最后一個(gè)問題:
授信門檻分?jǐn)?shù)(Cutoff Score)是怎么算出來的?
關(guān)于評(píng)分卡的討論
評(píng)分卡是舶來品娩嚼,對(duì)信用基礎(chǔ)數(shù)據(jù)有一定要求,國內(nèi)信用基礎(chǔ)數(shù)據(jù)建設(shè)剛剛起步滴肿,開發(fā)出一個(gè)可以應(yīng)用的評(píng)分卡岳悟,還有很多困難,但設(shè)計(jì)思路大體一致泼差,都是設(shè)法對(duì)申請(qǐng)人的還款能力和還款意愿進(jìn)行定量評(píng)估贵少。除了上面提到的算法,非監(jiān)督算法堆缘、貝葉斯算法春瞬、深度學(xué)習(xí)算法等都可以用來開發(fā)評(píng)分卡。
除了要關(guān)注算法套啤,還要關(guān)注業(yè)務(wù)和產(chǎn)品。不同產(chǎn)品的風(fēng)險(xiǎn)是不同的随常,例如潜沦,1000元以下現(xiàn)金貸和6000元以下現(xiàn)金貸的違約風(fēng)險(xiǎn)是不同的,不同獲客渠道的申請(qǐng)人違約風(fēng)險(xiǎn)是不同的绪氛。評(píng)分卡和模型都是風(fēng)險(xiǎn)測(cè)量工具唆鸡,整個(gè)風(fēng)控體系是由數(shù)個(gè)評(píng)分卡及相應(yīng)的策略(新產(chǎn)品設(shè)計(jì)、審批枣察、賬戶管理争占、催收燃逻、核銷)組合而成,維持各個(gè)環(huán)節(jié)的平衡并不是一件很容易的事情臂痕。
參考
http://www.sas.com/technologies/analytics/datamining/miner/trial/
http://www.statsoft.com/Textbook/Credit-Scoring
L. C. Thomas, Jonathan Crook, David Edelman, Lyn Thomas (2002) Credit Scoring & Its Applications
Building Credit Scoring Models with SAS ? Enterprise Miner
Anderson, R. The Credit Scoring Toolkit. Oxford University Press, 2007