變量選取
數(shù)據(jù)挖掘模型中的IV和WOE詳解
我們?cè)谟眠壿嫽貧w踢步、決策樹(shù)等模型方法構(gòu)建分類模型時(shí)缰趋,經(jīng)常需要對(duì)自變量進(jìn)行篩選哺眯。比如我們有200個(gè)候選自變量,通常情況下好爬,不會(huì)直接把200個(gè)變量直接放到模型中去進(jìn)行擬合訓(xùn)練局雄,而是會(huì)用一些方法,從這200個(gè)自變量中挑選一些出來(lái)存炮,放進(jìn)模型炬搭,形成入模變量列表。那么我們?cè)趺慈ヌ暨x入模變量呢穆桂?
挑選入模變量過(guò)程是個(gè)比較復(fù)雜的過(guò)程宫盔,需要考慮的因素很多,比如:變量的預(yù)測(cè)能力享完,變量之間的相關(guān)性灼芭,變量的簡(jiǎn)單性(容易生成和使用),變量的強(qiáng)壯性(不容易被繞過(guò))般又,變量在業(yè)務(wù)上的可解釋性(被挑戰(zhàn)時(shí)可以解釋的通)等等彼绷。但是,其中最主要和最直接的衡量標(biāo)準(zhǔn)是變量的預(yù)測(cè)能力茴迁。
“變量的預(yù)測(cè)能力”這個(gè)說(shuō)法很籠統(tǒng)寄悯,很主觀,非量化笋熬,在篩選變量的時(shí)候我們總不能說(shuō):“我覺(jué)得這個(gè)變量預(yù)測(cè)能力很強(qiáng)热某,所以他要進(jìn)入模型”吧?我們需要一些具體的量化指標(biāo)來(lái)衡量每自變量的預(yù)測(cè)能力胳螟,并根據(jù)這些量化指標(biāo)的大小昔馋,來(lái)確定哪些變量進(jìn)入模型。IV就是這樣一種指標(biāo)糖耸,他可以用來(lái)衡量自變量的預(yù)測(cè)能力秘遏。類似的指標(biāo)還有信息增益、基尼系數(shù)等等嘉竟。
- 在風(fēng)險(xiǎn)建模的過(guò)程中邦危,變量選擇可以具體細(xì)化為單變量變量篩選 (Univariate Variable Selection)和多變量變量篩選 (Multivariate Variable Selection)洋侨。多變量變量篩選一般會(huì)利用Stepwise算法在變量池中選取最優(yōu)變量。 而單變量篩選倦蚪,或者說(shuō)單變量分析希坚,是通過(guò)比較指標(biāo)分箱和對(duì)應(yīng)分箱的違約概率來(lái)確定指標(biāo)是否符合經(jīng)濟(jì)意義。
- 具體的單變量分析方法有很多種陵且, 如我在《信用評(píng)級(jí)建模中的數(shù)據(jù)清洗與變量選擇》中介紹的的AR值分析裁僧、《信用評(píng)分模型中應(yīng)不應(yīng)該包括“歧視變量”》中的 好壞比分析(Goods/Bads)都可以看作單變量分析的具體體現(xiàn)。 在本文慕购,我會(huì)介紹另一種常見(jiàn)的單變量分析方法:WoE分析聊疲。
- 這三種方法,本質(zhì)的方法論都是一致的:去比較變量分箱和違約水平的相關(guān)關(guān)系沪悲。一般來(lái)講获洲,正向指標(biāo) (如公司評(píng)級(jí)模型中的利潤(rùn)率,零售評(píng)級(jí)模型中的抵押品價(jià)值)要和分箱內(nèi)違約率呈反向關(guān)系殿如, 反向指標(biāo)要同分箱內(nèi)違約率呈正向關(guān)系贡珊。當(dāng)然也有特殊的U型指標(biāo),這里不再詳述涉馁,詳情請(qǐng)見(jiàn)《信用評(píng)級(jí)建模中的數(shù)據(jù)清洗與變量選擇》中的介紹飞崖。但這三者不同的是其中分箱內(nèi)代表違約水平的指標(biāo),在不同的方法中指標(biāo)計(jì)算有所不同(AR值/好壞比/WoE)