變量選取

變量選取

數(shù)據(jù)挖掘模型中的IV和WOE詳解
我們?cè)谟眠壿嫽貧w踢步、決策樹(shù)等模型方法構(gòu)建分類模型時(shí)缰趋,經(jīng)常需要對(duì)自變量進(jìn)行篩選哺眯。比如我們有200個(gè)候選自變量,通常情況下好爬,不會(huì)直接把200個(gè)變量直接放到模型中去進(jìn)行擬合訓(xùn)練局雄,而是會(huì)用一些方法,從這200個(gè)自變量中挑選一些出來(lái)存炮,放進(jìn)模型炬搭,形成入模變量列表。那么我們?cè)趺慈ヌ暨x入模變量呢穆桂?
挑選入模變量過(guò)程是個(gè)比較復(fù)雜的過(guò)程宫盔,需要考慮的因素很多,比如:變量的預(yù)測(cè)能力享完,變量之間的相關(guān)性灼芭,變量的簡(jiǎn)單性(容易生成和使用),變量的強(qiáng)壯性(不容易被繞過(guò))般又,變量在業(yè)務(wù)上的可解釋性(被挑戰(zhàn)時(shí)可以解釋的通)等等彼绷。但是,其中最主要和最直接的衡量標(biāo)準(zhǔn)是變量的預(yù)測(cè)能力茴迁。
“變量的預(yù)測(cè)能力”這個(gè)說(shuō)法很籠統(tǒng)寄悯,很主觀,非量化笋熬,在篩選變量的時(shí)候我們總不能說(shuō):“我覺(jué)得這個(gè)變量預(yù)測(cè)能力很強(qiáng)热某,所以他要進(jìn)入模型”吧?我們需要一些具體的量化指標(biāo)來(lái)衡量每自變量的預(yù)測(cè)能力胳螟,并根據(jù)這些量化指標(biāo)的大小昔馋,來(lái)確定哪些變量進(jìn)入模型。IV就是這樣一種指標(biāo)糖耸,他可以用來(lái)衡量自變量的預(yù)測(cè)能力秘遏。類似的指標(biāo)還有信息增益、基尼系數(shù)等等嘉竟。

  1. 在風(fēng)險(xiǎn)建模的過(guò)程中邦危,變量選擇可以具體細(xì)化為單變量變量篩選 (Univariate Variable Selection)和多變量變量篩選 (Multivariate Variable Selection)洋侨。多變量變量篩選一般會(huì)利用Stepwise算法在變量池中選取最優(yōu)變量。 而單變量篩選倦蚪,或者說(shuō)單變量分析希坚,是通過(guò)比較指標(biāo)分箱和對(duì)應(yīng)分箱的違約概率來(lái)確定指標(biāo)是否符合經(jīng)濟(jì)意義。
  2. 具體的單變量分析方法有很多種陵且, 如我在《信用評(píng)級(jí)建模中的數(shù)據(jù)清洗與變量選擇》中介紹的的AR值分析裁僧、《信用評(píng)分模型中應(yīng)不應(yīng)該包括“歧視變量”》中的 好壞比分析(Goods/Bads)都可以看作單變量分析的具體體現(xiàn)。 在本文慕购,我會(huì)介紹另一種常見(jiàn)的單變量分析方法:WoE分析聊疲。
  3. 這三種方法,本質(zhì)的方法論都是一致的:去比較變量分箱和違約水平的相關(guān)關(guān)系沪悲。一般來(lái)講获洲,正向指標(biāo) (如公司評(píng)級(jí)模型中的利潤(rùn)率,零售評(píng)級(jí)模型中的抵押品價(jià)值)要和分箱內(nèi)違約率呈反向關(guān)系殿如, 反向指標(biāo)要同分箱內(nèi)違約率呈正向關(guān)系贡珊。當(dāng)然也有特殊的U型指標(biāo),這里不再詳述涉馁,詳情請(qǐng)見(jiàn)《信用評(píng)級(jí)建模中的數(shù)據(jù)清洗與變量選擇》中的介紹飞崖。但這三者不同的是其中分箱內(nèi)代表違約水平的指標(biāo),在不同的方法中指標(biāo)計(jì)算有所不同(AR值/好壞比/WoE)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谨胞,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蒜鸡,更是在濱河造成了極大的恐慌胯努,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件逢防,死亡現(xiàn)場(chǎng)離奇詭異叶沛,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)忘朝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門灰署,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人局嘁,你說(shuō)我怎么就攤上這事溉箕。” “怎么了悦昵?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,960評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵肴茄,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我但指,道長(zhǎng)寡痰,這世上最難降的妖魔是什么抗楔? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,750評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮拦坠,結(jié)果婚禮上连躏,老公的妹妹穿的比我還像新娘。我一直安慰自己贞滨,他們只是感情好入热,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著疲迂,像睡著了一般才顿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上尤蒿,一...
    開(kāi)封第一講書(shū)人閱讀 51,604評(píng)論 1 305
  • 那天郑气,我揣著相機(jī)與錄音,去河邊找鬼腰池。 笑死尾组,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的示弓。 我是一名探鬼主播讳侨,決...
    沈念sama閱讀 40,347評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼奏属!你這毒婦竟也來(lái)了跨跨?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,253評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤囱皿,失蹤者是張志新(化名)和其女友劉穎勇婴,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體嘱腥,經(jīng)...
    沈念sama閱讀 45,702評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡耕渴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了齿兔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片橱脸。...
    茶點(diǎn)故事閱讀 40,015評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖分苇,靈堂內(nèi)的尸體忽然破棺而出添诉,到底是詐尸還是另有隱情,我是刑警寧澤组砚,帶...
    沈念sama閱讀 35,734評(píng)論 5 346
  • 正文 年R本政府宣布吻商,位于F島的核電站,受9級(jí)特大地震影響糟红,放射性物質(zhì)發(fā)生泄漏艾帐。R本人自食惡果不足惜乌叶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望柒爸。 院中可真熱鬧准浴,春花似錦、人聲如沸捎稚。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,934評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)今野。三九已至葡公,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間条霜,已是汗流浹背催什。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,052評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留宰睡,地道東北人蒲凶。 一個(gè)月前我還...
    沈念sama閱讀 48,216評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像拆内,于是被迫代替她去往敵國(guó)和親旋圆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 信用風(fēng)險(xiǎn)計(jì)量體系包括主體評(píng)級(jí)模型和債項(xiàng)評(píng)級(jí)兩部分麸恍。主體評(píng)級(jí)和債項(xiàng)評(píng)級(jí)均有一系列評(píng)級(jí)模型組成灵巧,其中主體評(píng)級(jí)模型可用“...
    YoLean閱讀 101,647評(píng)論 34 153
  • 1.IV的用途 IV的全稱是InformationValue,中文意思是信息價(jià)值抹沪,或者信息量孩等。 我們?cè)谟眠壿嫽貧w、...
    Arya鑫閱讀 4,286評(píng)論 1 20
  • 信用風(fēng)險(xiǎn)內(nèi)部評(píng)級(jí)法監(jiān)管改革 標(biāo)簽(空格分隔): Basel 信用風(fēng)險(xiǎn) 編者語(yǔ): 針對(duì)巴塞爾Ⅱ內(nèi)部評(píng)級(jí)體系存在的一系...
    lumicinta閱讀 4,213評(píng)論 0 2
  • 茫茫人海采够,人與人之間的相遇相識(shí)便是莫大的緣分,上小學(xué)的時(shí)候冰垄,有那么一種測(cè)試蹬癌,把你的名字的筆畫(huà)數(shù)和另一個(gè)人的筆畫(huà)數(shù)總...
    只是愛(ài)了童話閱讀 427評(píng)論 0 0
  • 披著細(xì)雨在家樓下,一條幼小的白狗直沖我汪汪虹茶。 灰灰失蹤后逝薪,很久沒(méi)在樓下看到過(guò)狗了。 一樓那戶人家見(jiàn)我有些驚慌...
    Mint_1218閱讀 247評(píng)論 0 0