WOE、IV役首、PSI介紹

WOE

1.定義:

WOE的全稱是“Weight of Evidence”尝丐,即證據(jù)權(quán)重。WOE是對原始自變量的一種編碼形式衡奥。

要對一個變量進(jìn)行WOE編碼爹袁,需要首先把這個變量進(jìn)行分組處理(也叫離散化、分箱等等矮固,說的都是一個意思)失息。分組后,對于第i組档址,WOE的計(jì)算公式如下:

image

其中盹兢,pyi是這個組中響應(yīng)客戶(風(fēng)險模型中,對應(yīng)的是違約客戶守伸,總之绎秒,指的是模型中預(yù)測變量取值為“是”或者說1的個體)占所有樣本中所有響應(yīng)客戶的比例,pni是這個組中未響應(yīng)客戶占樣本中所有未響應(yīng)客戶的比例尼摹,#yi是這個組中響應(yīng)客戶的數(shù)量见芹,#ni是這個組中未響應(yīng)客戶的數(shù)量,#yT是樣本中所有響應(yīng)客戶的數(shù)量蠢涝,#nT是樣本中所有未響應(yīng)客戶的數(shù)量玄呛。
對于評分卡模型而言:WOE即是分組好人數(shù)與總好人數(shù)的比值/分組壞人數(shù)與總壞人數(shù)的比值

IV值

1.定義:

IV的全稱是Information Value,中文意思是信息價值惠赫,或者信息量。

2.對IV的直觀理解

從直觀邏輯上大體可以這樣理解“用IV去衡量變量預(yù)測能力”這件事情:我們假設(shè)在一個分類問題中故黑,目標(biāo)變量的類別有兩類:Y1儿咱,Y2庭砍。對于一個待預(yù)測的個體A,要判斷A屬于Y1還是Y2混埠,我們是需要一定的信息的怠缸,假設(shè)這個信息總量是I,而這些所需要的信息钳宪,就蘊(yùn)含在所有的自變量C1揭北,C2,C3吏颖,……搔体,Cn中,那么半醉,對于其中的一個變量Ci來說疚俱,其蘊(yùn)含的信息越多,那么它對于判斷A屬于Y1還是Y2的貢獻(xiàn)就越大缩多,Ci的信息價值就越大呆奕,Ci的IV就越大,它就越應(yīng)該進(jìn)入到入模變量列表中衬吆。

3.計(jì)算方法

某個分組的IV

一個變量的IV值即是各個分組IV值之和

PSI

1.定義:

群體穩(wěn)定性指標(biāo)(population stability index)梁钾,用于衡量某個變量的穩(wěn)定性或者模型整體的穩(wěn)定性。

2.計(jì)算公式:

psi = sum((實(shí)際占比-預(yù)期占比)* ln(實(shí)際占比/預(yù)期占比))

3.運(yùn)用:

訓(xùn)練一個logistic回歸模型逊抡,預(yù)測時候會有個概率輸出p姆泻。你測試集上的輸出設(shè)定為p1吧,將它從小到大排序后10等分秦忿,如0-0.1,0.1-0.2,......麦射。
現(xiàn)在你用這個模型去對新的樣本進(jìn)行預(yù)測,預(yù)測結(jié)果叫p2,按p1的區(qū)間也劃分為10等分灯谣。
實(shí)際占比就是p2上在各區(qū)間的用戶占比潜秋,預(yù)期占比就是p1上各區(qū)間的用戶占比。
意義就是如果模型跟穩(wěn)定胎许,那么p1和p2上各區(qū)間的用戶應(yīng)該是相近的峻呛,占比不會變動很大,也就是預(yù)測出來的概率不會差距很大辜窑。
一般認(rèn)為psi小于0.1時候模型穩(wěn)定性很高钩述,0.1-0.25一般,大于0.25模型穩(wěn)定性差穆碎,建議重做牙勘。
而在評分卡項(xiàng)目中略有不同:(1)可以用于衡量某個變量的穩(wěn)定性,按變量原本分組得到的各組樣本個數(shù)占比,與模型上線之后得到的數(shù)據(jù)中分組得到的各組樣本個數(shù)占比進(jìn)行比較方面。(2)在評分卡模型中放钦,模型PSI計(jì)算中,分組是按照評分高低排序恭金,而后分為十等分操禀,而后進(jìn)行計(jì)算。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末横腿,一起剝皮案震驚了整個濱河市颓屑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌耿焊,老刑警劉巖揪惦,帶你破解...
    沈念sama閱讀 222,946評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異搀别,居然都是意外死亡丹擎,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評論 3 399
  • 文/潘曉璐 我一進(jìn)店門歇父,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蒂培,“玉大人,你說我怎么就攤上這事榜苫』ご粒” “怎么了?”我有些...
    開封第一講書人閱讀 169,716評論 0 364
  • 文/不壞的土叔 我叫張陵垂睬,是天一觀的道長媳荒。 經(jīng)常有香客問我,道長驹饺,這世上最難降的妖魔是什么钳枕? 我笑而不...
    開封第一講書人閱讀 60,222評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮赏壹,結(jié)果婚禮上鱼炒,老公的妹妹穿的比我還像新娘。我一直安慰自己蝌借,他們只是感情好昔瞧,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著菩佑,像睡著了一般自晰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上稍坯,一...
    開封第一講書人閱讀 52,807評論 1 314
  • 那天酬荞,我揣著相機(jī)與錄音,去河邊找鬼。 笑死混巧,一個胖子當(dāng)著我的面吹牛糟把,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播牲剃,決...
    沈念sama閱讀 41,235評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼雄可!你這毒婦竟也來了凿傅?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,189評論 0 277
  • 序言:老撾萬榮一對情侶失蹤数苫,失蹤者是張志新(化名)和其女友劉穎聪舒,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體虐急,經(jīng)...
    沈念sama閱讀 46,712評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡箱残,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了止吁。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片被辑。...
    茶點(diǎn)故事閱讀 40,926評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖敬惦,靈堂內(nèi)的尸體忽然破棺而出盼理,到底是詐尸還是另有隱情,我是刑警寧澤俄删,帶...
    沈念sama閱讀 36,580評論 5 351
  • 正文 年R本政府宣布宏怔,位于F島的核電站,受9級特大地震影響畴椰,放射性物質(zhì)發(fā)生泄漏臊诊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評論 3 336
  • 文/蒙蒙 一斜脂、第九天 我趴在偏房一處隱蔽的房頂上張望抓艳。 院中可真熱鬧,春花似錦秽褒、人聲如沸壶硅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽庐椒。三九已至,卻和暖如春蚂踊,著一層夾襖步出監(jiān)牢的瞬間约谈,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棱诱,地道東北人泼橘。 一個月前我還...
    沈念sama閱讀 49,368評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像迈勋,于是被迫代替她去往敵國和親炬灭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評論 2 361

推薦閱讀更多精彩內(nèi)容