WOE
1.定義:
WOE的全稱是“Weight of Evidence”尝丐,即證據(jù)權(quán)重。WOE是對原始自變量的一種編碼形式衡奥。
要對一個變量進(jìn)行WOE編碼爹袁,需要首先把這個變量進(jìn)行分組處理(也叫離散化、分箱等等矮固,說的都是一個意思)失息。分組后,對于第i組档址,WOE的計(jì)算公式如下:
其中盹兢,pyi是這個組中響應(yīng)客戶(風(fēng)險模型中,對應(yīng)的是違約客戶守伸,總之绎秒,指的是模型中預(yù)測變量取值為“是”或者說1的個體)占所有樣本中所有響應(yīng)客戶的比例,pni是這個組中未響應(yīng)客戶占樣本中所有未響應(yīng)客戶的比例尼摹,#yi是這個組中響應(yīng)客戶的數(shù)量见芹,#ni是這個組中未響應(yīng)客戶的數(shù)量,#yT是樣本中所有響應(yīng)客戶的數(shù)量蠢涝,#nT是樣本中所有未響應(yīng)客戶的數(shù)量玄呛。
對于評分卡模型而言:WOE即是分組好人數(shù)與總好人數(shù)的比值/分組壞人數(shù)與總壞人數(shù)的比值
IV值
1.定義:
IV的全稱是Information Value,中文意思是信息價值惠赫,或者信息量。
2.對IV的直觀理解
從直觀邏輯上大體可以這樣理解“用IV去衡量變量預(yù)測能力”這件事情:我們假設(shè)在一個分類問題中故黑,目標(biāo)變量的類別有兩類:Y1儿咱,Y2庭砍。對于一個待預(yù)測的個體A,要判斷A屬于Y1還是Y2混埠,我們是需要一定的信息的怠缸,假設(shè)這個信息總量是I,而這些所需要的信息钳宪,就蘊(yùn)含在所有的自變量C1揭北,C2,C3吏颖,……搔体,Cn中,那么半醉,對于其中的一個變量Ci來說疚俱,其蘊(yùn)含的信息越多,那么它對于判斷A屬于Y1還是Y2的貢獻(xiàn)就越大缩多,Ci的信息價值就越大呆奕,Ci的IV就越大,它就越應(yīng)該進(jìn)入到入模變量列表中衬吆。
3.計(jì)算方法
一個變量的IV值即是各個分組IV值之和
PSI
1.定義:
群體穩(wěn)定性指標(biāo)(population stability index)梁钾,用于衡量某個變量的穩(wěn)定性或者模型整體的穩(wěn)定性。
2.計(jì)算公式:
psi = sum((實(shí)際占比-預(yù)期占比)* ln(實(shí)際占比/預(yù)期占比))
3.運(yùn)用:
訓(xùn)練一個logistic回歸模型逊抡,預(yù)測時候會有個概率輸出p姆泻。你測試集上的輸出設(shè)定為p1吧,將它從小到大排序后10等分秦忿,如0-0.1,0.1-0.2,......麦射。
現(xiàn)在你用這個模型去對新的樣本進(jìn)行預(yù)測,預(yù)測結(jié)果叫p2,按p1的區(qū)間也劃分為10等分灯谣。
實(shí)際占比就是p2上在各區(qū)間的用戶占比潜秋,預(yù)期占比就是p1上各區(qū)間的用戶占比。
意義就是如果模型跟穩(wěn)定胎许,那么p1和p2上各區(qū)間的用戶應(yīng)該是相近的峻呛,占比不會變動很大,也就是預(yù)測出來的概率不會差距很大辜窑。
一般認(rèn)為psi小于0.1時候模型穩(wěn)定性很高钩述,0.1-0.25一般,大于0.25模型穩(wěn)定性差穆碎,建議重做牙勘。
而在評分卡項(xiàng)目中略有不同:(1)可以用于衡量某個變量的穩(wěn)定性,按變量原本分組得到的各組樣本個數(shù)占比,與模型上線之后得到的數(shù)據(jù)中分組得到的各組樣本個數(shù)占比進(jìn)行比較方面。(2)在評分卡模型中放钦,模型PSI計(jì)算中,分組是按照評分高低排序恭金,而后分為十等分操禀,而后進(jìn)行計(jì)算。