什么是WOE
WOE(Weight of Evidence)即證據(jù)權重盏道,可以將logistic回歸模型轉化為標準評分卡格式,WOE是對原始自變量的一種編碼形式雇锡,要對一個變量進行WOE編碼,需要首先把這個變量進行分組處理(也叫離散化渠概、分箱)锦亦。
WOE的公式就是:WOE=ln(好客戶占比/壞客戶占比)×100%=優(yōu)勢比
下面舉例說明:
我們把這個變量離散化為了4個分段:<100元舶替,[100,200),[200,500)杠园,>=500元顾瞪,并分別計算了每組的woe值,重計算數(shù)據(jù)可知:
- 當前分組中抛蚁,響應的比例越大陈醒,WOE值越大
- 當前分組WOE的正負,由當前分組響應和未響應的比例篮绿,與樣本整體響應和未響應的比例的大小關系決定孵延,當前分組的比例小于樣本整體比例時吕漂,WOE為負亲配,當前分組的比例大于整體比例時,WOE為正惶凝,當前分組的比例和整體比例相等時吼虎,WOE為0。
為什么做woe轉換
首先明確woe轉換并不一定能顯著提高模型質量苍鲜,建立評分卡也可以不采用woe思灰,這種情況下logistic回歸需要處理更大數(shù)量的自變量,盡管這樣會增加建模的復雜性混滔,但最終得到的評分卡都是一樣的洒疚。即便如此,woe轉換依舊有很多的優(yōu)勢:
- woe能反映自變量的貢獻情況
自變量內部WOE值的變異(波動)情況坯屿,結合模型擬合出的系數(shù)油湖,構造出各個自變量的貢獻率及相對重要性。一般地领跛,系數(shù)越大乏德,woe的方差越大,則自變量的貢獻率越大吠昭。 - 標準化功能
WOE編碼之后喊括,自變量其實具備了某種標準化的性質,也就是說矢棚,自變量內部的各個取值之間都可以直接進行比較(WOE之間的比較)郑什,而不同自變量之間的各種取值也可以通過WOE進行直接的比較。 - 對異常值不敏感
很多極值變量通過WOE可以變?yōu)榉钱惓V灯牙撸芏囝l次較少的變量也可以通過woe轉換進行合并蘑拯。
通過woe轉化劫拢,極大的提高了數(shù)據(jù)的可理解性,這對評分卡模型很重要强胰。WOE其實描述了變量當前這個分組舱沧,對判斷個體是否會響應(或者說屬于哪個類)所起到影響方向和大小,當WOE為正時偶洋,變量當前取值對判斷個體是否會響應起到的正向的影響熟吏,當WOE為負時,起到了負向影響玄窝。而WOE值的大小牵寺,則是這個影響的大小的體現(xiàn)。