本文章關(guān)于有監(jiān)督分箱的方法:
Best KS法
- 基本原理:分箱后各個(gè)組別的分布差異化最大(bad rate - good rate,最大化的點(diǎn))
- 典型操作步驟(連續(xù)變量為例):
- 按數(shù)值大小排序
- 選取使KS值達(dá)到最大的數(shù)值作為拆分點(diǎn)
- 重復(fù)以上2-3步驟忍抽,直到滿足終止條件
- 終止條件:
- 分箱后最小區(qū)段占比低于指定與之(常用5%)
- 分箱后對(duì)應(yīng)的箱體因變量位常量(都是好樣本鲫咽、壞樣本)
- 分箱后bad rate 應(yīng)該呈現(xiàn)單調(diào)趨勢(shì)柴墩,如果是波動(dòng)趨勢(shì),則應(yīng)該停止
- 方法缺陷: 只能針對(duì)因變量位兩分類的情形進(jìn)行分箱。這個(gè)比較簡(jiǎn)單村刨,沒有卡方分箱比較好
卡方分箱
- 自底向上(基于合并的)數(shù)據(jù)離散化方法
- 它依賴于卡方檢驗(yàn)十减,將具有最小卡方值的相鄰區(qū)域合并在一起栈幸,知道滿足確定的停止準(zhǔn)則
- 基本思想:相似類的分布在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一直
- 如果兩個(gè)相鄰的區(qū)間具有非常相似的類分布,則這兩個(gè)區(qū)間可以合并
- 否則帮辟,它們應(yīng)當(dāng)保持分開
- 利用卡方值來衡量他們是否具有相似的類分布
- 步驟
- 事先設(shè)定卡方閾值
-
常取0.1速址,0.05,0.01由驹,最小區(qū)間數(shù)取5-10
- 需要多種分箱結(jié)果相互比較芍锚,因此閾值的設(shè)定不存在金標(biāo)準(zhǔn),還是要根據(jù)經(jīng)驗(yàn)
- 初始化
- 連續(xù)變量按取值排序
- 分類變量按bad rate進(jìn)行排序(類別:A,B,C蔓榄,bad rate分別是:0.1,0.4,0.3,那么A和C合并比較好)
- 合并區(qū)間
- 計(jì)算各相鄰區(qū)間的卡方值(四個(gè)表卡方)
- 將卡方值最小的一對(duì)區(qū)間合并并炮,且兩組的卡方閾值沒有超過事先設(shè)定的,則說明這兩個(gè)組別在統(tǒng)計(jì)上差別很小
- 重復(fù)上述過程甥郑,直到最小卡方值高于閾值逃魄,或者分箱數(shù)等于指定的最低數(shù)值
如果卡方值越大,二者偏差程度越大
分箱判斷好壞
WOE:證據(jù)權(quán)重
- 分箱之后澜搅,WOE是要成單調(diào)趨勢(shì)比較好伍俘,不能又增又減
- 甄別出分箱是否合格
IV(信息值)變量預(yù)測(cè)重要性的判斷指標(biāo)
- 既可以判斷這個(gè)變量用來建模的重要性,還可以判斷同一個(gè)變量的哪個(gè)分箱策略更好一些
- 好壞客戶分離度
- IV值越大店展,說明分箱效果越好
- IV可以用于篩選變量养篓,簡(jiǎn)化模型,降低模型開發(fā)的使用成本(分箱之后計(jì)算iv值赂蕴,取前n個(gè)最大的)
- 經(jīng)驗(yàn)界值
- IV<0.02 柳弄,該變量基本無幫助
- 0.02<=IV<=0.1,該變量對(duì)預(yù)測(cè)目標(biāo)變量又一些幫助
- 0.1<=IV<=0.3,又較大幫助
- 0.3<=IV概说,有很大幫助碧注,但是可以取深挖到底是什么原因,可以進(jìn)行
- IV>=0.5,該變量多半有問題糖赔,此時(shí)需要檢查背后的邏輯萍丐,常見于時(shí)間變量,于結(jié)局變量有很大的關(guān)系
IV和分箱的數(shù)量也有關(guān)系放典,數(shù)量越多逝变,IV值就容易高基茵,所以在考慮值的時(shí)候,對(duì)于多的箱體壳影,可以實(shí)當(dāng)提高一下界值