part1:特征穩(wěn)定性
特征穩(wěn)定性幻件,就是關(guān)注該特征的取值隨著時間的推移會不會發(fā)生大的波動跷叉,
對特征穩(wěn)定性的關(guān)注嫌吠,一定要在建模之前完成忌警,從一開始就避免將那些本身不太穩(wěn)定的特征選入模型搁拙。一旦發(fā)現(xiàn)有特征穩(wěn)定性不滿足要求,則需要對其進行剔除后重新建模法绵,避免不必要的重復性勞動箕速。
通常采用PSI(PopulationStability Index,群體穩(wěn)定性指數(shù))指標評估特征穩(wěn)定性礼烈。
part2:常用方法:
-
PSI(PopulationStability Index弧满,群體穩(wěn)定性指數(shù)):
PSI反映了驗證樣本在各分數(shù)段的分布與建模樣本分布的穩(wěn)定性,穩(wěn)定性是有參照的此熬,因此需要有兩個分布——實際分布(actual)和預期分布(expected)庭呜。其中滑进,在建模時通常以訓練樣本(In the Sample, INS)作為預期分布,而驗證樣本通常作為實際分布
<pre>PSI = sum((實際占比-預期占比)* ln(實際占比/預期占比))</pre>
- 簡單例子理解:
比如訓練一個logistic回歸模型募谎,預測時候會有個概率輸出 p
測試集上的輸出設定為p1扶关,將它從小到大排序后10等分,如:
<pre>0.0-0.1
0.1-0.2
0.2-0.3... </pre>
現(xiàn)在用這個模型去對新的樣本進行預測数冬,預測結(jié)果叫p2节槐,按p1的區(qū)間也劃分為10等分。
<pre>實際占比 = p2上在各區(qū)間的用戶占比
預期占比 = p1上各區(qū)間的用戶占比</pre>
意義就是如果模型更穩(wěn)定拐纱,那么p1和p2上各區(qū)間的用戶應該是相近的铜异,占比不會變動很大,也就是預測出來的概率不會差距很大秸架。
PS:除了按概率值大小等距十等分外揍庄,還可以對概率排序后按數(shù)量十等分,兩種方法計算得到的psi可能有所區(qū)別但數(shù)值相差不大
一般認為:
<pre>PSI<0.1 :模型穩(wěn)定性很高
0.1-0.25:一般,繼續(xù)監(jiān)控后續(xù)變化
PSI>0.25: 模型穩(wěn)定性差东抹,建議重做</pre>
-
具體實現(xiàn):
step1:將變量預期分布(excepted)進行分箱(binning)離散化蚂子,統(tǒng)計各個分箱里的樣本占比 注意: 1. 分箱可以是等頻、等距或其他方式缭黔,分箱方式不同食茎,將導致計算結(jié)果略微有差異; 2. 對于連續(xù)型變量(特征變量馏谨、模型分數(shù)等)别渔,分箱數(shù)需要設置合理,一般設為10或20惧互;對于離散型變量钠糊,如果分箱太多可以提前考慮合并小分箱;分箱數(shù)太多壹哺,可能會導致每個分箱內(nèi)的樣本量太少而失去統(tǒng)計意義;分箱數(shù)太少艘刚,又會導致計算結(jié)果精度降低
step2: 按相同分箱區(qū)間管宵,對實際分布(actual)統(tǒng)計各分箱內(nèi)的樣本占比
step3:計 算各分箱內(nèi)的A - E和Ln(A / E),
計算index = (實際占比 - 預期占比)* ln(實際占比 / 預期占比)
step4:將各分箱的index進行求和攀甚,即得到最終的PSI
[圖片上傳失敗...(image-fc79b3-1637314904243)]
-
PSI和K-L散度的關(guān)系理解:
相對熵(relative entropy)箩朴,又被稱為Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是兩個概率分布間差異的非對稱性度量秋度。
劃重點——KL散度不滿足對稱性炸庞。
相對熵可以衡量兩個隨機分布之間的"距離“。
1)當兩個隨機分布相同時荚斯,它們的相對熵為零埠居;當兩個隨機分布的差別增大時查牌,它們的相對熵也會增大。
2)注意??:相對熵是一個從信息論角度量化距離的指標滥壕,與數(shù)學概念上的距離有所差異纸颜。數(shù)學上的距離需要滿足:非負性、對稱性绎橘、同一性胁孙、傳遞性等;而相對熵不滿足對稱性称鳞。
相對熵和PSI的概念非常相近:當兩個隨機分布完全一樣時涮较,PSI = 0;反之冈止,差異越大狂票,PSI越大。
相對熵的公式:
在信息理論中靶瘸,相對熵等價于兩個概率分布的信息熵(Shannon entropy)的差值:
[圖片上傳失敗...(image-7a9318-1637314904243)]
其中苫亦,P(x)表示數(shù)據(jù)的真實分布,而Q(x)表示數(shù)據(jù)的觀察分布怨咪。上式可以理解為:
概率分布攜帶著信息屋剑,可以用信息熵來衡量。
若用觀察分布Q(x)來描述真實分布P(x)诗眨,還需要多少額外的信息量唉匾?
[圖片上傳失敗...(image-57d277-1637314904243)]
KL散度具有非對稱性
相對熵與PSI之間的關(guān)系:
[圖片上傳失敗...(image-76a049-1637314904243)]
將PSI計算公式變形后可以分解為2項:
第1項:實際分布(A)與預期分布(E)之間的KL散度—— KL(A||E)
第2項:預期分布(E)與實際分布(A)之間的KL散度—— KL(E||A)
因此,PSI本質(zhì)上是實際分布(A)與預期分布(E)的KL散度的一個對稱化操作匠楚。其雙向計算相對熵巍膘,并把兩部分相對熵相加,從而更為全面地描述兩個分布的差異芋簿。
-
PSI指標的業(yè)務應用:
在業(yè)務上峡懈,一般以訓練集(INS)的樣本分布作為預期分布,進而跨時間窗按月/周來計算PSI与斤,得到Monthly PSI Report肪康,進而剔除不穩(wěn)定的變量。同理撩穿,在模型上線部署后磷支,也將通過PSI曲線報表來觀察模型的穩(wěn)定性。
入模變量保證穩(wěn)定性食寡,變量監(jiān)控
模型分數(shù)保證穩(wěn)定性雾狈,模型監(jiān)控
參考:
(17條消息) PSI群體穩(wěn)定指數(shù)-Python實現(xiàn)_u010654299的博客-CSDN博客_psi python
https://zhuanlan.zhihu.com/p/79682292