特征穩(wěn)定性

part1:特征穩(wěn)定性

特征穩(wěn)定性幻件,就是關(guān)注該特征的取值隨著時間的推移會不會發(fā)生大的波動跷叉,

對特征穩(wěn)定性的關(guān)注嫌吠,一定要在建模之前完成忌警,從一開始就避免將那些本身不太穩(wěn)定的特征選入模型搁拙。一旦發(fā)現(xiàn)有特征穩(wěn)定性不滿足要求,則需要對其進行剔除后重新建模法绵,避免不必要的重復性勞動箕速。

通常采用PSI(PopulationStability Index,群體穩(wěn)定性指數(shù))指標評估特征穩(wěn)定性礼烈。

part2:常用方法:

  • PSI(PopulationStability Index弧满,群體穩(wěn)定性指數(shù)):

PSI反映了驗證樣本在各分數(shù)段的分布與建模樣本分布的穩(wěn)定性,穩(wěn)定性是有參照的此熬,因此需要有兩個分布——實際分布(actual)和預期分布(expected)庭呜。其中滑进,在建模時通常以訓練樣本(In the Sample, INS)作為預期分布,而驗證樣本通常作為實際分布

<pre>PSI = sum((實際占比-預期占比)* ln(實際占比/預期占比))</pre>

  • 簡單例子理解:

比如訓練一個logistic回歸模型募谎,預測時候會有個概率輸出 p

測試集上的輸出設定為p1扶关,將它從小到大排序后10等分,如:

<pre>0.0-0.1
0.1-0.2
0.2-0.3... </pre>

現(xiàn)在用這個模型去對新的樣本進行預測数冬,預測結(jié)果叫p2节槐,按p1的區(qū)間也劃分為10等分。

<pre>實際占比 = p2上在各區(qū)間的用戶占比
預期占比 = p1上各區(qū)間的用戶占比</pre>

意義就是如果模型更穩(wěn)定拐纱,那么p1和p2上各區(qū)間的用戶應該是相近的铜异,占比不會變動很大,也就是預測出來的概率不會差距很大秸架。

PS:除了按概率值大小等距十等分外揍庄,還可以對概率排序后按數(shù)量十等分,兩種方法計算得到的psi可能有所區(qū)別但數(shù)值相差不大

一般認為:

<pre>PSI<0.1 :模型穩(wěn)定性很高
0.1-0.25:一般,繼續(xù)監(jiān)控后續(xù)變化
PSI>0.25: 模型穩(wěn)定性差东抹,建議重做</pre>

  • 具體實現(xiàn):

step1:將變量預期分布(excepted)進行分箱(binning)離散化蚂子,統(tǒng)計各個分箱里的樣本占比 注意: 1. 分箱可以是等頻、等距或其他方式缭黔,分箱方式不同食茎,將導致計算結(jié)果略微有差異; 2. 對于連續(xù)型變量(特征變量馏谨、模型分數(shù)等)别渔,分箱數(shù)需要設置合理,一般設為10或20惧互;對于離散型變量钠糊,如果分箱太多可以提前考慮合并小分箱;分箱數(shù)太多壹哺,可能會導致每個分箱內(nèi)的樣本量太少而失去統(tǒng)計意義;分箱數(shù)太少艘刚,又會導致計算結(jié)果精度降低

step2: 按相同分箱區(qū)間管宵,對實際分布(actual)統(tǒng)計各分箱內(nèi)的樣本占比

step3:計 算各分箱內(nèi)的A - E和Ln(A / E),

計算index = (實際占比 - 預期占比)* ln(實際占比 / 預期占比)

step4:將各分箱的index進行求和攀甚,即得到最終的PSI

[圖片上傳失敗...(image-fc79b3-1637314904243)]

  • PSI和K-L散度的關(guān)系理解:

相對熵(relative entropy)箩朴,又被稱為Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是兩個概率分布間差異的非對稱性度量秋度。

劃重點——KL散度不滿足對稱性炸庞。

相對熵可以衡量兩個隨機分布之間的"距離“。

1)當兩個隨機分布相同時荚斯,它們的相對熵為零埠居;當兩個隨機分布的差別增大時查牌,它們的相對熵也會增大。

2)注意??:相對熵是一個從信息論角度量化距離的指標滥壕,與數(shù)學概念上的距離有所差異纸颜。數(shù)學上的距離需要滿足:非負性、對稱性绎橘、同一性胁孙、傳遞性等;而相對熵不滿足對稱性称鳞。

相對熵和PSI的概念非常相近:當兩個隨機分布完全一樣時涮较,PSI = 0;反之冈止,差異越大狂票,PSI越大。

相對熵的公式:

在信息理論中靶瘸,相對熵等價于兩個概率分布的信息熵(Shannon entropy)的差值:

[圖片上傳失敗...(image-7a9318-1637314904243)]

其中苫亦,P(x)表示數(shù)據(jù)的真實分布,而Q(x)表示數(shù)據(jù)的觀察分布怨咪。上式可以理解為:

概率分布攜帶著信息屋剑,可以用信息熵來衡量。

若用觀察分布Q(x)來描述真實分布P(x)诗眨,還需要多少額外的信息量唉匾?

[圖片上傳失敗...(image-57d277-1637314904243)]

KL散度具有非對稱性

相對熵與PSI之間的關(guān)系:

[圖片上傳失敗...(image-76a049-1637314904243)]

將PSI計算公式變形后可以分解為2項:

第1項:實際分布(A)與預期分布(E)之間的KL散度—— KL(A||E)

第2項:預期分布(E)與實際分布(A)之間的KL散度—— KL(E||A)

因此,PSI本質(zhì)上是實際分布(A)與預期分布(E)的KL散度的一個對稱化操作匠楚。其雙向計算相對熵巍膘,并把兩部分相對熵相加,從而更為全面地描述兩個分布的差異芋簿。

  • PSI指標的業(yè)務應用:

在業(yè)務上峡懈,一般以訓練集(INS)的樣本分布作為預期分布,進而跨時間窗按月/周來計算PSI与斤,得到Monthly PSI Report肪康,進而剔除不穩(wěn)定的變量。同理撩穿,在模型上線部署后磷支,也將通過PSI曲線報表來觀察模型的穩(wěn)定性。

入模變量保證穩(wěn)定性食寡,變量監(jiān)控

模型分數(shù)保證穩(wěn)定性雾狈,模型監(jiān)控

參考:
(17條消息) PSI群體穩(wěn)定指數(shù)-Python實現(xiàn)_u010654299的博客-CSDN博客_psi python
https://zhuanlan.zhihu.com/p/79682292

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市抵皱,隨后出現(xiàn)的幾起案子善榛,更是在濱河造成了極大的恐慌辩蛋,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锭弊,死亡現(xiàn)場離奇詭異堪澎,居然都是意外死亡,警方通過查閱死者的電腦和手機味滞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門樱蛤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人剑鞍,你說我怎么就攤上這事昨凡。” “怎么了蚁署?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵便脊,是天一觀的道長。 經(jīng)常有香客問我光戈,道長哪痰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任久妆,我火速辦了婚禮晌杰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘筷弦。我一直安慰自己肋演,他們只是感情好,可當我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布烂琴。 她就那樣靜靜地躺著爹殊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪奸绷。 梳的紋絲不亂的頭發(fā)上梗夸,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天,我揣著相機與錄音号醉,去河邊找鬼绒瘦。 笑死,一個胖子當著我的面吹牛扣癣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播憨降,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼父虑,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了授药?” 一聲冷哼從身側(cè)響起士嚎,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤呜魄,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后莱衩,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體爵嗅,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年笨蚁,在試婚紗的時候發(fā)現(xiàn)自己被綠了睹晒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡括细,死狀恐怖伪很,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情奋单,我是刑警寧澤锉试,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站览濒,受9級特大地震影響呆盖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贷笛,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一应又、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧昨忆,春花似錦丁频、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至拢驾,卻和暖如春奖磁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背繁疤。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工咖为, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人稠腊。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓躁染,卻偏偏與公主長得像,于是被迫代替她去往敵國和親架忌。 傳聞我的和親對象是個殘疾皇子吞彤,可洞房花燭夜當晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容