【數(shù)據(jù)建模 特征分箱】特征分箱的方法

在建模中翠拣,需要對連續(xù)變量離散化谆沃,特征離散化后,模型會更穩(wěn)定介袜,降低了模型過擬合的風險甫何。

有監(jiān)督的卡方分箱法(ChiMerge)

自底向上的(即基于合并的)數(shù)據(jù)離散化方法。?

它依賴于卡方檢驗:具有最小卡方值的相鄰區(qū)間合并在一起,直到滿足確定的停止準則遇伞。

基本思想:

對于精確的離散化辙喂,相對類頻率在一個區(qū)間內(nèi)應(yīng)當完全一致。因此,如果兩個相鄰的區(qū)間具有非常類似的類分布鸠珠,則這兩個區(qū)間可以合并巍耗;否則,它們應(yīng)當保持分開渐排。而低卡方值表明它們具有相似的類分布炬太。

這里需要注意初始化時需要對實例進行排序,在排序的基礎(chǔ)上進行合并驯耻。

卡方閾值的確定:

根據(jù)顯著性水平和自由度得到卡方值?

自由度比類別數(shù)量小1亲族。例如:有3類,自由度為2,則90%置信度(10%顯著性水平)下吓歇,卡方的值為4.6孽水。

閾值的意義

類別和屬性獨立時,有90%的可能性,計算得到的卡方值會小于4.6票腰。 大于閾值4.6的卡方值就說明屬性和類不是相互獨立的城看,不能合并。如果閾值選的大,區(qū)間合并就會進行很多次,離散后的區(qū)間數(shù)量少杏慰、區(qū)間大测柠。?


注:?

1,ChiMerge算法推薦使用0.90、0.95缘滥、0.99置信度,最大區(qū)間數(shù)取10到15之間.?

2,也可以不考慮卡方閾值,此時可以考慮最小區(qū)間數(shù)或者最大區(qū)間數(shù)轰胁。指定區(qū)間數(shù)量的上限和下限,最多幾個區(qū)間,最少幾個區(qū)間。?

3,對于類別型變量,需要分箱時需要按照某種方式進行排序朝扼。

無監(jiān)督分箱法:

等距劃分赃阀、等頻劃分

等距分箱?

從最小值到最大值之間,均分為 N 等份, 這樣, 如果 A,B 為最小最大值, 則每個區(qū)間的長度為 W=(B?A)/N , 則區(qū)間邊界值為A+W,A+2W,….A+(N?1)W 。這里只考慮邊界擎颖,每個等份里面的實例數(shù)量可能不等榛斯。?


等頻分箱?

區(qū)間的邊界值要經(jīng)過選擇,使得每個區(qū)間包含大致相等的實例數(shù)量观游。比如說 N=10 ,每個區(qū)間應(yīng)該包含大約10%的實例。?


以上兩種算法的弊端?

比如,等寬區(qū)間劃分,劃分為5區(qū)間,最高工資為50000,則所有工資低于10000的人都被劃分到同一區(qū)間驮俗。等頻區(qū)間可能正好相反,所有工資高于50000的人都會被劃分到50000這一區(qū)間中懂缕。這兩種算法都忽略了實例所屬的類型,落在正確區(qū)間里的偶然性很大。

我們對特征進行分箱后王凑,需要對分箱后的每組(箱)進行woe編碼搪柑,然后才能放進模型訓(xùn)練。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末索烹,一起剝皮案震驚了整個濱河市工碾,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌百姓,老刑警劉巖倚喂,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異瓣戚,居然都是意外死亡端圈,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進店門子库,熙熙樓的掌柜王于貴愁眉苦臉地迎上來舱权,“玉大人,你說我怎么就攤上這事仑嗅⊙绫叮” “怎么了?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵仓技,是天一觀的道長鸵贬。 經(jīng)常有香客問我,道長脖捻,這世上最難降的妖魔是什么阔逼? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮地沮,結(jié)果婚禮上嗜浮,老公的妹妹穿的比我還像新娘。我一直安慰自己摩疑,他們只是感情好危融,可當我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著雷袋,像睡著了一般吉殃。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天蛋勺,我揣著相機與錄音速侈,去河邊找鬼。 笑死迫卢,一個胖子當著我的面吹牛倚搬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播乾蛤,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼每界,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了家卖?” 一聲冷哼從身側(cè)響起眨层,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎上荡,沒想到半個月后趴樱,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡酪捡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年叁征,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逛薇。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡捺疼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出永罚,到底是詐尸還是另有隱情啤呼,我是刑警寧澤,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布呢袱,位于F島的核電站官扣,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏羞福。R本人自食惡果不足惜惕蹄,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望坯临。 院中可真熱鬧焊唬,春花似錦、人聲如沸看靠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽挟炬。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間谤祖,已是汗流浹背婿滓。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留粥喜,地道東北人凸主。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像额湘,于是被迫代替她去往敵國和親卿吐。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,658評論 2 350

推薦閱讀更多精彩內(nèi)容