關(guān)于卡方分箱醋奠,網(wǎng)上有很多文章幢竹,但幾乎沒有文章介紹分箱時(shí)相鄰區(qū)間卡方值計(jì)算的方法耳峦,而本文在介紹卡方分箱的同時(shí),重點(diǎn)介紹了相鄰區(qū)間卡方值的計(jì)算方法焕毫。通過本文蹲坷,希望大家能對(duì)卡方分箱有清楚透徹的認(rèn)識(shí)。
分箱是什么
分箱是將連續(xù)的變量離散化邑飒,將多狀態(tài)的離散變量合并成少狀態(tài)循签。這里要注意的是,不僅僅是連續(xù)變量要分箱疙咸,狀態(tài)多的離散變量也需要分箱县匠,之前接觸過公司內(nèi)特征工程的項(xiàng)目,里邊就將超過50個(gè)值的離散特征視為連續(xù)特征撒轮。
基本思想
對(duì)于精確的離散化乞旦,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一致。因此腔召,如果兩個(gè)相鄰的區(qū)間具有非常類似的類分布杆查,則這兩個(gè)區(qū)間可以合并扮惦;否則臀蛛,它們應(yīng)當(dāng)保持分開。而低卡方值表明它們具有相似的類分布。
卡方值的計(jì)算方法
對(duì)于下面的例子浊仆,相鄰兩個(gè)特征值的卡方值的計(jì)算方法是這樣的:
feature | y0 | y1 |
---|---|---|
x1 | a | b |
x2 | c | d |
... | ... | ... |
xn | ... | ... |
x1和x2的卡方值計(jì)算公式為:
為什么低卡方值就表示x1和x2具有相似的類分布呢客峭?可以這樣想,當(dāng)x1和x2具有相似的類分布的時(shí)候抡柿,卡方值是怎么樣的舔琅。卡方值的一般計(jì)算公式是這樣的:
其中洲劣,A為觀測(cè)的值备蚓,T為理論的值。觀測(cè)值就是表中樣本的數(shù)據(jù)囱稽,那么理論值是什么郊尝?其實(shí)就是忽略x1和x2的影響計(jì)算出來的值,把x1和x2合并起來看待战惊,總體看樣本為y0的概率是 p =(a+c)/(a+b+c+d)流昏,那么特征為x1且類別為y0的理論值就是(a+b)*p⊥袒瘢可以看出况凉,如果x1和x2具有相似的類分布,那么它們對(duì)應(yīng)類別的數(shù)量是逼近這個(gè)理論值的各拷,而卡方值的計(jì)算公式的意義是衡量觀測(cè)值與理論值的距離刁绒,如果卡方值小,說明觀測(cè)值和理論值差距很小烤黍,也就說明特征無論取x1或x2膛锭,類別的分布是相似的。
卡方分箱
卡方分箱是基于卡方檢驗(yàn)的蚊荣,將具有最小卡方值的相鄰區(qū)間合并在一起初狰,直到滿足確定的停止條件』ダ卡方分箱是自底向上的數(shù)據(jù)離散化方法奢入。
卡方分箱的實(shí)現(xiàn)步驟:
- 預(yù)先設(shè)定一個(gè)卡方閾值
- 根據(jù)要離散的屬性對(duì)實(shí)例進(jìn)行排序,每個(gè)實(shí)例屬于一個(gè)區(qū)間
- 合并區(qū)間
a. 計(jì)算每一對(duì)相鄰區(qū)間的卡方值
b. 將卡方值最小的一對(duì)區(qū)間合并 - 判斷是否滿足停止條件媳叨,不滿足則繼續(xù)進(jìn)行步驟3腥光,反之停止。
這里的停止條件有兩個(gè):
- 分箱的個(gè)數(shù)達(dá)到限制條件
- 最小的相鄰分箱的卡方值大于閾值
總結(jié)
本文介紹了什么是分箱以及卡方分箱的算法糊秆,并著重介紹了卡方分箱中相鄰區(qū)間卡方值的計(jì)算方法武福。
以下是參考資料:
統(tǒng)計(jì)檢驗(yàn)之——卡方檢驗(yàn)(Chi-Square Tests): https://education.ti.com/sites/CHINA/downloads/pdf/chi_square_tests_xudeqian.pdf