卡方分箱中卡方值的計(jì)算

關(guān)于卡方分箱醋奠,網(wǎng)上有很多文章幢竹,但幾乎沒有文章介紹分箱時(shí)相鄰區(qū)間卡方值計(jì)算的方法耳峦,而本文在介紹卡方分箱的同時(shí),重點(diǎn)介紹了相鄰區(qū)間卡方值的計(jì)算方法焕毫。通過本文蹲坷,希望大家能對(duì)卡方分箱有清楚透徹的認(rèn)識(shí)。

分箱是什么

分箱是將連續(xù)的變量離散化邑飒,將多狀態(tài)的離散變量合并成少狀態(tài)循签。這里要注意的是,不僅僅是連續(xù)變量要分箱疙咸,狀態(tài)多的離散變量也需要分箱县匠,之前接觸過公司內(nèi)特征工程的項(xiàng)目,里邊就將超過50個(gè)值的離散特征視為連續(xù)特征撒轮。

基本思想

對(duì)于精確的離散化乞旦,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一致。因此腔召,如果兩個(gè)相鄰的區(qū)間具有非常類似的類分布杆查,則這兩個(gè)區(qū)間可以合并扮惦;否則臀蛛,它們應(yīng)當(dāng)保持分開。而低卡方值表明它們具有相似的類分布

卡方值的計(jì)算方法

對(duì)于下面的例子浊仆,相鄰兩個(gè)特征值的卡方值的計(jì)算方法是這樣的:

feature y0 y1
x1 a b
x2 c d
... ... ...
xn ... ...

x1和x2的卡方值計(jì)算公式為:

卡方值計(jì)算公式

為什么低卡方值就表示x1和x2具有相似的類分布呢客峭?可以這樣想,當(dāng)x1和x2具有相似的類分布的時(shí)候抡柿,卡方值是怎么樣的舔琅。卡方值的一般計(jì)算公式是這樣的:

卡方值的一般公式

其中洲劣,A為觀測(cè)的值备蚓,T為理論的值。觀測(cè)值就是表中樣本的數(shù)據(jù)囱稽,那么理論值是什么郊尝?其實(shí)就是忽略x1和x2的影響計(jì)算出來的值,把x1和x2合并起來看待战惊,總體看樣本為y0的概率是 p =(a+c)/(a+b+c+d)流昏,那么特征為x1且類別為y0的理論值就是(a+b)*p⊥袒瘢可以看出况凉,如果x1和x2具有相似的類分布,那么它們對(duì)應(yīng)類別的數(shù)量是逼近這個(gè)理論值的各拷,而卡方值的計(jì)算公式的意義是衡量觀測(cè)值與理論值的距離刁绒,如果卡方值小,說明觀測(cè)值和理論值差距很小烤黍,也就說明特征無論取x1或x2膛锭,類別的分布是相似的。

卡方分箱

卡方分箱是基于卡方檢驗(yàn)的蚊荣,將具有最小卡方值的相鄰區(qū)間合并在一起初狰,直到滿足確定的停止條件』ダ卡方分箱是自底向上的數(shù)據(jù)離散化方法奢入。

卡方分箱的實(shí)現(xiàn)步驟:

  1. 預(yù)先設(shè)定一個(gè)卡方閾值
  2. 根據(jù)要離散的屬性對(duì)實(shí)例進(jìn)行排序,每個(gè)實(shí)例屬于一個(gè)區(qū)間
  3. 合并區(qū)間
    a. 計(jì)算每一對(duì)相鄰區(qū)間的卡方值
    b. 將卡方值最小的一對(duì)區(qū)間合并
  4. 判斷是否滿足停止條件媳叨,不滿足則繼續(xù)進(jìn)行步驟3腥光,反之停止。

這里的停止條件有兩個(gè):

  1. 分箱的個(gè)數(shù)達(dá)到限制條件
  2. 最小的相鄰分箱的卡方值大于閾值

總結(jié)

本文介紹了什么是分箱以及卡方分箱的算法糊秆,并著重介紹了卡方分箱中相鄰區(qū)間卡方值的計(jì)算方法武福。

以下是參考資料:
統(tǒng)計(jì)檢驗(yàn)之——卡方檢驗(yàn)(Chi-Square Tests): https://education.ti.com/sites/CHINA/downloads/pdf/chi_square_tests_xudeqian.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市痘番,隨后出現(xiàn)的幾起案子捉片,更是在濱河造成了極大的恐慌平痰,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件伍纫,死亡現(xiàn)場離奇詭異宗雇,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)莹规,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門赔蒲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人良漱,你說我怎么就攤上這事舞虱。” “怎么了母市?”我有些...
    開封第一講書人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵砾嫉,是天一觀的道長。 經(jīng)常有香客問我窒篱,道長焕刮,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任墙杯,我火速辦了婚禮配并,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘高镐。我一直安慰自己溉旋,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開白布嫉髓。 她就那樣靜靜地躺著观腊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪算行。 梳的紋絲不亂的頭發(fā)上梧油,一...
    開封第一講書人閱讀 51,708評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音州邢,去河邊找鬼儡陨。 笑死,一個(gè)胖子當(dāng)著我的面吹牛量淌,可吹牛的內(nèi)容都是我干的骗村。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼呀枢,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼胚股!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起裙秋,我...
    開封第一講書人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤琅拌,失蹤者是張志新(化名)和其女友劉穎缨伊,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體财忽,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年泣侮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了即彪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡活尊,死狀恐怖隶校,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蛹锰,我是刑警寧澤深胳,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站铜犬,受9級(jí)特大地震影響舞终,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜癣猾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一敛劝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧纷宇,春花似錦夸盟、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至拓春,卻和暖如春释簿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背硼莽。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來泰國打工辕万, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人沉删。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓渐尿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親矾瑰。 傳聞我的和親對(duì)象是個(gè)殘疾皇子砖茸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355