卡方分析

什么是卡方分析

卡方分析又稱卡方檢驗(yàn),主要用于兩組樣本或是兩個(gè)分類變量之間相關(guān)性的分析茁帽。其根本思想是利用樣本的實(shí)際頻數(shù)和理論頻數(shù)的吻合度董饰,來(lái)判斷樣本是否符合預(yù)期。
卡方分析是基于卡方分布的統(tǒng)計(jì)方法倦淀。其主旨思想是:先假設(shè)實(shí)際和理論沒(méi)有區(qū)別蒋畜,然后計(jì)算卡方值,以此估計(jì)理論與實(shí)際的偏離程度撞叽,從而決定接受還是拒絕最初的假設(shè)姻成。

卡方分析的計(jì)算

(1) \quad 假設(shè)H_0:假設(shè)觀察頻數(shù)與期望頻數(shù)沒(méi)有差異\\ (2) \quad 設(shè)A是某類別的觀察頻數(shù),E代表基于H_0算出的該類別的期望頻數(shù),A E的差稱為殘差\\ (3) \quad 在計(jì)算統(tǒng)計(jì)量的偏離程度時(shí)愿棋,我們用\sum_{}^{}|X-\overline X|來(lái)估計(jì)變量X偏離中心的程度科展,便于計(jì)算采用(X-\overline X)^2\\ 這里類似的用統(tǒng)計(jì)量X=\sum_{}^{}\frac{(A-E)^2}{E}來(lái)估計(jì)觀察值和理論值的偏離程度。不加證明的指出:X\sim\chi^2(k-1)糠雨,k是計(jì)算E的參數(shù)個(gè)數(shù)才睹。\\ 對(duì)于R\cdot C的表資料的卡方檢測(cè)X\sim \chi^2((R-1)(C-1)),R為行數(shù),C為列數(shù)\\ (4) \quad 稍作解釋:我們總是假設(shè)觀察頻數(shù)和期望沒(méi)有差異甘邀,這樣在計(jì)算期望頻數(shù)時(shí)是有好處的琅攘。至于假設(shè)的對(duì)錯(cuò),\\ 可以交給觀察與理論的差距來(lái)評(píng)判松邪。如男女抽煙調(diào)查圖所示坞琴,假設(shè)男女抽煙概率一致,那么男生抽煙的期望頻數(shù)E=\frac{500+300}{1350}\cdot 600\\ 其余量的期望頻數(shù)分布計(jì)算出來(lái)為:\frac{100+450}{1350}\cdot 600 \quad \frac{500+300}{1350}\cdot 750 \quad \frac{100+450}{1350}\cdot 750 \\ 卡方值\chi^2=\sum_{}^{}\frac{(A-E)^2}{E}=260.3,由(3)可知测摔,自由度V=(R-1)(C-1)=(2-1)(2-1)=1\\ 查表\chi_{0.05}^{2}(1)=3.84<260.3置济,拒絕H_0,說(shuō)明男女抽煙概率有顯著差異锋八。

男女抽煙調(diào)查圖

卡方分析能做什么

(1) 檢驗(yàn)?zāi)硞€(gè)變量是否服從某分布
(2) 驗(yàn)證某分類變量的某類概率是否為指定值
(3) 驗(yàn)證某兩類變量是否獨(dú)立
(4) 控制某些變量后浙于,另兩個(gè)變量是相互獨(dú)立
(5) 驗(yàn)證兩種方法的效果是否一致

卡方分析對(duì)數(shù)據(jù)的要求

總體來(lái)說(shuō),數(shù)據(jù)量越多越好挟纱。每個(gè)類別期望頻數(shù)不能小于1羞酗。要求期望頻數(shù)大于5的數(shù)量超過(guò)4/5

典型案例

(1) 驗(yàn)證某隨機(jī)變量是否服從某分布,用一個(gè)離散分布和一個(gè)連續(xù)分布來(lái)說(shuō)明紊服。
(1) \quad關(guān)注野牛毛色和角這兩種性狀檀轨,統(tǒng)計(jì)后數(shù)據(jù)如下,問(wèn)這兩對(duì)性狀是否滿足9:3:3:1的比例欺嗤?\\ 提出假設(shè)H_0:滿足9:3:3:1的比例關(guān)系参萄,H_1:不滿足\\ 計(jì)算卡方值\chi^2=\sum_{}\frac{(觀察值-期望頻數(shù))^2}{期望頻數(shù)}=3.37\\ 自由度V=(4-1)(2-1)=3,查表\chi_{0.05}^{2}(3)=7.81>3.37,接受H_0,認(rèn)為它是滿足遺傳比例的煎饼。\\ (2) \quad 驗(yàn)證一下數(shù)據(jù)是否來(lái)自同一個(gè)正態(tài)總體X讹挎。\\ 假設(shè)數(shù)據(jù)來(lái)自同一正態(tài)總體,先估計(jì)均值和方差吆玖,利用最大似然估計(jì)法得出\hat \mu=143.8, \hat \sigma^2=6^2\\ 將數(shù)據(jù)分組如圖所示筒溃,計(jì)算后將頻數(shù)小于5的項(xiàng)就近合并,利用卡方檢驗(yàn)計(jì)算方法得:\\ 卡方值\chi^2=\sum_{}\frac{(觀察值-期望頻數(shù))^2}{期望頻數(shù)}=3.67,由于在計(jì)算前已經(jīng)通過(guò)樣本估計(jì)了均值和方差沾乘,自由度V=5-2-1=2\\ 查表得\chi_{0.05}^{2}(2)=5.99>3.67,接受H_0怜奖,說(shuō)明來(lái)自同一個(gè)正態(tài)總體

計(jì)算過(guò)程
正態(tài)

(2) 驗(yàn)證某分類變量的各類概率是否為指定值。如投硬幣正反概率為0.5
要驗(yàn)證某硬幣正面的概率為0.5,拋100次翅阵,正面55次歪玲,反面45次\\ H_0:出現(xiàn)正面的概率為0.5,\quad H_1:出現(xiàn)正面的概率不為0.5\\ 基于假設(shè)H_0,出現(xiàn)正面的的期望頻數(shù)為100*0.5=50次,反面期望頻數(shù)也為50次掷匠。\\ 計(jì)算卡方值\chi^2=\frac{(55-50)^2}{50}+\frac{(45-50)^2}{50}=1,自由度V=1读慎,查表\chi_{0.05}^{2}(1)=3.84>1,接受H_0

(3) 驗(yàn)證某兩類變量是否獨(dú)立槐雾,我們有喝牛奶和得感冒兩者的關(guān)系來(lái)說(shuō)明夭委,如圖所示

先提出假設(shè):H_0:喝牛奶和感冒無(wú)關(guān),H_1:和牛奶和感冒相關(guān)\\ 依照卡方檢測(cè)的計(jì)算方法計(jì)算卡方值:\\ \chi^2=\frac{(43-139*\frac{71}{251})^2}{139*\frac{71}{251}}+\frac{(28-112*\frac{71}{251})^2}{112*\frac{71}{251}}+\frac{(96-139*\frac{180}{251})^2}{139*\frac{180}{251}}+\frac{(84-112*\frac{180}{251})^2}{112*\frac{180}{251}}=1.077\\ 確定自由度V=1募强,查表\chi_{0.05}^{2}(1)=3.84>1.077株灸,接受H_0,

(4) 控制某些變量后,兩變量是否獨(dú)立
TODO
(5) 驗(yàn)證兩種方法效果是否一致,這里用民眾對(duì)北京和南京的環(huán)衛(wèi)滿意度來(lái)說(shuō)明擎值,如圖所示

先提出假設(shè):H_0:滿意程度比例相同慌烧,H_1:滿意程度不相同\\ 依照卡方檢測(cè)的計(jì)算方法計(jì)算卡方值:方法與上面類似,不列出鸠儿,直接給結(jié)果\\ \chi^2=1.38,確定自由度V=(4-1)(2-1)=3屹蚊,查表\chi_{0.05}^{2}(3)=7.81>1.38厕氨,接受H_0,

寫(xiě)在最后

  1. 為什么H0假設(shè)一定是假設(shè)觀察頻數(shù)和期望頻數(shù)一致、相同汹粤、無(wú)關(guān)命斧。只有這樣,才能從觀察值嘱兼,計(jì)算出期望值国葬。從而檢驗(yàn)觀察值和期望值的差距。如果直接假設(shè)觀察頻數(shù)和期望頻數(shù)不一致芹壕,不同汇四,相關(guān)。那么將無(wú)法計(jì)算期望值踢涌。
  2. 計(jì)算自由度V=(行數(shù)-1)(列數(shù)-1)通孽,一般的顯著度=0.05,可以在Excel中選擇任意方格輸入:=CHIINV(0.05,3)睁壁,即可計(jì)算顯著度=0.05時(shí)利虫,自由度V=3的卡方值。查表值大于計(jì)算值堡僻,接受原假設(shè)糠惫,否則拒絕。
  3. 若觀測(cè)頻數(shù)值小于5钉疫,應(yīng)該將該項(xiàng)合并至相鄰項(xiàng)中
    參考鏈接1
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末硼讽,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子牲阁,更是在濱河造成了極大的恐慌固阁,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,294評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件城菊,死亡現(xiàn)場(chǎng)離奇詭異备燃,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)凌唬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,493評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)并齐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人客税,你說(shuō)我怎么就攤上這事况褪。” “怎么了更耻?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,790評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵测垛,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我秧均,道長(zhǎng)食侮,這世上最難降的妖魔是什么号涯? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,595評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮锯七,結(jié)果婚禮上链快,老公的妹妹穿的比我還像新娘。我一直安慰自己起胰,他們只是感情好久又,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,718評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布巫延。 她就那樣靜靜地躺著效五,像睡著了一般。 火紅的嫁衣襯著肌膚如雪炉峰。 梳的紋絲不亂的頭發(fā)上畏妖,一...
    開(kāi)封第一講書(shū)人閱讀 49,906評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音疼阔,去河邊找鬼戒劫。 笑死,一個(gè)胖子當(dāng)著我的面吹牛婆廊,可吹牛的內(nèi)容都是我干的迅细。 我是一名探鬼主播,決...
    沈念sama閱讀 39,053評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼淘邻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼茵典!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起宾舅,我...
    開(kāi)封第一講書(shū)人閱讀 37,797評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤统阿,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后筹我,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體扶平,經(jīng)...
    沈念sama閱讀 44,250評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,570評(píng)論 2 327
  • 正文 我和宋清朗相戀三年蔬蕊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了结澄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,711評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡岸夯,死狀恐怖概而,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情囱修,我是刑警寧澤赎瑰,帶...
    沈念sama閱讀 34,388評(píng)論 4 332
  • 正文 年R本政府宣布,位于F島的核電站破镰,受9級(jí)特大地震影響餐曼,放射性物質(zhì)發(fā)生泄漏压储。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,018評(píng)論 3 316
  • 文/蒙蒙 一源譬、第九天 我趴在偏房一處隱蔽的房頂上張望集惋。 院中可真熱鬧,春花似錦踩娘、人聲如沸刮刑。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,796評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)雷绢。三九已至,卻和暖如春理卑,著一層夾襖步出監(jiān)牢的瞬間翘紊,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,023評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工藐唠, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留帆疟,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,461評(píng)論 2 360
  • 正文 我出身青樓宇立,卻偏偏與公主長(zhǎng)得像踪宠,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子妈嘹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,595評(píng)論 2 350