總結(jié):
使用條件:定類變量逼争,大于等于兩組
數(shù)據(jù)集存放:原始數(shù)據(jù)直接用勇凭;統(tǒng)計過的數(shù)據(jù)需要加權(quán)個案
卡方值的選擇:需要根據(jù)樣本量n和格子中的理論數(shù)E來定婿斥。通常2*2數(shù)據(jù)量少的話用費舍卡方挖诸。
一 簡介
- 卡方檢驗主要應(yīng)用于定類變量和定類變量之間的關(guān)系,比如驗證不同性別下使用電腦品牌是否存在差異卒废。
- 也稱獨立性檢驗,是一種非參數(shù)假設(shè)檢驗宙地。即利用卡方分布去做的假設(shè)檢驗摔认。
- 關(guān)鍵詞:
- 卡方分布
統(tǒng)計學(xué)中三大分布,卡方分布宅粥,t分布参袱,F(xiàn)分布,都是由正態(tài)分布推導(dǎo)而來。 - 假設(shè)檢驗
- 類別變量
- 自由度 Df=(r-1)(c-1)
- 卡方值與P值
P值:小拒大接 - 非參數(shù)檢驗
- 顯著性水平:在原假設(shè)成立下抹蚀,拒絕原假設(shè)的概率剿牺,即犯第一錯誤的概率。
二 原理
(一)卡方檢驗統(tǒng)計量
image.png
- 小結(jié)
- 分子代表實際值與期望值的偏差(平方是為了消除負值影響)环壤,分母代表標準化晒来。因此卡方統(tǒng)計量的值越小,代表觀測頻數(shù)與理論頻數(shù)越接近郑现;
- 因為我們的原假設(shè)是:兩個變量是獨立的湃崩。(通常原假設(shè)是我們想要推翻的,我們想證明的結(jié)論一般放在備擇假設(shè)中)因此如果卡方統(tǒng)計量的值越大接箫,對應(yīng)的P值越小竹习,小拒大接,則拒絕原假設(shè)列牺,說明兩個變量相關(guān)整陌;反之,卡方值越小瞎领,接受原假設(shè)泌辫,說明兩變量是獨立的
(為什么?我的理解:卡方值越小九默,偏差小震放,說明這兩個變量越符合卡方分布,而卡方分布的前提就是變量間的獨立性驼修,因此證明這兩個變量是獨立的)
(二)基本流程
image.png
三 使用工具
SPSS卡方檢驗
- 參考資料:
百度-spss入門:如何實現(xiàn)四格表資料的卡方檢驗
360圖書館-SPSS超詳細操作:卡方檢驗(R×C列聯(lián)表)
數(shù)據(jù)科學(xué)-卡方檢驗
CSDN卡方檢驗(詳解) - 小結(jié)
- 如何存放數(shù)據(jù)集殿遂?
在使用SPSS卡方檢驗時,有兩種存放數(shù)據(jù)集方式乙各。
第一種使用的是已經(jīng)加工好的數(shù)據(jù)墨礁,需要創(chuàng)建三個變量值(類別1,類別2耳峦,數(shù)量)恩静。此時一定要先對頻數(shù)加權(quán)個案,就是要告訴spss實際樣本很多蹲坷,有相應(yīng)的頻數(shù)之“和”那么多驶乾;如果不選擇,spss就會默認一行一個樣本數(shù)據(jù)循签;
第二種是直接使用原始樣本(即有多少樣本量就有多少行)
image.png
- 使用卡方檢驗有哪些前提條件级乐?
R×C表卡方檢驗應(yīng)用條件:
(1)R×C表中理論數(shù)小于5的格子不能超過1/5;
(2)不能有小于1的理論數(shù)县匠。如果實驗中有不符合R×C表的卡方檢驗风科,可以通過增加樣本數(shù)撒轮、列合并來實現(xiàn)。
- 使用哪個卡方值更準確丐重?
需要結(jié)合X和Y的類別個數(shù)腔召,樣本量,以及期望頻數(shù)格子分布情況等扮惦,選擇最終應(yīng)該使用的卡方值臀蛛。
n代表總樣本量;E代表期望頻數(shù)崖蜜;R代表X的類別個數(shù)浊仆;C代表Y的類別個數(shù)。
通常情況下豫领,共有三種卡方值抡柿,分別是Pearson卡方,yates校正卡方等恐,F(xiàn)isher卡方洲劣;優(yōu)先使用Pearson卡方,其次為yates校正卡方课蔬,最后為Fisher卡方囱稽。
- 針對2*2(R=2,C=2)
- 所有的理論數(shù)T≥5并且總樣本量n≥40二跋,用Pearson卡方進行檢驗战惊。
- 如果理論數(shù)T<5但T≥1,并且n≥40扎即,用連續(xù)性校正的卡方進行檢驗吞获。
- 如果有理論數(shù)T<1或n<40,則用Fisher’s檢驗谚鄙。
- 針對R*C(R各拷,C中任意一個大于2;且R>=2,且C>=2)
E全部>1 且 1 <=E<5格子的比例小于20% 則使用Pearson卡方襟锐,否則使用yates校正卡方撤逢。(?)
- 文字分析描述怎么寫?
從上表可知粮坞,類別1與類別2在統(tǒng)計學(xué)意義上存在顯著性差異(χ2=7.054,p =0.029 < 0.05)。具體描述再通過對比百分比尋找差異初狰。
如果想了解兩個類別的相關(guān)強度莫杈,在SPSS交叉表-統(tǒng)計量-勾選相關(guān)性,查看相關(guān)系數(shù)奢入。(弱相關(guān)筝闹、中度相關(guān)和強相關(guān)的分解線系數(shù)分別為0.1媳叨,0.3,0.5) - 卡方檢驗的缺陷
卡方檢驗只能判斷各組間是否存在差異关顷,如果想要進一步確認具體是哪些組之間存在了差異糊秆,需要對結(jié)果更深入分析,即使用兩兩比較议双,見SPSS:多個樣本率的卡方檢驗及兩兩比較 - SPSS非參數(shù)檢驗中的卡方檢驗有什么區(qū)別痘番?
簡單來說,交叉表是多變量的交叉平痰,非參數(shù)中的卡方檢驗是單個變量的差異分析汞舱。比如檢驗商場一周從周一到周日每天人流量是否有差異。
知乎-踩坑總結(jié)
筆記18:SPSS交叉表卡方與非參數(shù)卡方檢驗有何區(qū)別宗雇?附案例