1令野、卡方檢驗(yàn):
卡方檢驗(yàn)是用途非常廣的以卡方分布(深入淺出統(tǒng)計(jì)學(xué)有講)為基礎(chǔ)的一種假設(shè)檢驗(yàn)方法,它屬于非參數(shù)檢驗(yàn)的范疇徽级,主要是比較兩個(gè)及兩個(gè)以上樣本率( 構(gòu)成比)以及兩個(gè)分類變量的關(guān)聯(lián)性分析气破。
以運(yùn)營為例:
- 卡方檢驗(yàn)可以檢驗(yàn)?zāi)行曰蛘吲詫€上買生鮮食品有沒有區(qū)別;
- 不同城市級別的消費(fèi)者對買SUV車有沒有什么區(qū)別餐抢;
舉例:兩組大白鼠在不同致癌劑作用下的發(fā)癌率如下表现使,問兩組發(fā)癌率有無差別?
處理 | 發(fā)癌數(shù) | 未發(fā)癌數(shù) | 合計(jì) | 發(fā)癌率% |
---|---|---|---|---|
甲組 | 52 | 19 | 71 | 73.24 |
乙組 | 39 | 3 | 42 | 92.86 |
合計(jì) | 91 | 22 | 113 | 80.33 |
(52 19 39 3) 這四個(gè)數(shù)據(jù)是整個(gè)表中的基本資料旷痕,其余數(shù)據(jù)均由此推算出來碳锈;這四格資料表就專稱四格表(fourfold table),或稱2行2列表(2×2 contingency table)欺抗。從該資料算出的兩組發(fā)癌率分別為73.24%和92.86%售碳,兩者的差別可能是抽樣誤差所致,亦可能是兩組發(fā)癌率(總體率)確有所不同绞呈。這里可通過卡方檢驗(yàn)來區(qū)別其差異有無統(tǒng)計(jì)學(xué)意義贸人,檢驗(yàn)的基本公式為:
式中A為實(shí)際數(shù),以上四格表的四個(gè)數(shù)據(jù)就是實(shí)際數(shù)佃声。T為理論數(shù)艺智,是根據(jù)檢驗(yàn)假設(shè)推斷出來的;即假設(shè)這兩組的發(fā)癌率本無不同圾亏,差別僅是由抽樣誤差所致十拣。這里可將兩組合計(jì)發(fā)癌率作為理論上的發(fā)癌率,即 91/113=80.3%志鹃,以此為依據(jù)便可推算出四格表中相應(yīng)的四格的理論數(shù)父晶。以上表資料為例檢驗(yàn)如下。
檢驗(yàn)步驟:
1. 建立檢驗(yàn)假設(shè)
H0:兩組發(fā)癌率有差別
H1:兩組發(fā)癌率無差別
α=0.05
2. 計(jì)算理論數(shù)(TRC)弄跌,計(jì)算公式為: TRC=nR x nC/n
式中TRC是表示第R行C列格子的理論數(shù)甲喝,nR為理論數(shù)同行的合計(jì)數(shù),nC為與理論數(shù)同列的合計(jì)數(shù)铛只,n為總例數(shù)埠胖。
第1行1列: 71×91/113=57.18
第1行2列: 71×22/113=13.82
第2行1列: 42×91/113=33.82
第2行2列: 42×22/113=8.18
以推算結(jié)果糠溜,可與原四項(xiàng)實(shí)際數(shù)并列成下表:
處理 | 發(fā)癌數(shù) | 未發(fā)癌數(shù) | 合計(jì) |
---|---|---|---|
甲組 | 52 ( 57.18 ) | 19 ( 13.82 ) | 71 |
乙組 | 39 ( 33.82 ) | 3 ( 8.18 ) | 42 |
合計(jì) | 91 | 22 | 113 |
因?yàn)樯媳砻啃泻兔苛泻嫌?jì)數(shù)都是固定的,所以只要用TRC式求得其中一項(xiàng)理論數(shù)(例如T1.1=57.18)直撤,則其余三項(xiàng)理論數(shù)都可用同行或同列合計(jì)數(shù)相減非竿,直接求出。
3. 計(jì)算卡方值按公式代入
卡 方
4. 查卡方值表求P值
在查表之前應(yīng)知本題自由度谋竖。按卡方檢驗(yàn)的自由度v=(行數(shù)-1)(列數(shù)-1)红柱,則該題的自由度v=(2-1)*(2-1)=1,查卡方界值表蓖乘,找到锤悄,而本題卡方=6.48即卡方>,P<0.05嘉抒,差異有顯著統(tǒng)計(jì)學(xué)意義零聚,按α=0.05水準(zhǔn),拒絕H0些侍,可以認(rèn)為兩組發(fā)癌率有差別隶症。
通過實(shí)例計(jì)算,讀者對卡方的基本公式有如下理解:若各理論數(shù)與相應(yīng)實(shí)際數(shù)相差越小岗宣,卡方值越新旎帷;如兩者相同耗式,則卡方值必為零胁住,而卡方永遠(yuǎn)為正值。又因?yàn)槊恳粚碚摂?shù)和實(shí)際數(shù)都加入卡方值中纽什,分組越多,即格子數(shù)越多躲叼,卡方值也會越大芦缰,因而每考慮卡方值大小的意義時(shí)同時(shí)要考慮到格子數(shù)。因此自由度大時(shí)枫慷,卡方的界值也相應(yīng)增大让蕾。
2、t 檢驗(yàn):
T檢驗(yàn)是用于兩個(gè)樣本(或樣本與群體)平均值差異程度的檢驗(yàn)方法或听。它是用T分布理論來推斷差異發(fā)生的概率探孝,從而判定兩個(gè)平均數(shù)的差異是否顯著。
T檢驗(yàn)的適用條件:
- 計(jì)量資料
- 小樣本(不是必須)
- 獨(dú)立性誉裆、正態(tài)性或近似正態(tài)顿颅、方差齊性(兩小樣本所對應(yīng)的兩總體方差相等,一般用F檢驗(yàn))
- 當(dāng)樣本例數(shù)較小時(shí),要求樣本取自正態(tài)總體足丢;(當(dāng)樣本數(shù)少于30時(shí)粱腻,需要檢驗(yàn)滿足正態(tài)分布庇配,若數(shù)量較多,根據(jù)中心極限定律绍些,樣本會趨向正態(tài)分布)
為什么小樣本用t檢驗(yàn)捞慌?從抽樣研究所得的樣本均數(shù)特點(diǎn)來看,只要樣本量>60柬批,(無論總體是否服從正態(tài)分布)抽樣研究的樣本均數(shù)服從或者近似服從正態(tài)分布啸澡;而如果樣本量較小(參考樣本量<100),抽樣分布隨著樣本量的減小氮帐,與正態(tài)分布的差別越來越大嗅虏。此時(shí)需要用小樣本理論來解釋樣本均數(shù)的分布——而t分布就是小樣本理論的代表。因此揪漩,小樣本的檢驗(yàn)需要用到t檢驗(yàn)旋恼。
T檢驗(yàn)的用途:
(1)樣本均數(shù)與群體均數(shù)的比較看差異是否顯著;
(2)兩樣本均數(shù)的比較看差異是否顯著奄容。
t 檢驗(yàn)冰更,有三種常用場景:
- 單一樣本t檢驗(yàn)
- 配對樣本t檢驗(yàn)
- 兩樣本t檢驗(yàn)
2.1:單一樣本t檢驗(yàn):比較樣本的情況和總體的情況有無差異
例如,現(xiàn)在已知廣州市的平均身高昂勒,現(xiàn)在我在天河區(qū)隨機(jī)抽取100個(gè)人蜀细,看看天河的100個(gè)人和廣州的平均身高有無差異。
其應(yīng)用條件需要滿足:計(jì)量資料戈盈、小樣本奠衔、正態(tài)分布
兩小樣本比較時(shí)還要求方差齊性,但因單樣本t檢驗(yàn)中不存在兩個(gè)小樣本塘娶,故無法檢驗(yàn)方差齊性归斤。
#scipy.stats.ttest_1samp()檢驗(yàn)數(shù)據(jù)總體的平均數(shù)是否可能等于給定值
# (嚴(yán)格來說是否觀察值來自于給定總體平均數(shù)的正態(tài)分布)
#它返回一個(gè)T統(tǒng)計(jì)值以及p值
import scipy.stats
t, pval = scipy.stats.ttest_1samp(iris['petal_legth'], popmean=4.0)
print(t, pval)
# P=0.0959 > 5%, 接受原假設(shè),即花瓣長度為4.0刁岸。
2.2:配對樣本t檢驗(yàn):比較樣本某個(gè)狀況前后的對比有無差異
例如脏里,現(xiàn)在有10個(gè)糖尿病的病人,給他們都用同種控制糖尿病的藥物虹曙,看看這組病人在用藥前和用藥后有無差異
注:每個(gè)病人用藥前后各自配對成一對迫横,所以叫配對樣本
其應(yīng)用條件需要滿足:計(jì)量資料、配對設(shè)計(jì)酝碳、小樣本矾踱、正態(tài)分布
from scipy.stats import ttest_rel
import pandas as pd
x = [20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2]
y = [17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.0, 19.1]
# 配對樣本t檢驗(yàn)
print(ttest_rel(x, y))
# Ttest_relResult(statistic=1.8001958337730648, pvalue=0.1148515300576627)
# 結(jié)論: 因?yàn)閜值=0.1149>0.05, 故接受原假設(shè), 認(rèn)為在70℃時(shí)的平均斷裂強(qiáng)力與80℃時(shí)的平均斷裂強(qiáng)力間無顯著差別
2.3:兩樣本t檢驗(yàn):比較兩組樣本有無差異
例如,現(xiàn)在有10男一組疏哗,10女一組呛讲,看看這不同性別的身高有無差異
其應(yīng)用條件需要滿足:計(jì)量資料、小樣本、正態(tài)性之外圣蝎,還需要方差齊性
如果方差齊刃宵,可進(jìn)行兩樣本t檢驗(yàn),如果方差不齊徘公,則需要其他的檢驗(yàn)方法藏研。
#取兩個(gè)樣本
iris_1 = iris[iris.petal_legth >= 2]
iris_2 = iris[iris.petal_legth < 2]
print(np.mean(iris_1['petal_legth']))
print(np.mean(iris_2['petal_legth']))
'''
H0: 兩種鳶尾花花瓣長度一樣
H1: 兩種鳶尾花花瓣長度不一樣
'''
import scipy.stats
t, pval = scipy.stats.ttest_ind(iris_1['petal_legth'],iris_2['petal_legth'])
print(t,pval)
'''
p<0.05,拒絕H0唆涝,認(rèn)為兩種鳶尾花花瓣長度不一樣
'''
t 檢驗(yàn)的步驟
t 檢驗(yàn)的步驟也是三板斧:a.建立假設(shè);b.驗(yàn)證檢驗(yàn);c.接受/拒絕假設(shè)
轉(zhuǎn)載:
https://blog.csdn.net/qq_39306047/article/details/91397814
https://www.zhihu.com/topic/19622729/hot
3哟旗、F檢驗(yàn)
F檢驗(yàn)又叫方差齊性檢驗(yàn)糊渊。在兩樣本t 檢驗(yàn)中要用到F檢驗(yàn)爷耀。
F檢驗(yàn)法是英國統(tǒng)計(jì)學(xué)家Fisher提出的申屹,主要通過比較兩組數(shù)據(jù)的方差,以確定他們的精密度是否有顯著性差異缩抡。至于兩組數(shù)據(jù)之間是否存在系統(tǒng)誤差奠宜,則在進(jìn)行F檢驗(yàn)并確定它們的精密度沒有顯著性差異之后,再進(jìn)行t檢驗(yàn)瞻想。
# F test的原理非常簡單压真,所以不妨自己寫
#先求出兩個(gè)樣本的方差的比值,再寫出兩個(gè)樣本的自由度
#然后就去查F分布的概率累計(jì)函數(shù)蘑险,就可以得到p value了
from scipy.stats import f
F = np.var(a) / np.var(b)
df1 = len(a) - 1
df2 = len(b) - 1
p_value = 1 - 2 * abs(0.5 - f.cdf(F, df1, df2))
4滴肿、方差分析
方差分析就相當(dāng)于是能夠分析三組及以上數(shù)據(jù)的兩樣本t檢驗(yàn)升級版,判斷三組或者更多組數(shù)據(jù)是否存在不同佃迄。
方差分析有三個(gè)使用條件:
1.每組樣本數(shù)據(jù)對應(yīng)的總體應(yīng)該服從正態(tài)分布泼差;
2.每組樣本數(shù)據(jù)對應(yīng)的總體方差要相等,方差相等又叫方差齊性呵俏;
3.每組之間的值是相互獨(dú)立的堆缘,就是A、B普碎、C組的值不會相互影響吼肥。
3.1 方差分析流程
3.1.1 建立假設(shè)
H0:各組數(shù)據(jù)均值相等;
H1:各組數(shù)據(jù)均值不相等或不全等随常。
檢驗(yàn)水準(zhǔn)為0.05潜沦。
3.1.2 計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值
F值 = 組間方差/組內(nèi)方差萄涯。我們主要是通過比較F值的大小來判斷各組之間是否存在顯著差異绪氛。
所謂的組間方差就是用來反映組與組之間的差異程度,組內(nèi)方差就是用來反映各組內(nèi)部數(shù)據(jù)的差異程度涝影。
要來計(jì)算方差枣察,我們需要先計(jì)算平方和。為了讓大家能夠更加理解,我們來舉個(gè)例子來講解各個(gè)指標(biāo)怎么計(jì)算序目。
現(xiàn)在有兩組數(shù)據(jù):
第一組:80臂痕、85、96
第二組:110猿涨、125握童、130、145叛赚、160
第一組和第二組的總算術(shù)平均值為:
(80+85+96+110+125+130+145+160)/8 = 116.375澡绩。
第一組的算術(shù)平均值:(80+85+96)/3 = 87
第二組的算術(shù)平均值:(110+125+130+145+160)/5 = 134
組間平方和(SSA):
= 第一組平均值與總體平均值的平方和×第一組樣本數(shù)+第二組平均值與總體平均值的平方和×第二組樣本數(shù)
= (87-116.375)^2×3 + (134-116.375)^2×5 = 4141.875
組內(nèi)平方和(SSE):
= 第一組平方和 + 第二組平方和
=(80-87)^2 +(85-87)^2 +(96-87)^2
+(110-134)^2 +(125-134)^2 +(130-134)^2 +(145-134)^2 +(160-134)^2
=134+1470=1604
總體平方和(SST):
=所有樣本數(shù)據(jù)與總體平均值之間的平方和
=(80-116.375)^2 +(85-116.375)^2 +(96-116.375)^2
+(110-116.375)^2 +(125-116.375)^2 +(130-116.375)^2 +(145-116.375)^2 +(160-116.375)^2
=5745.875
通過以上數(shù)據(jù),我們可以看出 SST = SSA + SSE
總平方和會有一個(gè)問題俺附,就是隨著數(shù)據(jù)量越大肥卡,這個(gè)值會越大,所以我們引入另外一個(gè)概念:均方事镣。均方=平方和/自由度步鉴,其中自由度是樣本數(shù)-1。
組間均方(MSA)= SSA/自由度 = 4141.875/(2-1) = 4141.875
組內(nèi)均方(MSE)= SSE/自由度 = 1604/(8-2) = 267.333
MSA又稱為組間方差璃哟,MSE稱為組內(nèi)方差氛琢。
F = MSA/MSE = 4141.875/267.333 = 15.4933
3.1.3 確定邊界值并做出決策
此時(shí)我們就可以通過查F表,來獲得置信度為95%時(shí)的F邊界值:
如果F<F邊界值表面各組數(shù)據(jù)之間沒有顯著差異沮稚,接受H0假設(shè)艺沼;
如果F≥F邊界值表面各組數(shù)據(jù)之間存在明顯差異,拒絕H0假設(shè)蕴掏,接受H1假設(shè)障般。
如果我們證實(shí)了各組數(shù)據(jù)之間是存在明顯差異的,這個(gè)時(shí)候就可以去拿各組的均值來進(jìn)行比較盛杰,均值越大挽荡,可以說明策略效果越好。
轉(zhuǎn)載:https://blog.csdn.net/junhongzhang/article/details/99143064
Z檢驗(yàn)
- 檢驗(yàn)一個(gè)樣本平均數(shù)與一個(gè)己知的總體平均數(shù)的差異是否顯著
- 檢驗(yàn)來自兩個(gè)的兩組樣本平均數(shù)的差異性即供,從而判斷它們各自代表的總體的差異是否顯著
使用條件:
- 正態(tài)分布
- 總體標(biāo)準(zhǔn)差已知或者樣本容量足夠大(>30)
在討論T檢驗(yàn)之前定拟,我們先回顧如何將普通正態(tài)分布轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布。這需要用到下面Z分?jǐn)?shù)的計(jì)算公式:逗嫡,其中:為數(shù)據(jù)總體中的第個(gè)數(shù)據(jù)青自;為總體均值;為總體標(biāo)準(zhǔn)差驱证;
通過上面這個(gè)公式計(jì)算得到的數(shù)值稱為Z分?jǐn)?shù)延窜。對于容量比較大(大于100)的數(shù)據(jù)集,如果其滿足正態(tài)分布抹锄,那么根據(jù)上面公式求出數(shù)據(jù)集中每個(gè)數(shù)值的Z分?jǐn)?shù)逆瑞,由這些Z分?jǐn)?shù)構(gòu)成一個(gè)新的序列荠藤,這個(gè)序列就是Z分布序列。
有了Z分布获高,Z分?jǐn)?shù)的計(jì)算公式不僅可以用作普通正態(tài)分布的標(biāo)準(zhǔn)化哈肖,還被用于判斷均值差異顯著性的Z檢驗(yàn),也就是下面的情況:
1念秧、 總體標(biāo)準(zhǔn)差已知或樣本容量大于30淤井,比較兩個(gè)樣本的均值是否有顯著性的差異,檢驗(yàn)公式如下:
(總體標(biāo)準(zhǔn)差已知)
(總體標(biāo)準(zhǔn)差未知摊趾,樣本容量大)
其中:庄吼、是兩樣本均值;严就、是兩個(gè)樣本的抽樣總體的均值总寻,檢驗(yàn)時(shí)假設(shè)兩個(gè)總體的均值相等,所以差為0梢为;渐行、是兩個(gè)總體的標(biāo)準(zhǔn)差;铸董、是兩個(gè)樣本的標(biāo)準(zhǔn)差祟印;
2、 總體標(biāo)準(zhǔn)差已知或樣本容量大于30粟害,比較某個(gè)總體的均值與某個(gè)常數(shù)是否有顯著性的差異蕴忆,檢驗(yàn)公式如下:
(總體標(biāo)準(zhǔn)差已知)
(總體標(biāo)準(zhǔn)差未知,樣本容量大)
其中:為樣本均值悲幅;為假設(shè)與樣本均值無顯著性差異的常數(shù)套鹅;為總體標(biāo)準(zhǔn)差;為樣本標(biāo)準(zhǔn)差汰具;
(注意:此圖中若要使用T檢驗(yàn)卓鹿,還需滿足其他T檢驗(yàn)的使用條件)
(注意:此圖中n=16,它有錯(cuò)誤)
參考:
如何理解Z檢驗(yàn)和T檢驗(yàn)留荔?
假設(shè)檢驗(yàn)之z-檢驗(yàn)吟孙,t-檢驗(yàn),卡方檢驗(yàn)