1. 部分略去
- 一直到“獨(dú)立樣本的 t 檢驗(yàn)”之前我認(rèn)為推文寫得沒有《概率論與數(shù)理統(tǒng)計(jì)》教科書好溅固。
2. 獨(dú)立樣本的t檢驗(yàn)
- 用于比較來自兩個(gè)獨(dú)立總體的樣本的均值
- 由于我們是在比較兩個(gè)樣本曾掂,而這兩個(gè)樣本可能來源于兩個(gè)不同的分布湿硝,因此在確定 t 統(tǒng)計(jì)量的分母時(shí)拆融,我們需要考慮兩個(gè)樣本所來自的分布是否有相同的發(fā)散程度(即方差)。
- 判斷兩個(gè)樣本的方差是否相等,可以使用Levene氏檢驗(yàn),其原假設(shè)為兩個(gè)分布方差相等病梢。
- 當(dāng)方差相等與否時(shí),具體 t 統(tǒng)計(jì)量長(zhǎng)啥樣依舊需要看《概率論與數(shù)理統(tǒng)計(jì)》教科書梁肿。
3. t 檢驗(yàn)不能做什么
- 不能用于非連續(xù)變量的比較
特別注意對(duì)離散型變量使用t檢驗(yàn)也是可以算出結(jié)果的蜓陌,但是這個(gè)結(jié)果沒有意義。
- 不能用于超過兩組變量之間均值的比較
講到方差分析時(shí)再詳細(xì)討論吩蔑。
- 不能用于不服從正態(tài)分布的變量的比較
下一節(jié)具體講判斷
4. 服從正態(tài)分布
- 在我們推導(dǎo) t 檢驗(yàn)背后原理的時(shí)候钮热,其實(shí)涉及到了三個(gè)概率分布:
- 總體的分布
- 樣本的分布
- 抽樣分布:樣本平均值(或者樣本的其他統(tǒng)計(jì)量,如標(biāo)準(zhǔn)差等)因?yàn)槌闃与S機(jī)性產(chǎn)生的分布烛芬,稱為抽樣分布隧期。
- 由于 p 值的定義:在原假設(shè)為真的前提下,觀察到與我們的數(shù)據(jù)相同或更極端的數(shù)據(jù)的概率蛀骇。這是一個(gè)和抽樣分布相關(guān)的概率厌秒,所以抽樣分布為正態(tài)分布時(shí)读拆,計(jì)算出的 p 值才準(zhǔn)確擅憔,而根據(jù)中心極限定理,只要數(shù)據(jù)量足夠大檐晕,即使原數(shù)據(jù)有點(diǎn)偏離正態(tài)分布暑诸,抽樣分布也會(huì)近似為正態(tài)分布,所以這時(shí)也可以使用 t 檢驗(yàn)辟灰。
4.1. 判斷是否服從正態(tài)分布的方法
-
定性方法
- 頻率分布圖
- q-q 圖
計(jì)算機(jī)模擬出正態(tài)分布對(duì)應(yīng)的n 分位數(shù)(此為第一 q个榕,對(duì)應(yīng) x 坐標(biāo));同時(shí)芥喇,將待檢驗(yàn)數(shù)據(jù)從小到大排列西采,就可以得到數(shù)據(jù)的n 分位數(shù)(此為第二 q,對(duì)應(yīng) y 坐標(biāo))
-
定量方法
- 夏皮羅-威爾克檢驗(yàn)(Shapiro-Wilk test)和科爾莫戈羅夫-斯米爾諾夫檢驗(yàn)(Kolmogorov-Smirnov test)
- 原假設(shè)為數(shù)據(jù)符合正態(tài)分布
使用這些檢驗(yàn)的時(shí)候要注意继控,當(dāng)樣本足夠大時(shí)械馆,只要數(shù)據(jù)稍有一點(diǎn)偏離正態(tài)分布,p 值就總能小于 0.05武通,因而檢驗(yàn)的結(jié)果總是傾向于顯示數(shù)據(jù)為非正態(tài)分布霹崎。也就是說,如果我們的樣本足夠大冶忱,即使夏皮羅-威爾克檢驗(yàn)或科爾莫戈羅夫-斯米爾諾夫檢驗(yàn)給出小于 0.05 的 p 值尾菇,數(shù)據(jù)來自的總體仍可能是服從正態(tài)分布的。
當(dāng)然如果數(shù)據(jù)量太小,上面的這些方法可能都無法給出可信的關(guān)于數(shù)據(jù)正態(tài)性的判斷派诬,這時(shí)候還需要根據(jù)產(chǎn)生測(cè)量數(shù)據(jù)的物理過程劳淆,考慮數(shù)據(jù)是否可能是正態(tài)分布。
4.2. 樣本量
- 之前提到“樣本量足夠大時(shí)默赂,抽樣分布會(huì)近似正態(tài)分布”憔儿,那么究竟是多大呢?
- 對(duì)于有些總體分布放可,15個(gè)樣本就綽綽有余谒臼,而對(duì)另一些總體分布,可能需要非常大的樣本量才能使抽樣分布近似正態(tài)分布耀里,比如離散型變量蜈缤。
4.3. 數(shù)據(jù)不正態(tài)的處理方式
- 增加樣本量
- 做數(shù)據(jù)變換,改變總體分布
- 使用其他檢驗(yàn)(其他章節(jié)會(huì)提及)
4.4. 數(shù)據(jù)變換
- 也就是選擇一個(gè)函數(shù)f作用于樣本冯挎,雖然是對(duì)樣本做變換底哥,但同時(shí)也改變了總體的分布。
- f必須是單調(diào)的房官。
- 大部分非正態(tài)都是偏態(tài)(符合中間高兩邊低但不符合左右對(duì)稱)
- 對(duì)于右偏分布(指的是尾巴的方向)趾徽,可以采用對(duì)數(shù)函數(shù)、平方根翰守、三次方根等孵奶。
- 對(duì)于左偏數(shù)據(jù),可以取負(fù)數(shù)蜡峰,也可以采用二階導(dǎo)數(shù)為正的增函數(shù)了袁,如平方、指數(shù)函數(shù)等湿颅。
- 采用Box-Cox變換载绿,可以根據(jù)一定的標(biāo)準(zhǔn)自動(dòng)找出最佳的變換函數(shù)。
利用計(jì)算機(jī)找到使變換后的樣本最接近正態(tài)分布的λ油航,本質(zhì)是計(jì)算取各個(gè)λ時(shí)正態(tài)假設(shè)下的似然函數(shù)崭庸。
- 數(shù)據(jù)變換的局限性
- 不能解決所有非正態(tài)性問題
- 對(duì)數(shù)據(jù)進(jìn)行變換之后,重新進(jìn)行原來計(jì)劃的統(tǒng)計(jì)檢驗(yàn)谊囚,其意義會(huì)發(fā)生變化怕享,但是對(duì)數(shù)變換是一個(gè)例外,對(duì)數(shù)變化后新數(shù)據(jù)的算術(shù)平均數(shù)就是原數(shù)據(jù)的幾何平均數(shù)秒啦,也可以表示樣本數(shù)據(jù)的集中趨勢(shì)熬粗,因此對(duì)數(shù)變換有相對(duì)明確的意義,應(yīng)用也比較多余境。
5. 顯著性與效應(yīng)大小并重
- 樣本量大小對(duì) p 值會(huì)有很大影響驻呐。(低 p 值極有可能是效應(yīng)大也可能是樣本量大)
5.1. t檢驗(yàn)的效應(yīng)大泄嘧纭:Cohen 氏 d 值
-
- 其中 μ 為總體的真實(shí)均值,μ0 為標(biāo)準(zhǔn)值含末,而 σ 為總體的標(biāo)準(zhǔn)差猜拾。當(dāng)然,總體的參數(shù)我們無法得知佣盒,因此要用樣本的均值和標(biāo)準(zhǔn)差代替挎袜。
- 分子體現(xiàn)了樣本相對(duì)于標(biāo)準(zhǔn)值的偏離程度,分母體現(xiàn)了結(jié)果的不確定性(不確定性大時(shí)效應(yīng)蟹什选)
- Cohen氏d值使我們能夠把來自完全不同的數(shù)據(jù)的若干 t 檢驗(yàn)的效應(yīng)大小放在同一個(gè)尺度上比較盯仪。
- 怎樣的效應(yīng)算是大呢?
- Cohen 氏 d 值的發(fā)明人 Jacob Cohen 曾經(jīng)提出過一條經(jīng)驗(yàn)準(zhǔn)則蜜葱,把 d 值為 0.2全景,0.5 和 0.8 的效應(yīng)分別稱為小、中牵囤、大效應(yīng)爸黄。但這只是一個(gè)參考。
5.2. 成對(duì)樣本 t 檢驗(yàn)的效應(yīng)大小
- 其中 μx揭鳞、μy 為兩個(gè)成對(duì)總體的均值炕贵,σx、σy 分別為各自的標(biāo)準(zhǔn)差野崇,而 ρxy 為兩個(gè)總體之間的相關(guān)系數(shù)
5.3. 獨(dú)立樣本 t 檢驗(yàn)的效應(yīng)大小
6. 置信區(qū)間
6.1. 為什么需要一個(gè)區(qū)間
- Cohen 氏 d 值把平均值的差別放在分子上称开,而把標(biāo)準(zhǔn)差放在分母上,從而是一個(gè)融合了平均值的差異及其不確定性的量舞骆。但有兩個(gè)小缺點(diǎn):
- 這只是一個(gè)點(diǎn)估計(jì)钥弯,其精確值很可能是產(chǎn)生樣本時(shí)隨機(jī)性的結(jié)果。與其糾結(jié)于小數(shù)點(diǎn)后幾位督禽,更重要的其實(shí)是它的大致范圍,比如效應(yīng)大小大約在 0.3 和 0.35 之間总处,至于到底是 0.328 還是 0.315 還是 0.346狈惫,多數(shù)情況下其實(shí)都無關(guān)緊要。
- 由于去除了單位鹦马,雖然便于比較胧谈,但也給結(jié)果的解讀帶來了困難。
- 因此荸频,我們使用區(qū)間估計(jì)菱肖,找置信區(qū)間。
6.2. 置信度
- 如果我們重復(fù)從同一個(gè)總體中獲得樣本旭从,用同樣的方法構(gòu)建出許多用于估計(jì)效應(yīng)大小的區(qū)間稳强,這些區(qū)間中包含真實(shí)值的比例就是區(qū)間估計(jì)的置信度场仲,置信度越高,區(qū)間就越寬退疫,估計(jì)的不確定性就越高渠缕。
- 置信度為95%的置信區(qū)間:如果從同樣的總體中生成許多個(gè)樣本,根據(jù)每個(gè)樣本的數(shù)據(jù)各找出一個(gè)這樣的區(qū)間褒繁,則在所有這些區(qū)間里亦鳞,有 95% 會(huì)包含真實(shí)值。
7. 結(jié)果展示
- 文字:用單樣本 t 檢驗(yàn)對(duì)比了...的區(qū)別棒坏,發(fā)現(xiàn)樣本的平均值=...燕差,標(biāo)準(zhǔn)差=...,95% 置信區(qū)間 [...坝冕,...] )與標(biāo)準(zhǔn)值...有顯著區(qū)別( t (自由度)=..., p < ... )谁不。
- 檢驗(yàn)類型
- 數(shù)據(jù)的特征:平均值、標(biāo)準(zhǔn)差徽诲、置信區(qū)間
- t 統(tǒng)計(jì)量及自由度(在單樣本情況下是等于樣本量減 1刹帕,在獨(dú)立樣本且兩個(gè)樣本方差相等的情況下等于總樣本量減 2)
- p 值
- 不同的雜志對(duì)統(tǒng)計(jì)結(jié)果的格式會(huì)有不同的要求,投稿前要記得檢查一下雜志的具體要求谎替,或者翻一下雜志近期發(fā)表的文章偷溺。
- 圖
- 散點(diǎn)圖、箱線圖钱贯、柱狀圖
- error bar有兩種挫掏,標(biāo)準(zhǔn)差( standard deviation, 縮寫為 sd 或者 std )和測(cè)量標(biāo)準(zhǔn)誤差(standard error of the mean,縮寫 se 或者 sem )秩命。后者是前者除以 √n尉共,這里 n 是樣本量,所以測(cè)量標(biāo)準(zhǔn)誤差比較小弃锐。
- 對(duì)于成對(duì)樣本 t 檢驗(yàn)(如 30 周的小鼠是不是比 20 周的更重)袄友,可以用連線的散點(diǎn)圖,更清晰地展示數(shù)據(jù)的變化
8. 注意
- 顯著性的差異 ≠ 差異的顯著性
- 數(shù)據(jù)點(diǎn)需獨(dú)立(只要某兩個(gè)數(shù)據(jù)點(diǎn)之間存在某種已知的霹菊、與它們和其他數(shù)據(jù)點(diǎn)之間不同的聯(lián)系剧蚣,它們就是不獨(dú)立的)