醫(yī)咖會學習筆記—Day 3—配對樣本t檢驗

一夺谁、問題與數(shù)據(jù)

研究者想驗證一種新型運動飲料配方是否有助于提高人們的跑步距離更米。傳統(tǒng)飲料配方為純碳水化合物舍败，而新型飲料為碳水化合物-蛋白質混合物谤祖。

為了比較兩種運動飲料對人們跑步距離的影響差異，研究者招募了20名受試者甜孤，每人進行2項實驗协饲，每項實驗受試者均在跑步機上運動2小時。2項試驗中缴川，同意受試者跑步前分別喝含純碳水化合物和碳水化合物-蛋白質混合飲料茉稠。同時，均衡所有受試者進行2項試驗的先后順序把夸，使一半人先喝純碳水化合物而线，另一半人先喝碳水化合物-蛋白質混合飲料，分別記錄其跑步距離恋日。

碳水化合物飲料組的跑步距離記為carb變量膀篮，碳水化合物-蛋白質飲料組的跑步距離記為carb_protein變量。研究者想知道岂膳，是否2組的跑步距離有差異誓竿，即2種運動飲料對人們跑步距離的影響不同。從變量層面上谈截，也就是看是否carb變量和carb_protein變量的均數(shù)存在差異（部分數(shù)據(jù)如下圖）筷屡。

二、對問題分析

研究者想探索是否2個相關（配對）組別間的因變量均數(shù)存在差異簸喂，可以使用配對樣本t檢驗毙死。使用配對樣本t檢驗時，需要考慮4個假設：

假設1：因變量為連續(xù)變量喻鳄；
假設2：自變量包含2個分類扼倘、且相關（配對）非獨立的組別；
假設3：2個相關（配對）組別間的因變量差值沒有明顯異常值除呵；
假設4：2個相關（配對）組別間的因變量差值近似服從正態(tài)分布再菊。

那么進行配對樣本t檢驗時隅肥，如何考慮和處理這4個假設呢？

分析流程圖

三袄简、假設判斷

假設1：因變量為連續(xù)變量；假設2：自變量包含2個分類泛啸、且相關（配對）非獨立的組別和研究設計有關绿语，需要根據(jù)實際情況進行判斷。

假設3：2個相關（配對）組別間的因變量差值沒有明顯異常值候址，對于配對樣本t檢驗吕粹，異常值和正態(tài)性的假設檢驗都是基于2組間配對數(shù)值的差值進行的，因此岗仑，我們首先需要計算2組因變量的差值匹耕，并把它作為一個新變量儲存，變量名為difference荠雕，具體操作如下：

1.在主菜單欄中點擊Transform > Compute Variable...：

出現(xiàn)Compute Variable對話框：

2.在Target Variable:模塊中輸入difference稳其，即為新創(chuàng)建的變量名；在Numeric Expression:模塊中輸入carb_protein – carb炸卑，即為2個配對組別間的因變量差值（也可以直接從左側中部變量框中挑選變量進入Numeric Expression:模塊既鞠，并選擇中間的運算符號和數(shù)字進行運算）：

本例為用carb_protein變量值減去carb變量值，此順序與研究設計和研究目的有關盖文，通常用實驗組的數(shù)值減去對照組的數(shù)值嘱蛋。本例關心的是新型運動飲料相比于傳統(tǒng)運動飲料，是否可以提高跑步距離五续，因此傳統(tǒng)碳水化合物飲料組應該作為對照組洒敏。如果2組差值為正數(shù)，則可以反映新型飲料有助于提高人們的跑步距離疙驾。

3.點擊OK凶伙，返回Data View窗口，即可見到新變量difference：

如果差值中的某些取值和其他值相比特別大或者特別小它碎，則稱之為異常值镊靴。異常值會影響差值組的均數(shù)和標準差，因此可能會對最終的統(tǒng)計結果產(chǎn)生很大的負面影響链韭。對于小樣本研究偏竟，異常值的影響尤其顯著，必須檢查差值組中是否存在明顯異常值

以下操作將說明如何在SPSS軟件中利用Explore...程序檢查異常值敞峭，以及檢驗數(shù)據(jù)是否服從正態(tài)分布

1.在主菜單欄中點擊Analyze > Descriptive Statistics > Explore

出現(xiàn)Explore對話框：

2.把變量difference送入Dependent List模塊中：

3.點擊Plots...踊谋，出現(xiàn)Explore: Plots對話框：

4.在Boxplots模塊內保留系統(tǒng)默認選項Factor levels together，在Descriptive模塊內取消選擇Stem-and-leaf旋讹，在下方勾選Normality plots with tests：

5.點擊Continue殖蚕，返回Explore對話框轿衔；

6.在Display模塊內點擊Plots：

如果使用偏度和峰度（skewness and kurtosis）進行正態(tài)性判斷，則保留Display模塊內的默認選項Both或者選擇Statistics睦疫。

7.點擊OK害驹，輸出結果。

根據(jù)如下輸出的箱線圖蛤育，判斷數(shù)據(jù)中是否存在異常值：

SPSS中將距離箱子邊緣超過1.5倍箱身長度的數(shù)據(jù)點定義為異常值宛官，以圓點（°）表示；距離箱子邊緣超過3倍箱身長度的數(shù)據(jù)點定義為極端值（極端異常值）瓦糕，以星號（*）表示底洗。為容易識別，異常值均用其在Data View窗口的行數(shù)標出咕娄。

本例中亥揖，第1行（差值特別小）和第14行（差值特別大）的差值均為異常值圣勒，但是由于它們并非極端異常值费变，不會對2組均數(shù)差異產(chǎn)生過大影響，因此我們在接下來的分析中仍將其保留圣贸。

導致數(shù)據(jù)中存在異常值的原因通常有3種：

1.數(shù)據(jù)錄入錯誤：首先應該考慮異常值是否由于數(shù)據(jù)錄入錯誤所致胡控。如果是，用正確值進行替換旁趟，并重新計算差值昼激、重新進行所有檢驗；
2.測量誤差：如果不是由于數(shù)據(jù)錄入錯誤锡搜，接下來考慮是否因為測量誤差導致（如儀器故障或超過量程）橙困。通常情況下，大多數(shù)的測量誤差是不可校正的耕餐；
3.真實的異常值：如果以上兩種原因都不是凡傅，那最有可能源于真實的異常數(shù)據(jù)。這類異常值不好處理肠缔，但也沒有理由將其當作無效值對待夏跷。目前它的處理方法比較有爭議，尚沒有一種特別推薦的方法明未。接下來槽华，我們列舉幾種異常值的處理方法，供讀者參考趟妥。

異常值的處理方法通常有2種：

1. 保留異常值：
  （1）采用非參數(shù)Wilcoxon符號秩檢驗或符號檢驗猫态；
  （2）用非最極端的值（如第二大的值）來代替極端異常值；
  （3）轉換變量形式；
  （4）將異常值納入分析亲雪，并認為其對結果不會產(chǎn)生實質影響（比較有勇凭、無異常值的配對樣本t檢驗結果）。
1. 剔除異常值：
  我們也可以直接剔除異常值進行分析义辕，但是需要提供所剔除異常點的信息虾标，以便讀者了解剔除的原因及其會對結果產(chǎn)生怎樣的影響。

正態(tài)性檢驗有很多方法灌砖，這里介紹最常用的2種方法：Shapiro-Wilk正態(tài)性檢驗和正態(tài)Q-Q圖（其他還有偏度璧函、峰度和直方圖等）。

在假設3的判斷中周崭，我們在Explore: Plots對話框中勾選了Normality plots with tests，輸出結果中會給出正態(tài)性檢驗的結果喳张。

1.如果樣本量較行颉（<50），或者研究者對正態(tài)Q-Q圖以及其他圖形方法的結果詮釋不夠有把握销部，推薦采用Shapiro-Wilk正態(tài)性檢驗摸航。本例的Shapiro-Wilk檢驗結果如下：

如果數(shù)據(jù)服從正態(tài)分布，顯著性水平(Sig.舅桩，即P值)應該≥0.05酱虎；反之，P會<0.05擂涛。Shapiro-Wilk檢驗的無效假設是數(shù)據(jù)服從正態(tài)分布读串，備擇假設是數(shù)據(jù)不服從正態(tài)分布。因此撒妈，如果拒絕無效假設(P<0.05)恢暖，表示數(shù)據(jù)不服從正態(tài)分布；如果不能拒絕無效假設狰右，則不能認為數(shù)據(jù)不服從正態(tài)分布杰捂。本例中P=0.780，因此不能認為2組差值不服從正態(tài)分布棋蚌。

如果樣本量大于50嫁佳，推薦使用正態(tài)Q-Q圖等圖形方法進行正態(tài)判斷。因為當樣本量較大時谷暮，Shapiro-Wilk檢驗會把稍稍偏離正態(tài)分布的數(shù)據(jù)也判斷為有統(tǒng)計學差異蒿往，即認為數(shù)據(jù)不服從正態(tài)分布。

1. 正態(tài)Q-Q圖

對正態(tài)Q-Q圖的直接觀察可以更好地了解數(shù)據(jù)是否服從正態(tài)分布湿弦，但是不推薦對小樣本數(shù)據(jù)采用Q-Q圖進行正態(tài)性判斷熄浓。本例差值的正態(tài)Q-Q圖如下：

如果正態(tài)Q-Q圖中的數(shù)值大致靠近圖中的斜線分布，則可以認為服從正態(tài)分布；如果數(shù)值點并不是很好地沿著斜線分布赌蔑，或者呈現(xiàn)不同的分布模式俯在，則數(shù)據(jù)不服從正態(tài)分布。本例中差值的數(shù)據(jù)點大致沿著Q-Q圖的斜線分布娃惯，可以認為2組的差值服從正態(tài)分布跷乐。

如果數(shù)據(jù)不服從正態(tài)分布，有如下4種方法進行處理：

1.數(shù)據(jù)轉換：對轉換后呈正態(tài)分布的數(shù)據(jù)進行配對樣本t檢驗趾浅，而且要對轉換后的數(shù)據(jù)重新進行各種檢驗愕提。對于一些常見的分布，有特定的轉換形式皿哨，但是對于轉換后數(shù)據(jù)的結果解釋可能比較復雜浅侨；
2.使用非參數(shù)檢驗：可以使用Wilcoxon符號秩檢驗或符號檢驗等非參數(shù)檢驗方法；
3.直接進行分析：配對樣本t檢驗對于稍偏離正態(tài)分布的數(shù)據(jù)比較穩(wěn)健证膨，而且非正態(tài)分布實質上并不影響犯I型錯誤的概率如输。因此可以直接進行檢驗，但是結果中仍需報告對正態(tài)分布的偏離程度央勒。
4.檢驗結果的比較：將轉換后和未轉換的原始數(shù)據(jù)分別進行配對樣本t檢驗不见，并比較兩者的結果；如果結論相同崔步，則選擇未轉換的原始數(shù)據(jù)進行分析稳吮。

四、SPSS操作

1.在主菜單欄中點擊Analyze > Compare Means > Paired-Samples T Test...

出現(xiàn)Paired-Samples T Test對話框：

2.把變量carb和carb_protein送入Paired Variables:模塊中（可以先后送入井濒，也可以先選擇一個變量后灶似，按住shift鍵，再選擇另一個變量同時送入）：

SPSS軟件中配對樣本t檢驗的差值是用Variable1減去Variable2瑞你，此步驟即用carb變量值減去carb_protein變量值喻奥。但是，我們之前提過捏悬，這里最好用carb_protein減去carb撞蚕。

3.點擊Paired Variables:模塊中的黃色區(qū)域，激活右下部“雙向箭頭”按鈕并點擊过牙，將會把carb變量和carb_protein變量的位置互換：

4.點擊Option…甥厦，出現(xiàn)Paired-Samples T Test: Options對話框：

保留系統(tǒng)默認的置信區(qū)間（95%）和缺失值選項（Exclude cases analysis by analysis）。

當我們只需要進行1次配對樣本t檢驗時（如本例）寇钉，在Missing Values模塊中選擇Exclude cases analysis by analysis或者Exclude cases listwise時刀疙，結果是一致的。

當我們的數(shù)據(jù)中要進行多次配對樣本t檢驗時扫倡，Exclude cases analysis by analysis選項會分別剔除每次配對樣本t檢驗的缺失值谦秧。比如下面的數(shù)據(jù)竟纳，SPSS軟件將對19對的carb和carb_protein變量值進行配對樣本t檢驗，排除第4行缺失的數(shù)據(jù)（橘色）疚鲤；而對glucose_c和glucose_cp變量的18對配對值進行配對樣本t檢驗锥累，排除第8行和第10行缺失的數(shù)據(jù)（紅色）。

Exclude cases analysis by analysis選項1次檢驗中的缺失值并不影響其他檢驗集歇，這樣會使每次分析配對數(shù)量最大化桶略，但是也會導致每次配對樣本t檢驗的樣本量有差異。而Exclude cases listwise選項會使用所有分析诲宇、檢驗中無缺失值的樣本际歼，這樣雖然會導致樣本量的大幅下降，但也會保證所有分析的樣本量一致姑蓝。

比如上面的數(shù)據(jù)鹅心，在進行2次配對樣本t檢驗時，SPSS軟件就會剔除掉所有的缺失數(shù)據(jù)（第4纺荧、8旭愧、10行，紅色）虐秋，最后僅對17個樣本進行所有的檢驗：

5.點擊Continue榕茧，返回Paired-Samples T Test對話框垃沦；

6.點擊OK客给，輸出結果。

五肢簿、結果解釋

基本描述

Paired Samples Statistics表格給出了數(shù)據(jù)的部分描述性統(tǒng)計結果：

各列變量名和含義對應如下：

本例中靶剑，受試者飲用碳水化合物-蛋白質混合飲料的平均跑步距離為11.3023 km，多于飲用純碳水化合物飲料的平均跑步距離11.1668 km池充，而后者的變異程度（標準差）（0.72608 km）要高于前者（0.71368 km）桩引。我們在最終匯報描述性結果時應該報告平均數(shù)和標準差，而不是均數(shù)的標準誤收夸，同時要注意小數(shù)點位數(shù)的統(tǒng)一坑匠，比如都保留3位小數(shù)。

配對樣本t檢驗——差值結果

Paired Samples Test表格給出了2組均數(shù)的差值（carb_protein變量減去carb變量）卧惜，以及差值的變異程度指標：

本例中厘灼，2組配對試驗的均數(shù)差值為0.13550 km，標準差為0.09539 km咽瓷，標準誤為0.02133 km设凹，差值的95%置信區(qū)間（95% CI）為0.09085-0.18015。由于我們之前調整過carb和carb_protein變量的順序茅姜，此時差值為正數(shù)表示carb_protein組的平均跑步距離大于carb組闪朱。

3.配對樣本t檢驗——檢驗結果

配對樣本t檢驗的檢驗結果見Paired Samples Test表格的最右側3列：

從左到右分別為配對樣本t檢驗的t值（t）、自由度（df）和p值（Sig. (2-tailed)）。如果P<0.05奋姿，表示2個相關（配對）組別的均數(shù)差異具有統(tǒng)計學意義锄开；反之，表示2個相關（配對）組別的均數(shù)差異無統(tǒng)計學意義胀蛮。

本例中院刁，P=.000，表示P<0.001粪狼，carb組和carb_protein組的均數(shù)差異具有統(tǒng)計學意義退腥。還有另一種說法是總體人群中carb組和carb_protein組的跑步距離的差異不等于0。

均數(shù)差值的95%CI和p值之間有一定的對應關系再榄。如果95%CI內不包含0狡刘，則<em>P</em><0.05；如果95%CI內包含0困鸥，則P≥0.05嗅蔬。本例中，差值的95%CI為0.09085-0.18015疾就，不包含0澜术，因此2組差異具有統(tǒng)計學意義(P<0.05)。

4.配對樣本t檢驗——計算效應值

現(xiàn)在一些雜志要求匯報統(tǒng)計學顯著性水平的同時猬腰，還要求匯報效應值的大小鸟废。對于配對樣本t檢驗，效應值(用d或Cohen’ d表示)等于均數(shù)差值(M)除以差值的標準差(SD)：

M和SD在Paired Samples Test</strong>表格中已經(jīng)給出姑荷，M=Mean盒延，SD=Std. Deviation。本例的效應值大小d為：

效應值是衡量研究結果實際意義的指標鼠冕，Cohen’ d大小的強度分級標準如下：

本例中效應值d=1.42添寺，強度大。但是懈费，效應值的缺點是其實際意義局限于特定研究對象计露，而且目前還沒有完整規(guī)范的指南來闡述效應值強度的意義。關于效應值的計算方法有很多種憎乙，應結合我們的研究設計和研究類型進行適當選擇

六票罐、撰寫結論

總的來說，我們可以按照如下方式完整地報告結果：

數(shù)據(jù)以均數(shù)±標準差的形式表示寨闹。在跑步距離上胶坠，受試者飲用碳水化合物-蛋白質混合飲料(11.302 ± 0.714 km)比飲用純碳水化合物飲料(11.167 ± 0.726 km)的跑步距離增加了0.136 km(95% CI：0.091-0.180 km)，差異具有統(tǒng)計學意義繁堡，t(19)=6.352沈善，P<0.001乡数，d=1.42。

如果再增加假設檢驗的內容闻牡，可以這樣報告結果：

利用配對樣本t檢驗來判斷净赴，受試者飲用碳水化合物-蛋白質混合飲料相比于飲用純碳水化合物飲料的跑步距離差異是否有統(tǒng)計學意義。數(shù)據(jù)以均數(shù)±標準差的形式表示罩润。

利用箱線圖玖翅，發(fā)現(xiàn)了2個距離箱子邊緣超過1.5倍箱身長度的異常值，但是由于這2個異常點的數(shù)值并非極端異常值割以，所以仍在后續(xù)分析中保留它們金度。經(jīng)Shapiro-Wilk檢驗谐丢，2組差值的數(shù)據(jù)服從正態(tài)分布(P=0.780)侯勉。

在跑步距離上，受試者飲用碳水化合物-蛋白質混合飲料(11.302 ± 0.714 km)比飲用純碳水化合物飲料(11.167 ± 0.726 km)的跑步距離增加了0.136 km(95% CI：0.091-0.180 km)色查，差異具有統(tǒng)計學意義消玄，t(19) = 6.352跟伏，P<0.001，d=1.42翩瓜。

從無效假設和備擇假設的角度出發(fā)受扳，也可以這樣報告結果：

飲用碳水化合物-蛋白質混合飲料和飲用純碳水化合物飲料2組跑步距離的均數(shù)差值與0相比，差異具有統(tǒng)計學意義兔跌。因此勘高，我們可以拒絕無效假設，接受備擇假設浮定，認為飲用碳水化合物-蛋白質混合飲料相比于飲用純碳水化合物飲料有助于提高人們的跑步距離相满。

最后层亿，我們可以用帶有95% CI(error bar)的簡單條形圖來更加直觀地呈現(xiàn)配對樣本t檢驗的結果桦卒，感興趣的讀者可以自行繪制。

七.原始數(shù)據(jù)下載

作者：解琪琪
鏈接：http://www.reibang.com/u/bcb81276c29d
來源：簡書
參考學習資源：怎么判別我的數(shù)據(jù)中存在特異值匿又？教你幾招方灾！
SPSS教程：判斷數(shù)據(jù)正態(tài)分布的超多方法！
簡書著作權歸作者所有碌更，任何形式的轉載都請聯(lián)系作者獲得授權并注明出處裕偿。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市痛单，隨后出現(xiàn)的幾起案子嘿棘，更是在濱河造成了極大的恐慌，老刑警劉巖旭绒，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件鸟妙，死亡現(xiàn)場離奇詭異焦人，居然都是意外死亡，警方通過查閱死者的電腦和手機重父，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門花椭，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人房午，你說我怎么就攤上這事矿辽。” “怎么了郭厌？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵袋倔，是天一觀的道長。經(jīng)常有香客問我折柠，道長奕污，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任液走，我火速辦了婚禮碳默，結果婚禮上，老公的妹妹穿的比我還像新娘缘眶。我一直安慰自己嘱根，他們只是感情好，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布巷懈。她就那樣靜靜地躺著该抒，像睡著了一般。火紅的嫁衣襯著肌膚如雪顶燕。梳的紋絲不亂的頭發(fā)上凑保，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機與錄音涌攻，去河邊找鬼欧引。笑死，一個胖子當著我的面吹牛恳谎，可吹牛的內容都是我干的芝此。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼因痛，長吁一口氣：“原來是場噩夢啊……” “哼婚苹！你這毒婦竟也來了？” 一聲冷哼從身側響起鸵膏，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤膊升，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后谭企，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體廓译，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡结胀，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了责循。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片糟港。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖院仿，靈堂內的尸體忽然破棺而出秸抚，到底是詐尸還是另有隱情，我是刑警寧澤歹垫，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布剥汤，位于F島的核電站，受9級特大地震影響排惨，放射性物質發(fā)生泄漏吭敢。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一暮芭、第九天我趴在偏房一處隱蔽的房頂上張望鹿驼。院中可真熱鬧，春花似錦辕宏、人聲如沸畜晰。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案瑞筐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽凄鼻。三九已至，卻和暖如春聚假，著一層夾襖步出監(jiān)牢的瞬間块蚌，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工膘格，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留峭范，地道東北人。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓闯袒，卻偏偏與公主長得像虎敦，于是被迫代替她去往敵國和親游岳。傳聞我的和親對象是個殘疾皇子政敢，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345