非參數(shù)檢驗(yàn):Wilcoxon檢驗(yàn)

引言

Wilcoxon檢驗(yàn)(也被稱為Mann-Withney-Wilcoxon檢驗(yàn))是一種非參數(shù)檢驗(yàn),意味著它不依賴于屬于任何特定參數(shù)的概率分布家族的數(shù)據(jù)浅萧。非參數(shù)檢驗(yàn)的目標(biāo)與參數(shù)檢驗(yàn)的目標(biāo)相同萨西。然而,它們比參數(shù)檢驗(yàn)有一個(gè)優(yōu)勢:它們不需要假設(shè)分布的正態(tài)性。例如佑笋,學(xué)生t檢驗(yàn)只有在數(shù)據(jù)是高斯的或樣本量足夠大(通常n≥30)時(shí)才適用。在其他情況下斑鼻,應(yīng)該使用非參數(shù)檢驗(yàn)蒋纬。

有人可能會(huì)問,為什么我們不總是使用非參數(shù)檢驗(yàn),這樣我們就不必為檢驗(yàn)正態(tài)性而煩惱蜀备。原因是关摇,當(dāng)正態(tài)性假設(shè)成立時(shí),非參數(shù)檢驗(yàn)通常不如相應(yīng)的參數(shù)檢驗(yàn)有力碾阁。因此输虱,在其他條件相同的情況下,如果數(shù)據(jù)遵循正態(tài)分布脂凶,使用非參數(shù)檢驗(yàn)宪睹,當(dāng)無效假設(shè)為假時(shí),你拒絕無效假設(shè)的可能性就會(huì)降低蚕钦。因此亭病,在滿足假設(shè)的情況下,最好使用統(tǒng)計(jì)檢驗(yàn)的參數(shù)化版本嘶居。

我們將介紹Wilcoxon檢驗(yàn)的兩種情況罪帖,以及如何通過兩個(gè)例子在R中執(zhí)行它們。

采用Wilcoxon檢驗(yàn)比較兩組是否存在顯著性差異邮屁。要比較的兩組是:

  • 獨(dú)立樣本
  • 非獨(dú)立樣本

獨(dú)立樣本

對(duì)于獨(dú)立樣本的Wilcoxon檢驗(yàn)整袁,假設(shè)我們想測試女性和男性學(xué)生在統(tǒng)計(jì)學(xué)考試中的成績是否不同。

我們收集了24名學(xué)生的成績(12名女生佑吝,12名男生):

#rep("Girl",12)為把字符“Girl”重復(fù)12次
dat <- data.frame(
  Sex = as.factor(c(rep("Girl", 12), rep("Boy", 12))),
  Grade = c(
    19, 18, 9, 17, 8, 7, 16, 19, 20, 9, 11, 18,
    16, 5, 15, 2, 14, 15, 4, 7, 15, 6, 7, 14
  )
)
dat
image.png

按照性別劃分的成績分布:

library(ggplot2)
ggplot(dat) +
  aes(x = Sex, y = Grade) +
  geom_boxplot(fill = "#0c4c8a") +
  theme_minimal()
按照性別的數(shù)據(jù)分布

女孩成績的頻率分布:

hist(subset(dat, Sex == "Girl")$Grade,
  main = "Grades for girls",
  xlab = "Grades"
)
女孩成績的頻率分布

男孩成績的頻率分布:

hist(subset(dat, Sex == "Boy")$Grade,
  main = "Grades for boys",
  xlab = "Grades"
)
男孩成績的頻率分布

從上面兩張圖可以看出葬项,兩個(gè)都不服從正態(tài)分布這個(gè)限制條件。

直方圖顯示兩種分布似乎都不符合正態(tài)分布迹蛤,Shapiro-Wilk檢驗(yàn)的p值證實(shí)了這一點(diǎn)(如果P值顯著民珍,那么拒絕正態(tài)分布假設(shè),數(shù)據(jù)不符合正態(tài)分布)盗飒。

shapiro.test(subset(dat, Sex == "Girl")$Grade)
shapiro.test(subset(dat, Sex == "Boy")$Grade)
image.png

下面就可以踐行wilcox檢驗(yàn)了:
H0: 兩組是相似的
H1: 兩組是不同的

test <- wilcox.test(dat$Grade ~ dat$Sex)
test

test <- wilcox.test(dat$Grade ~ dat$Sex,
  alternative = "less"
)
test
wilcox檢驗(yàn)結(jié)果

P值為0.021嚷量,因此,在5%顯著性水平下逆趣,我們拒絕原假設(shè)蝶溶,并得出結(jié)論:女生和男生的成績存在顯著差異⌒考慮到上面展示的按性別劃分的分?jǐn)?shù)箱形圖抖所,你可能會(huì)發(fā)現(xiàn)女孩似乎比男孩表現(xiàn)得更好『鄞眩可以通過添加alternative = "less"田轧。P值是0.01。因此鞍恢,在5%顯著性水平下傻粘,我們拒絕原假設(shè)每窖,并得出男孩表現(xiàn)明顯低于女孩的結(jié)論(這相當(dāng)于得出女孩表現(xiàn)明顯優(yōu)于男孩的結(jié)論)。

非獨(dú)立樣本

對(duì)于第二種情況弦悉,考慮我們?cè)趯W(xué)期初對(duì)一個(gè)有12名學(xué)生的班級(jí)進(jìn)行了一次數(shù)學(xué)測試窒典,并在學(xué)期末對(duì)完全相同的學(xué)生進(jìn)行了一次類似測試。我們有以下數(shù)據(jù):

dat <- data.frame(
  Beginning = c(16, 5, 15, 2, 14, 15, 4, 7, 15, 6, 7, 14),
  End = c(19, 18, 9, 17, 8, 7, 16, 19, 20, 9, 11, 18)
)
#將數(shù)據(jù)轉(zhuǎn)換為對(duì)其的格式
dat2 <- data.frame(
  Time = c(rep("Before", 12), rep("After", 12)),
  Grade = c(dat$Beginning, dat$End)
)
dat2
數(shù)據(jù)樣式

學(xué)期初和學(xué)期后的成績分布:

# Reordering dat2$Time
dat2$Time <- factor(dat2$Time,
  levels = c("Before", "After")
)
ggplot(dat2) +
  aes(x = Time, y = Grade) +
  geom_boxplot(fill = "#0c4c8a") +
  theme_minimal()
學(xué)期前后的成績分布

在這個(gè)例子中稽莉,很明顯兩個(gè)樣本不是獨(dú)立的瀑志,因?yàn)橥瑯拥?2名學(xué)生在學(xué)期前后參加了考試。同時(shí)假設(shè)正態(tài)性假設(shè)被違背污秆,我們因此使用配對(duì)樣本的Wilcoxon檢驗(yàn)劈猪。
這個(gè)測試的R代碼與獨(dú)立樣本相似,我們?cè)趙ilcox.test()函數(shù)中添加了paired = TRUE參數(shù)混狠,以考慮兩個(gè)樣本之間的依賴關(guān)系:

test <- wilcox.test(dat2$Grade ~ dat2$Time,
  paired = TRUE)
test
檢驗(yàn)結(jié)果

P值為0.169岸霹。因此疾层,在5%顯著性水平下将饺,我們不拒絕學(xué)期前后成績相似的原假設(shè)。

我希望這篇文章能夠幫助您使用Wilcoxon檢驗(yàn)來比較兩個(gè)不遵循R正態(tài)分布的組痛黎。如果您需要執(zhí)行參數(shù)版本的Wilcoxon檢驗(yàn)予弧,請(qǐng)參閱Student的t檢驗(yàn)。

正態(tài)性假設(shè)可以通過3種互補(bǔ)的方法進(jìn)行檢驗(yàn):(i)直方圖湖饱,(ii) QQ-plot和(iii)正態(tài)性檢驗(yàn)(最常見的是Shapiro-Wilk test)掖蛤。

注意,為了使用t檢驗(yàn)(Wilcoxon檢驗(yàn)的參數(shù)化版本)井厌,需要兩個(gè)樣本服從正態(tài)分布蚓庭。因此,即使一個(gè)樣本服從正態(tài)分布(而另一個(gè)不服從正態(tài)分布)仅仆,也建議使用非參數(shù)檢驗(yàn)

注意器赞,相等元素(tie)的存在阻止了精確的p值計(jì)算

我們添加alternative = "less"(alternative = "greater"),因?yàn)槲覀兿霚y試男孩的分?jǐn)?shù)比女孩的分?jǐn)?shù)低墓拜。使用“少”或“多”可以從數(shù)據(jù)集的參考水平中扣除

學(xué)習(xí)網(wǎng)址:Wilcoxon test in R: how to compare 2 groups under the non-normality assumption | R-bloggers
本文內(nèi)容從上述網(wǎng)址翻譯和學(xué)習(xí)而形成

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末港柜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子咳榜,更是在濱河造成了極大的恐慌夏醉,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涌韩,死亡現(xiàn)場離奇詭異畔柔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)臣樱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門释树,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肠槽,“玉大人,你說我怎么就攤上這事奢啥〗障桑” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵桩盲,是天一觀的道長寂纪。 經(jīng)常有香客問我,道長赌结,這世上最難降的妖魔是什么捞蛋? 我笑而不...
    開封第一講書人閱讀 58,750評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮柬姚,結(jié)果婚禮上拟杉,老公的妹妹穿的比我還像新娘。我一直安慰自己量承,他們只是感情好搬设,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著撕捍,像睡著了一般拿穴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上忧风,一...
    開封第一講書人閱讀 51,604評(píng)論 1 305
  • 那天默色,我揣著相機(jī)與錄音,去河邊找鬼狮腿。 笑死腿宰,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的缘厢。 我是一名探鬼主播吃度,決...
    沈念sama閱讀 40,347評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼昧绣!你這毒婦竟也來了规肴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤夜畴,失蹤者是張志新(化名)和其女友劉穎拖刃,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贪绘,經(jīng)...
    沈念sama閱讀 45,702評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡兑牡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了税灌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片均函。...
    茶點(diǎn)故事閱讀 40,015評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡亿虽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出苞也,到底是詐尸還是另有隱情洛勉,我是刑警寧澤,帶...
    沈念sama閱讀 35,734評(píng)論 5 346
  • 正文 年R本政府宣布如迟,位于F島的核電站收毫,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏殷勘。R本人自食惡果不足惜此再,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望玲销。 院中可真熱鬧输拇,春花似錦、人聲如沸贤斜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蠢古。三九已至奴曙,卻和暖如春别凹,著一層夾襖步出監(jiān)牢的瞬間草讶,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評(píng)論 1 270
  • 我被黑心中介騙來泰國打工炉菲, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留堕战,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,216評(píng)論 3 371
  • 正文 我出身青樓拍霜,卻偏偏與公主長得像嘱丢,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子祠饺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容