上一篇我簡單整理了t-test的用法和注意事項 (我們主要講兩個獨立隨機樣本的t-test)疙赠。我們再回顧一下预厌,t-test是參數(shù)統(tǒng)計檢驗方法,其應(yīng)用的假設(shè)前提是檢測變量的值服從同方差的正太分布僧凰。然而筷畦,在生物信息學(xué)分析中經(jīng)常碰到不滿足此假設(shè)的情況,例如比較兩個基因在兩組單細(xì)胞中的表達(dá)水平黍判。此時常用的非參數(shù)檢驗方法是Wilcoxon rank sum test或者叫Mann Whitney U test.</p>
兩個獨立樣本的t-test是檢驗兩個樣本的均值是否相等豫尽。而相對的,兩個獨立樣本的wilcoxon test 則是檢驗兩個樣本的中位數(shù)顷帖,或者說兩個樣本的分布是否有偏移美旧。因此,wilcoxon test在計算統(tǒng)計量時是先將兩個樣本混到一起贬墩,然后對混合后的list進(jìn)行從小到大排序榴嗅,根據(jù)排序把兩個樣本的值分別轉(zhuǎn)換成排序序數(shù),最后比較兩個樣本的序數(shù)的大小陶舞。如果序數(shù)大的富集在其中一個樣本嗽测,表明該樣本相對另一個樣本的值要更大,相反亦然吊说。
這里我就不具體講怎么計算統(tǒng)計量的了论咏,讀者可參考下面鏈接【1】,里面有詳細(xì)介紹如何計算統(tǒng)計量的步驟颁井;鏈接【2】則有介紹wilcoxon test的p值是如何計算的厅贪。
【1】(http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_Nonparametric/BS704_Nonparametric4.html)
【2】(https://data.library.virginia.edu/the-wilcoxon-rank-sum-test/)
R語言里怎么做wilcoxon test:
wilcox.test(vector_A,vector_B, alternative = "two.sided") # alternative also could be "greater" or "less"
# 或者輸入數(shù)據(jù)框
wilcox.test(gene_expression ~ tissue_group, alternative = "two.sided")
# tissue_group 是名義變量,有兩個水平雅宾,例如組織A和B养涮,即比較A組織和B組織的基因表達(dá)水平
wilcox.test的輸出結(jié)果
Wilcoxon rank sum test
data: A and B
W = 13, p-value = 0.04988
alternative hypothesis: true location shift is not equal to 0
總結(jié)
wilcoxon test在分析中非常常用,我們經(jīng)常能在讀文章時發(fā)現(xiàn)到眉抬。通常當(dāng)我們要比較兩個樣本時贯吓,首先考慮是否滿足參數(shù)檢驗方法t-test的假設(shè)條件(即正太分布或者樣本總量很大(>30),方差相同)蜀变;若不滿足悄谐,則可使用wilcoxon test代替。