寫在前面
入門生物信息或者進行生物相關研究,所有人都繞不開統(tǒng)計的基礎知識和計算實現(xiàn)方式乘碑。在擔任中科院生物統(tǒng)計學課程助教的過程中挖息,我發(fā)現(xiàn)大部分同學的首要困惑在于理不清相關概念,其次才是不知道該如何用R語言來進行最基本的計算兽肤。本合集共分為8小節(jié)套腹,將簡要介紹生物統(tǒng)計學相關基礎知識以及如何使用R語言進行最基本的計算和分析。
需要說明的是资铡,文中個別描述嚴格來講并不準確但希望有助于理解电禀,涉及到R語言的部分則展示了若干函數(shù)最基本用法,希望不給閱讀和學習增加負擔笤休。另外尖飞,這份資料主要面向生物統(tǒng)計學和R語言基礎薄弱的人群,勉強可以稱之為極簡手冊 ,詳細的學習還需要閱讀相關教材資料政基。
在之前幾節(jié)內(nèi)容中提到了均值分析和比較贞铣,但有時候我們關心的并不是均值而是比例(proportion)。
單比例檢驗
對于n比較大(通常為 同時
)的樣本來說沮明,根據(jù)中心極限定理辕坝,樣本近似于正態(tài)分布,可以使用z檢驗荐健,其檢驗統(tǒng)計量計算公式為:
其中酱畅,表示觀測到的比例,
為預期比例江场,n表示樣本量圣贸,
。
如果樣本比較小扛稽,則使用二項分布進行統(tǒng)計吁峻。
在R中,對于小樣本在张,采用binom.test()
用含,對于大樣本使用正態(tài)分布近似二項分布,利用prop.test()
進行分析帮匾。
在單樣本比例檢驗中啄骇,我們關心的是具有同種特性的兩個群體,在該特性總體中所占有的比例情況瘟斜。例如缸夹,小鼠中公鼠母鼠各有一半,有100只患有某種疾病螺句,其中有公鼠60只虽惭,母鼠40只。想知道是否公鼠患病率比母鼠高蛇尚。在該問題中成功次數(shù)為公鼠患病數(shù)55芽唇,總次數(shù)為100,預期比例為50%(公母鼠數(shù)量相等)取劫。
prop.test(60, 100, p = 0.5, alternative = "greater")
# 1-sample proportions test with continuity
# correction
#
# data: 60 out of 100, null probability 0.5
# X-squared = 3.61, df = 1, p-value = 0.02872
# alternative hypothesis: true p is greater than 0.5
# 95 percent confidence interval:
# 0.5127842 1.0000000
# sample estimates:
# p
# 0.6
其中匆笤,x為成功的次數(shù),n為總測試谱邪,p為要測試的概率大小炮捧。在結果中,顯示了卡方檢驗的統(tǒng)計量值惦银,自由度和p值和置信區(qū)間咆课,最后給出了樣本概率估計值灌砖。
雙比例檢驗
如果我們已知兩組具有不同特性(A和B)樣本的樣本量和這兩組樣本中具有某種共同特性(C)的個體數(shù)量(也就是知道了C特性各自群體比例和總體比例),想要計算具有C特性的個體在A特性群體和B特性群體中的比例是否一樣傀蚌,就需要用到雙比例檢驗基显。
當樣本數(shù)量較小時(所有np和nq都小于5),通常采用非參數(shù)檢驗Fisher Exact probability test 進行分析善炫。當樣本力量較大時撩幽,我們還是近似使用正態(tài)分布z檢驗來進行預測。
例如箩艺,男生500人窜醉,女生500人,其中喜歡閱讀的男生有400人艺谆,喜歡閱讀的女生有460人榨惰。男生喜歡閱讀的比例是否比女生高。我們假設男生喜歡閱讀的比例比女生高静汤,則備擇假設是男生喜歡閱讀的比例比女生低琅催。
prop.test(x = c(400, 460), n = c(500, 500), alternative = "less")
# 2-sample test for equality of proportions with
# continuity correction
#
# data: c(400, 460) out of c(500, 500)
# X-squared = 28.912, df = 1, p-value = 3.787e-08
# alternative hypothesis: less
# 95 percent confidence interval:
# -1.0000000 -0.0824468
# sample estimates:
# prop 1 prop 2
# 0.80 0.92
由結果可知,p<0.05虫给,拒絕原假設藤抡,即男生喜歡閱讀的比例比女生低。
卡方分布
分布可以通過原假設抹估,得到一個統(tǒng)計量來表示期望結果和實際結果之間的偏離程度缠黍,進而根據(jù)分布,自由度和假設成立的情況药蜻,得出觀察頻率極值的發(fā)生概率(比當前統(tǒng)計結果更加極端的概率)瓷式。計算方法是對概率分布中的每一個頻率,用期望頻數(shù)和實際頻數(shù)差的平方除以期望頻數(shù)语泽,最后把所有結果相加贸典。得到的統(tǒng)計量結果越大,說明差別越顯著湿弦,數(shù)值越小說明觀察和期望的差別越小瓤漏,當觀察頻數(shù)和期望頻數(shù)一致是卡方為0腾夯。其實就是在比較觀測到的比例和期望的比例的關系颊埃。
卡方分布就可以用來檢驗某個分類變量各類的出現(xiàn)概率是否等于指定概率,可以檢驗數(shù)據(jù)的擬合優(yōu)度(指定的一組數(shù)據(jù)與指定分布的吻合度)蝶俱,也可以用來檢驗兩個變量的獨立性(兩個變量之間是否存在某種關聯(lián))班利。
在使用卡方檢驗時,需要的一個參數(shù)被稱為自由度榨呆,指的是獨立變量的個數(shù)(組數(shù)減去限制數(shù))罗标。通常,二項分布已知p,泊松分布已知闯割,正態(tài)分布已知
和
時的自由度是n-1彻消。進行獨立性檢驗時,h行kl列聯(lián)列表的自由度是
宙拉。
系列文章目錄
- 統(tǒng)計學基礎與R-描述性統(tǒng)計量
- 統(tǒng)計學基礎與R-概率相關內(nèi)容
- 統(tǒng)計學基礎與R-估計
- 統(tǒng)計學基礎與R-相關性分析
- 統(tǒng)計學基礎與R-單雙樣本均值分析
- 統(tǒng)計學基礎與R-多樣本均值分析
- 統(tǒng)計學基礎與R-比例分析
- 統(tǒng)計學基礎與R-常用高階分析方法