統(tǒng)計學基礎與R-比例分析

寫在前面

入門生物信息或者進行生物相關研究,所有人都繞不開統(tǒng)計的基礎知識和計算實現(xiàn)方式乘碑。在擔任中科院生物統(tǒng)計學課程助教的過程中挖息,我發(fā)現(xiàn)大部分同學的首要困惑在于理不清相關概念,其次才是不知道該如何用R語言來進行最基本的計算兽肤。本合集共分為8小節(jié)套腹,將簡要介紹生物統(tǒng)計學相關基礎知識以及如何使用R語言進行最基本的計算和分析。

需要說明的是资铡,文中個別描述嚴格來講并不準確但希望有助于理解电禀,涉及到R語言的部分則展示了若干函數(shù)最基本用法,希望不給閱讀和學習增加負擔笤休。另外尖飞,這份資料主要面向生物統(tǒng)計學和R語言基礎薄弱的人群,勉強可以稱之為極簡手冊 ,詳細的學習還需要閱讀相關教材資料政基。

在之前幾節(jié)內(nèi)容中提到了均值分析和比較贞铣,但有時候我們關心的并不是均值而是比例(proportion)。

單比例檢驗

對于n比較大(通常為np \geq5 同時 nq \geq5 )的樣本來說沮明,根據(jù)中心極限定理辕坝,樣本近似于正態(tài)分布,可以使用z檢驗荐健,其檢驗統(tǒng)計量計算公式為:

z = \frac{p_o-p_e}{\sqrt{p_oq/n}}

其中酱畅,p_o表示觀測到的比例,p_e為預期比例江场,n表示樣本量圣贸,q=1-p

如果樣本比較小扛稽,則使用二項分布進行統(tǒng)計吁峻。

在R中,對于小樣本在张,采用binom.test()用含,對于大樣本使用正態(tài)分布近似二項分布,利用prop.test()進行分析帮匾。
在單樣本比例檢驗中啄骇,我們關心的是具有同種特性的兩個群體,在該特性總體中所占有的比例情況瘟斜。例如缸夹,小鼠中公鼠母鼠各有一半,有100只患有某種疾病螺句,其中有公鼠60只虽惭,母鼠40只。想知道是否公鼠患病率比母鼠高蛇尚。在該問題中成功次數(shù)為公鼠患病數(shù)55芽唇,總次數(shù)為100,預期比例為50%(公母鼠數(shù)量相等)取劫。

prop.test(60, 100, p = 0.5, alternative = "greater")

#   1-sample proportions test with continuity
# correction
#
# data:  60 out of 100, null probability 0.5
# X-squared = 3.61, df = 1, p-value = 0.02872
# alternative hypothesis: true p is greater than 0.5
# 95 percent confidence interval:
#  0.5127842 1.0000000
# sample estimates:
#   p
# 0.6

其中匆笤,x為成功的次數(shù),n為總測試谱邪,p為要測試的概率大小炮捧。在結果中,顯示了卡方檢驗的統(tǒng)計量值惦银,自由度和p值和置信區(qū)間咆课,最后給出了樣本概率估計值灌砖。

雙比例檢驗

如果我們已知兩組具有不同特性(A和B)樣本的樣本量和這兩組樣本中具有某種共同特性(C)的個體數(shù)量(也就是知道了C特性各自群體比例和總體比例),想要計算具有C特性的個體在A特性群體和B特性群體中的比例是否一樣傀蚌,就需要用到雙比例檢驗基显。

當樣本數(shù)量較小時(所有np和nq都小于5),通常采用非參數(shù)檢驗Fisher Exact probability test 進行分析善炫。當樣本力量較大時撩幽,我們還是近似使用正態(tài)分布z檢驗來進行預測。

例如箩艺,男生500人窜醉,女生500人,其中喜歡閱讀的男生有400人艺谆,喜歡閱讀的女生有460人榨惰。男生喜歡閱讀的比例是否比女生高。我們假設男生喜歡閱讀的比例比女生高静汤,則備擇假設是男生喜歡閱讀的比例比女生低琅催。

 prop.test(x = c(400, 460), n = c(500, 500), alternative = "less")

#   2-sample test for equality of proportions with
# continuity correction
#
# data:  c(400, 460) out of c(500, 500)
# X-squared = 28.912, df = 1, p-value = 3.787e-08
# alternative hypothesis: less
# 95 percent confidence interval:
#  -1.0000000 -0.0824468
# sample estimates:
# prop 1 prop 2
#   0.80   0.92

由結果可知,p<0.05虫给,拒絕原假設藤抡,即男生喜歡閱讀的比例比女生低。

卡方分布

\chi^2分布可以通過原假設抹估,得到一個統(tǒng)計量來表示期望結果和實際結果之間的偏離程度缠黍,進而根據(jù)分布,自由度和假設成立的情況药蜻,得出觀察頻率極值的發(fā)生概率(比當前統(tǒng)計結果更加極端的概率)瓷式。計算方法是對概率分布中的每一個頻率,用期望頻數(shù)和實際頻數(shù)差的平方除以期望頻數(shù)语泽,最后把所有結果相加贸典。得到的統(tǒng)計量結果越大,說明差別越顯著湿弦,數(shù)值越小說明觀察和期望的差別越小瓤漏,當觀察頻數(shù)和期望頻數(shù)一致是卡方為0腾夯。其實就是在比較觀測到的比例和期望的比例的關系颊埃。

\chi^2=\sum \frac{(O-E)^2}{E}

卡方分布就可以用來檢驗某個分類變量各類的出現(xiàn)概率是否等于指定概率,可以檢驗數(shù)據(jù)的擬合優(yōu)度(指定的一組數(shù)據(jù)與指定分布的吻合度)蝶俱,也可以用來檢驗兩個變量的獨立性(兩個變量之間是否存在某種關聯(lián))班利。

在使用卡方檢驗時,需要的一個參數(shù)被稱為自由度榨呆,指的是獨立變量的個數(shù)(組數(shù)減去限制數(shù))罗标。通常,二項分布已知p,泊松分布已知\lambda闯割,正態(tài)分布已知\mu\sigma^2時的自由度是n-1彻消。進行獨立性檢驗時,h行kl列聯(lián)列表的自由度是(h-1)\times(k-1)宙拉。


系列文章目錄

  1. 統(tǒng)計學基礎與R-描述性統(tǒng)計量
  2. 統(tǒng)計學基礎與R-概率相關內(nèi)容
  3. 統(tǒng)計學基礎與R-估計
  4. 統(tǒng)計學基礎與R-相關性分析
  5. 統(tǒng)計學基礎與R-單雙樣本均值分析
  6. 統(tǒng)計學基礎與R-多樣本均值分析
  7. 統(tǒng)計學基礎與R-比例分析
  8. 統(tǒng)計學基礎與R-常用高階分析方法

加入靠譜熊基地宾尚,和大家一起交流
添加我的微信
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市谢澈,隨后出現(xiàn)的幾起案子煌贴,更是在濱河造成了極大的恐慌,老刑警劉巖锥忿,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牛郑,死亡現(xiàn)場離奇詭異,居然都是意外死亡敬鬓,警方通過查閱死者的電腦和手機淹朋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來钉答,“玉大人瑞你,你說我怎么就攤上這事∠3眨” “怎么了者甲?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長砌创。 經(jīng)常有香客問我虏缸,道長,這世上最難降的妖魔是什么嫩实? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任刽辙,我火速辦了婚禮,結果婚禮上甲献,老公的妹妹穿的比我還像新娘宰缤。我一直安慰自己,他們只是感情好晃洒,可當我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布慨灭。 她就那樣靜靜地躺著,像睡著了一般球及。 火紅的嫁衣襯著肌膚如雪氧骤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天吃引,我揣著相機與錄音筹陵,去河邊找鬼刽锤。 笑死,一個胖子當著我的面吹牛朦佩,可吹牛的內(nèi)容都是我干的并思。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼语稠,長吁一口氣:“原來是場噩夢啊……” “哼纺荧!你這毒婦竟也來了?” 一聲冷哼從身側響起颅筋,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤宙暇,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后议泵,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體占贫,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年先口,在試婚紗的時候發(fā)現(xiàn)自己被綠了型奥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡碉京,死狀恐怖厢汹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谐宙,我是刑警寧澤烫葬,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站凡蜻,受9級特大地震影響搭综,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜划栓,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一兑巾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧忠荞,春花似錦蒋歌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至素标,卻和暖如春称诗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背头遭。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工寓免, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人计维。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓袜香,卻偏偏與公主長得像,于是被迫代替她去往敵國和親鲫惶。 傳聞我的和親對象是個殘疾皇子蜈首,可洞房花燭夜當晚...
    茶點故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容