生物統(tǒng)計——假設(shè)檢驗

本文是對 孟浩巍
生物信息學入門課:學習生信你需要了解的統(tǒng)計學課程的學習臂港。

五. 假設(shè)檢驗

1. 假設(shè)檢驗基本介紹

K.Pearson——Sir Ronald Aylmer Fisher(女士品茶,F(xiàn)isher線性判別浑娜,極大似然估計棚愤,試驗設(shè)計)——Neyman and E Pearson.

Fisher的女士品茶提出來的小概率標準為0.05宛畦。

什么是假設(shè)揍移?:通過MT和TM的假設(shè)確定總體的一些參數(shù)踏施;什么是檢驗:判斷假設(shè)是否成立畅形,是否為小概率事件诉探。

假設(shè)檢驗基本思想

假設(shè)檢驗的一般步驟

  1. 提出原假設(shè)H0和備擇假設(shè)H1
  2. 確定適當?shù)臋z驗統(tǒng)計量(t檢驗/卡方/F檢驗)
  3. 計算出抽樣結(jié)果的PValue
  4. 如果PValue很小(0.01/0.05)肾胯,拒絕H0接受H1

2. PValue的計算

R中計算PValue的相關(guān)函數(shù):

R中各個分布函數(shù)名稱

  • Beta分布——二項分布——柯西分布——卡方分布——指數(shù)分布——F分布——Gamma分布——幾何分布——超幾何分布——邏輯斯特分布——Log Normal分布——負二項分布——正態(tài)分布——泊松分布——T分布——均勻分布——威泊爾分布
  • p(probability)概率分布竖席,累計分布概率
  • q(quantile)分位數(shù)計算,確定99%的分位數(shù)
  • d(density)概率密度函數(shù)(概率密度函數(shù)y軸坐標取值)
  • r(random)取對應(yīng)分布的隨機數(shù)
##確定分位數(shù)
qnorm(0.99,mean=0,sd=1) ##確定99%的分位數(shù)值

## 確定概率
pnorm(-1.96,mean = 0, sd =1) ## 0.024
pnorm(0,mean = 0, sd =1) ## 0.5

##概率密度函數(shù)曲線
plot(dnorm(seq(-10,10,length.out = 1000),mean = 0,sd = 1))

##模擬取值
rnorm(10,mean=5,sd=2)

###設(shè)置隨機種子保證rnorm里取值一致敬肚。
sed.seed(2019)
rnorm(10,mean=5,sd=2)

在生物信息里的例子:

  1. 某次測序全基因組平均突變率為0.003毕荐,某個位點中檢測到帶有C的reads10條,帶有T的reads為3條艳馒,那么該位點是否為一個甲基化位點憎亚?(background:原始的C,被清洗后不帶甲基化位點為T,帶甲基化(C被保護)位點為C)

    • 二項分布:n=13, p=0.003
    • 具體R中pbinom(q=3,size = 13,prob = 0.003)
  2. MACS2中call peak認為reads count在基因組某個區(qū)域的分布服從泊松分布虽填,估算某一段區(qū)域中的Possion分布的參數(shù)?假設(shè)已經(jīng)估算出lambda=5第献,如果一段區(qū)域內(nèi)出現(xiàn)了20條reads衫樊,那么pvalue應(yīng)該是多少臀栈?

    • lambda估算:一段區(qū)域的reads count數(shù)出來,平均?或者估算整體基因組的lambda。
    • x=20,21,22...出現(xiàn)抽樣結(jié)果或者比抽樣結(jié)果更極端的情況。加起來一起的pvalue即為次pvalue
    • 具體R中計算ppois(20,lambda=5)為累計概率。>20的pvalue1-ppois(20,lambda=5)

3. 統(tǒng)計功效和假設(shè)檢驗的兩類錯誤

兩類錯誤和統(tǒng)計功效

image

1類錯誤假陽性,2類錯誤假陰性。α去真概率,β納偽概率。

當樣本量確定時,α和β是一個balance。α是定義的顯著性水平,如0.01踩衩,pvalue實際是很小。而α定的十分小的情況下,β的犯錯概率就大了浑侥。所以具體再平衡的過程中需要進一步考慮伶选。例如在癌癥檢測時陨簇,會盡可能把H1都找出來荷鼠,所以寧愿假陽性高牍疏,假陰性低厦滤,cutoff 甚至0.1羽峰。而相反的在call peak時要找到最真的peak

提高統(tǒng)計功效:加大樣本量(較簡單)坯汤,更改統(tǒng)計方法妈橄。

4. 使用Pvalue常見的錯誤

1. 在任何時候都以0.05或者0.01作為金標準

  • 有些統(tǒng)計檢驗如Fisher Exact test類(GO/KEGG/Motif計算)容易出現(xiàn)非常小的pvalue。一般會取10-4枫疆,認為取小于10e-4才算顯著。

2. 設(shè)定Pvalue閾值時忽略了2類錯誤的犯錯可能辆亏。

  • 比如在病理確診時 H0代表沒病,H1代表有病恍箭。二類錯誤的假陰性更嚴重,所以設(shè)置α提高0.1/0.2置森,假陰性β就會降低呛凶。

3. 計算Pvalue過程中把兔,忽略了使用假設(shè)檢驗的基本條件暖混。

  • 比如t檢驗(服從正態(tài)分布贮配,兩個樣本方差齊叼旋。如果不服從原假設(shè)基本要求衫冻,而應(yīng)用其它的如非參數(shù)檢驗)

4. 在使用PValue的時候,會忽略了假設(shè)檢驗的原假設(shè)呜象。

image
  • 僅能說是根據(jù)Pvalue發(fā)現(xiàn)有相關(guān)關(guān)系膳凝,但相關(guān)關(guān)系不大。

回歸分析時恭陡,原假設(shè)的兩個變量是不是有相關(guān)關(guān)系(沒有/有 )蹬音,而具體相關(guān)關(guān)系的大小,歸到回歸中解釋休玩。

4. T檢驗相關(guān)內(nèi)容

主要圍繞正態(tài)分布進行著淆。大樣本Z-test,小樣本T-test

1. Z-score和Z變換

Z-score和Z變換
  • Z變換是已知了總體方差和總體均值的情況拴疤。其中在α=0.05時永部,Z=+-1.96,所以按公式計算完Z值之后再通過pnorm(z,mean=0,sd=1)轉(zhuǎn)換呐矾。

2. 為什么有了Z test之后還要T test苔埋?:因為通常情況下我們很難獲得總體方差(最多獲得總體均值的估計),往往就想通過樣本方差來代替總體方差蜒犯。

## R中T-test值轉(zhuǎn)換為Pvalue
1-pt(q=14.16,df=10-1)

小樣本檢驗T-test
  • (當X均值-樣本均值)/(樣本方差/根號n)组橄,它是服從自由度n-1的student-T-test。自由度越高越服從正態(tài)分布愧薛,n越大越服從z test大樣本統(tǒng)計。
  • 大樣本統(tǒng)計的n至少>=30(50)衫画,所以在一般情況下大都是進行T-test

3. T-test兩種最常見的情況

  • 有一組試驗樣本數(shù)據(jù)毫炉,與已知標準均值去做比較
### 已知A基因在總體均值中為15,觀察5個人中A(13.1,16.2,14.9,15.8,17.7),分析該病人基因A有無顯著升高削罩。
res <- c(13.1,16.2,14.9,15.8,17.7)
t.test(res,mu = 15,alternative = "greater") ##單端變大瞄勾,所以alternative="greater"

  • 兩批獨立隨機試驗結(jié)果费奸,需要比較是否有差異(已知樣本均值,樣本方差相等)
    • 兩個樣本是獨立的隨機樣本(一般儀器測量的屬于正態(tài)分布进陡,有多個因素影響愿阐,而沒有主效因素影響同屬于正態(tài)分布)
    • 兩個總體都是正態(tài)分布
    • 兩個總體方差未知但相等(兩批實驗組內(nèi)的variation不能過大)


      兩批實驗結(jié)果,比較是否有差異
### 2. compare two sample
geneB.ctrl <- c(12.33,7.56,11.47,9.82,9.14)
geneB.deoxy <- c(10.41,14.82,14.13,15.81,13.62)
t.test(geneB.ctrl,geneB.deoxy)

  • 配對樣本的均值比較T-test(如同組實驗樣本的前后進行比較趾疚,一個group比較用藥前和用藥后)作差缨历,如果沒差異的話是根0比較接近。即可根據(jù)公式進行檢驗糙麦。得出的T-test值后查表
### 3. paired t.test
before.fitness=c(94,101,110,103,97,88,96,101,104,116.5)
after.fitness <-


  • 2組獨立隨機試驗結(jié)果辛孵,在方差不相等的情況下做比較(應(yīng)該首先用F檢驗來檢查方差是否相等,在方差不相等的情況下赡磅,應(yīng)該使用t'檢驗或者是Wilcox秩和檢驗)
### 4. compare two sample ,方差不相等
geneB.ctrl <- c(12.33,7.56,11.47,9.82,9.14)
geneB.deoxy <- c(3.41,14.82,14.13,15.81,4.62)

## 先F檢驗var.test檢測兩個樣本內(nèi)方差是否相等
var.test(geneB.ctrl,geneB.deoxy)

## t.test
t.test(geneB.ctrl,geneB.deoxy,var.equal = F)

## wilcox test
wilcox.test(geneB.ctrl,geneB.deoxy)

5. 列聯(lián)表檢驗

生物信息中常見的列聯(lián)表檢驗問題即GO/KEGG富集分析問題


GO/KEGG的列聯(lián)表檢驗
K.Pearson與擬合優(yōu)度檢驗
  • 利用R語言中的chisq.test函數(shù)
# chisq test 2 
ratio_vec = c(335,125,160)
prob_vec = c(9,3,4) / 16
chisq.test(ratio_vec,p = prob_vec)
列聯(lián)表檢驗問題
  • 大樣本水平下魄缚,我們認為K近似服從卡方分布,從而進行卡方檢驗焚廊。小樣本情況冶匹,即表格中理論頻數(shù)小于5,加和樣本總數(shù)n<40咆瘟,應(yīng)該使用Fisher exact test精準檢驗嚼隘。而當理論頻數(shù)大于5時,進行卡方檢驗
  • Fisher exact test本質(zhì)上是超幾何分布檢驗搞疗,在生物信息上如富集分析嗓蘑,判斷某位點是否為突變位點。
# fisher test 
test_mat = matrix(c(55,200,200,19800),ncol = 2,nrow = 2)
fisher.test(test_mat)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末匿乃,一起剝皮案震驚了整個濱河市桩皿,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌幢炸,老刑警劉巖泄隔,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異宛徊,居然都是意外死亡佛嬉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門闸天,熙熙樓的掌柜王于貴愁眉苦臉地迎上來暖呕,“玉大人,你說我怎么就攤上這事苞氮⊥謇浚” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長库物。 經(jīng)常有香客問我霸旗,道長,這世上最難降的妖魔是什么戚揭? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任诱告,我火速辦了婚禮措伐,結(jié)果婚禮上揖曾,老公的妹妹穿的比我還像新娘。我一直安慰自己傍药,他們只是感情好镀虐,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布箱蟆。 她就那樣靜靜地躺著,像睡著了一般刮便。 火紅的嫁衣襯著肌膚如雪空猜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天恨旱,我揣著相機與錄音辈毯,去河邊找鬼。 笑死搜贤,一個胖子當著我的面吹牛谆沃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播仪芒,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼唁影,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掂名?” 一聲冷哼從身側(cè)響起据沈,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎饺蔑,沒想到半個月后锌介,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡猾警,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年孔祸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片发皿。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡崔慧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出穴墅,到底是詐尸還是另有隱情惶室,我是刑警寧澤匣屡,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站拇涤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏誉结。R本人自食惡果不足惜鹅士,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望惩坑。 院中可真熱鬧掉盅,春花似錦、人聲如沸以舒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蔓钟。三九已至永票,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間滥沫,已是汗流浹背侣集。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留兰绣,地道東北人世分。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像缀辩,于是被迫代替她去往敵國和親臭埋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容