生物富集在生物信息中有著重要的地位戈锻,做生物信息分析的時(shí)候總會遇到這樣或者那樣的富集分析歼跟,比如GO富集分析等。大多數(shù)情況下我們都是使用線上在線分析解決格遭。是否會遇到這樣一種情況哈街,當(dāng)我們不能使用在線分析的時(shí)候,如何對我們感興趣的基因進(jìn)行富集呢拒迅?
這似乎是一個(gè)很有趣的問題....
那我們今天就來追溯生物富集的前世今生....
比如我們現(xiàn)在遇到了這樣一個(gè)問題:
在某次實(shí)驗(yàn)中骚秦,我們找到了一種全新的病毒X,通過病毒侵染細(xì)胞實(shí)驗(yàn)我們鑒定了6個(gè)病毒基因璧微。通過查閱資料發(fā)現(xiàn)作箍,這6個(gè)基因中有4個(gè)基因在一個(gè)特殊通路里,通過繼續(xù)查閱資料我們發(fā)現(xiàn)前硫,這個(gè)通路的全部基因有7個(gè)胞得,而病毒的全部基因有15個(gè),那么我們就產(chǎn)生了一個(gè)疑問屹电,這個(gè)病毒是不是和這個(gè)通路有關(guān)系呢阶剑?
從數(shù)據(jù)來看跃巡,我們鑒定的6個(gè)基因中有有4個(gè)在這個(gè)通路里,顯然這個(gè)病毒和這個(gè)通路有著特殊的聯(lián)系牧愁,但似乎又覺得有一些不太對的地方瓷炮。
顯然我們需要一個(gè)指標(biāo)來證明我們鑒定的6個(gè)基因確實(shí)通過特殊的富集才得到的...
我們將上面的問題簡化為一個(gè)數(shù)學(xué)問題來看的話,這似乎就是一個(gè)摸球問題:
在一個(gè)瓶子里面有15個(gè)球递宅,其中7個(gè)是黑球娘香,我們從中取了6個(gè)球,其中4個(gè)是黑球办龄,這是不是小概率事件烘绽?
那怎么計(jì)算這個(gè)概率呢?通過排列組合和概率論的知識可以得到
也就是說我們隨機(jī)抽取一次俐填,其中抽到4個(gè)黑球的概率是0.196
那我們將這個(gè)公式繼續(xù)推廣可以得到:
這似乎就是一個(gè)超幾何分布模型
假設(shè)有限總體包含N個(gè)球安接,其中黑球?yàn)镸個(gè),則剩余的N-M個(gè)為白球英融,如果從該有限總體中抽取出n個(gè)球盏檐,其中有k個(gè)是黑球的概率。
回到我們的問題驶悟,從6個(gè)球中抽到了4個(gè)黑球這個(gè)事件到底是否具有顯著性呢胡野?
我們在前面計(jì)算出了抽到4個(gè)黑球的概率是0.196 這個(gè)值是不能拿來直接用的,必須要對其進(jìn)行一個(gè)評估痕鳍,因?yàn)槲覀儽仨氁紤]到隨機(jī)情況
在這里我們就用到了超幾何分布檢驗(yàn)( Hyper Geometric Test)
怎么理解超幾何分布檢驗(yàn)?zāi)兀?br>
我們給一個(gè)假設(shè)硫豆,此次抽樣與隨機(jī)抽樣沒有差異(原假設(shè))
P值就是當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。如果P值很小笼呆,說明這種情況的發(fā)生的概率很小熊响,而如果出現(xiàn)了,根據(jù)小概率原理诗赌,我們就有理由拒絕原假設(shè)汗茄。
當(dāng)前的樣本觀測結(jié)果是黑色的球?yàn)?個(gè),更極端的結(jié)果就是k=5,k=6的情況
因此我們得到如下計(jì)算結(jié)果:
從而得到的p值結(jié)果為0.230769 因此我們按照95%的置信區(qū)間來看铭若,0.230769>0.05
因此我們不認(rèn)為這是一個(gè)小概率事件洪碳,因此我們認(rèn)為此次抽球與隨機(jī)抽取沒有差別
回到我們最初的生物學(xué)問題,如果我們發(fā)現(xiàn)有5個(gè)基因在特殊通路中的話奥喻,那么
p=p(x=5)+p(x=6)=0.034965 <0.05
此時(shí)我們就拒絕原假設(shè)偶宫,認(rèn)為這是一個(gè)小概率事件非迹,也就是我們鑒定的基因和通路有比較強(qiáng)的聯(lián)系环鲤。
如何對p值進(jìn)行計(jì)算呢?
R語言
1-phyper(4-1, 7, 8, 6)
[1] 0.2307692
其中4 為抽取6個(gè)球中黑球的數(shù)目 憎兽,7 為袋子黑球的數(shù)目冷离,8為袋中白球的數(shù)目吵冒,6為所抽球的個(gè)數(shù)
python
from scipy.stats import hypergeom
hypergeom.sf(4-1,15,7,6)
out[1] 0.23076923076923062
其中4 為抽取6個(gè)球中黑球的數(shù)目,15為袋中黑白球總數(shù),7 為袋子黑球的數(shù)目西剥,6為所抽球的個(gè)數(shù)
解決了p值后還會遇到另一個(gè)問題就是痹栖,在我們對鑒定到的差異差異基因做通路富集后,通常會計(jì)算一個(gè)p值瞭空。當(dāng)某個(gè)通路的p值小于0.05(5%)時(shí)揪阿,我們通常認(rèn)為這個(gè)通路是通過富集得到的。但是仍舊有5%的概率就是這個(gè)通路是通過隨機(jī)抽取得到的咆畏。那么我們就錯(cuò)誤地否認(rèn)了原假設(shè)南捂,導(dǎo)致了假陽性的產(chǎn)生(犯錯(cuò)的概率為5%)。
如果檢驗(yàn)一次旧找,犯錯(cuò)的概率是5%溺健;檢測10000次,犯錯(cuò)的次數(shù)就是500次钮蛛,即額外多出了500次差異的結(jié)論(即使實(shí)際沒有差異)鞭缭。
為了控制假陽性的次數(shù),于是我們需要對p值進(jìn)行多重檢驗(yàn)校正魏颓,提高閾值岭辣。
具體細(xì)節(jié)可以移步淺談多重檢驗(yàn)校正FDR