單細(xì)胞轉(zhuǎn)錄譜可以根據(jù)基因表達(dá)水平進(jìn)行差異分析,通過(guò)差異分析铭段,我們可以知道不同分群之間是否存在差異畜份,以及存在顯著表達(dá)量差異的基因集(DEG,在單細(xì)胞Seurat分析流程中祈匙,通過(guò)
Seurat::FindAllMarkers()
方法計(jì)算得到簇間的過(guò)表達(dá)差異基因)吐限。進(jìn)一步鲜侥,探究這些DEG是由哪些生物學(xué)過(guò)程介導(dǎo)的,我們的實(shí)驗(yàn)處理影響了哪些生物學(xué)過(guò)程诸典。理解這些DEG所代表的生物學(xué)意義的最佳途徑就是基因富集分析(Gene Set Enrichment Analysis, GSEA)描函。
1、富集分析的原理
富集分析(Gene Set Enrichment Analysis, GSEA)的基本思想是狐粱,如果一個(gè)生物學(xué)過(guò)程在當(dāng)前研究中發(fā)生異常舀寓,則共同發(fā)揮功能的基因被選擇出來(lái)作為與這一過(guò)程相關(guān)的基因集是大概率事件。分析比較一種生物學(xué)狀態(tài)的研究群體的【過(guò)表達(dá)差異基因集】在一通路的富集概率相比在總基因集中【隨機(jī)抽取的同數(shù)目基因集】在該通路的富集概率是否有顯著差異肌蜻,如果有顯著差異互墓,則認(rèn)為該通路對(duì)于在當(dāng)前研究群體是具有意義的。
生物學(xué)過(guò)程(通路)是受基因表達(dá)調(diào)控的蒋搜,一條通路中富集的差異表達(dá)基因數(shù)目越多篡撵,這條通路整體的表達(dá)紊亂的可能性就越大。通過(guò)富集分析可以用來(lái)解讀一組基因背后所代表的生物學(xué)知識(shí)豆挽,揭示其在細(xì)胞內(nèi)或細(xì)胞外扮演了什么樣的角色育谬。
2、富集分析的統(tǒng)計(jì)模型-超幾何分布型
超幾何分布是統(tǒng)計(jì)學(xué)中的一種離散分布帮哈,它描述了由有限總體中抽出n個(gè)樣本膛檀,成功抽出指定種類(lèi)的樣本的個(gè)數(shù)。 是生物信息學(xué)中常用的一種統(tǒng)計(jì)分布模型娘侍】校基因的富集分析就采用這個(gè)模型來(lái)檢驗(yàn)一組基因出現(xiàn)在某個(gè)通路的顯著性。
2.1超幾何分布與二項(xiàng)分布
在概率論中憾筏,超幾何分布是一個(gè)在產(chǎn)品檢驗(yàn)和隨機(jī)抽樣中應(yīng)用廣泛的離散概率分布模型嚎杨。超幾何分布與二項(xiàng)分布均基于伯努利試驗(yàn)。
二項(xiàng)分布是建立在有放回抽樣的基礎(chǔ)上的氧腰,也就是抽出一個(gè)樣品測(cè)量或處理完后再放回去
磕潮,然后抽下一個(gè),所以二項(xiàng)分布每次試驗(yàn)結(jié)果的發(fā)生概率是不變的(有放回抽樣容贝,每次實(shí)驗(yàn)相互獨(dú)立)自脯。但在實(shí)際的工作中通常我們很少會(huì)這樣抽,一般都屬于無(wú)放回抽樣斤富,這時(shí)候需要用超幾何分布來(lái)計(jì)算概率膏潮。在一般的教課書(shū)上都會(huì)要求,當(dāng)總體的容量N不大時(shí)满力,要用超幾何分布來(lái)計(jì)算焕参,如果N很大而n很小轻纪,則可以用二項(xiàng)分布來(lái)近似計(jì)算,也就是可以將無(wú)放回抽樣近似看出有放回抽樣叠纷。至于n要小到什么程度刻帚,有的書(shū)上說(shuō)n/N小于0.1就可以了,有的書(shū)上則要求小于0.05涩嚣。
總結(jié):二項(xiàng)分布每次試驗(yàn)結(jié)果的發(fā)生概率是不變的(有放回抽樣崇众,每次實(shí)驗(yàn)相互獨(dú)立),而超幾何分布試驗(yàn)是在有限總體中進(jìn)行無(wú)放回抽樣(總體數(shù)量不斷減少)航厚,所以每次試驗(yàn)結(jié)果發(fā)生的概率將發(fā)生變化(不放回抽樣顷歌,每次實(shí)驗(yàn)相互影響)。
2.2離散分布中的兩個(gè)重要函數(shù):
① 概率質(zhì)量函數(shù)(probability mass function幔睬,簡(jiǎn)稱PMF):是離散隨機(jī)變量X在各特定取值上的概率P(x)眯漩,其總和為1。與概率密度函數(shù)f(x)不同麻顶,概率質(zhì)量函數(shù)是對(duì)離散隨機(jī)變量定義的赦抖,本身就代表該值的概率;而概率- - 密度函數(shù)是對(duì)連續(xù)隨機(jī)變量定義的辅肾,本身不是概率队萤,它在某區(qū)間內(nèi)的積分才是概率。
- R語(yǔ)言的概率質(zhì)量函數(shù)求算方法
dhyper(k,M,N-M,n)
:返回一次抽樣的成功概率:
超幾何分布的概率質(zhì)量函數(shù):
②累積分布函數(shù)(cumulative distribution function, 簡(jiǎn)稱CDF):定義為F(x)=P(X≤x)宛瞄,是單調(diào)遞增的浮禾,且滿足:F(-∞)=0和F(+∞)=1交胚。對(duì)離散分布而言份汗,它是所有小于等于x的值出現(xiàn)的概率之和。
- R語(yǔ)言的累積概率函數(shù)求算方法
phyper(k,M,N-M,n)
:求解"至多"問(wèn)題蝴簇,返回相應(yīng)的累計(jì)概率(超幾何分布左尾概率):
3杯活、超幾何分布型的假設(shè)檢驗(yàn)-Fisher's 精確檢驗(yàn)
3.1 關(guān)于 Fisher's test:
Fisher's test 用來(lái)檢驗(yàn)一次隨機(jī)實(shí)驗(yàn)的結(jié)果是否支持對(duì)于某個(gè)隨機(jī)實(shí)驗(yàn)的假設(shè)。具體如下:隨機(jī)事件發(fā)生的概率小于0.05則認(rèn)定該事件為小概率事件熬词。一般原則認(rèn)為在某個(gè)假設(shè)前提下旁钧,一次隨機(jī)實(shí)驗(yàn)的結(jié)果不會(huì)出現(xiàn)小概率事件。若一次隨機(jī)實(shí)驗(yàn)的結(jié)果出現(xiàn)了小概率事件則認(rèn)定該假設(shè)不被支持互拾。
- 在給定假設(shè)(如零假設(shè):事件間無(wú)顯著相關(guān)性)的前提下歪今,對(duì)假設(shè)事件的出現(xiàn)可能性做統(tǒng)計(jì)學(xué)檢驗(yàn),p-value越小颜矿,越能拒絕原假設(shè)寄猩。
- p-value是一種概率:是在原假設(shè)為真的前提下,出現(xiàn)該樣本或比該樣本更極端的結(jié)果的概率之和骑疆。
3.2 富集分析的一般假設(shè)
H0: 已知生物學(xué)狀態(tài)下的研究樣本的n個(gè)過(guò)表達(dá)差異基因中富集個(gè)A通路基因的事件是隨機(jī)事件田篇,說(shuō)明A通路在該生物學(xué)狀態(tài)下的研究樣本中未發(fā)生紊亂替废。
H1: A通路在該生物學(xué)狀態(tài)下的研究樣本中發(fā)生了紊亂。
3.3 統(tǒng)計(jì)學(xué)顯著性的 值 計(jì)算
統(tǒng)計(jì)檢驗(yàn)的值()是在原假設(shè)為真的前提下計(jì)算的比觀察事件更極端事件的發(fā)生概率泊柬。對(duì)應(yīng)離散分布型中的單尾概率或雙尾概率椎镣。富集分析計(jì)算的是超幾何分布型的右尾概率。
關(guān)于值計(jì)算的理解:既然我們需要通過(guò)在已知生物學(xué)狀態(tài)下的研究樣本的個(gè)DEGs中富集了A通路相關(guān)基因的數(shù)目來(lái)檢驗(yàn)A通路在該樣本中是否發(fā)生紊亂兽赁。那么在假設(shè)H0為真的前提下状答,事件(隨機(jī)在研究樣本的基因集中抽取個(gè)基因,其中富集有個(gè)通路A相關(guān)基因)應(yīng)該是大概率事件,事件的發(fā)生概率闸氮。所以如果事件(隨機(jī)在研究樣本的基因集中抽取個(gè)基因,其中富集有個(gè)通路A相關(guān)基因)的發(fā)生概率剪况,就可以認(rèn)為在統(tǒng)計(jì)假設(shè)為真的前提下發(fā)生了小概率事件,我們就有理由懷疑假設(shè)的真實(shí)性蒲跨,從而拒絕接受該假設(shè)译断。
事件(隨機(jī)在研究樣本的基因集中抽取n個(gè)基因,其中富集有個(gè)通路A相關(guān)基因) 的發(fā)生概率可以由計(jì)算超幾何分布型的右尾概率得到,或悲。
參考材料
假設(shè)檢驗(yàn)孙咪、P值、假設(shè)檢驗(yàn)和置信區(qū)間的關(guān)系 - 知乎 (zhihu.com)
R-概率統(tǒng)計(jì) | 概率分布與假設(shè)檢驗(yàn) - 知乎 (zhihu.com)
R統(tǒng)計(jì)學(xué)(03): 超幾何分布 - 知乎 (zhihu.com)
淺探富集分析中的超幾何分布 - 簡(jiǎn)書(shū) (jianshu.com)