差異基因通路富集分析的統(tǒng)計(jì)學(xué)假設(shè)和關(guān)于p值的理解

單細(xì)胞轉(zhuǎn)錄譜可以根據(jù)基因表達(dá)水平進(jìn)行差異分析,通過(guò)差異分析铭段,我們可以知道不同分群之間是否存在差異畜份,以及存在顯著表達(dá)量差異的基因集(DEG,在單細(xì)胞Seurat分析流程中祈匙,通過(guò)Seurat::FindAllMarkers()方法計(jì)算得到簇間的過(guò)表達(dá)差異基因)吐限。進(jìn)一步鲜侥,探究這些DEG是由哪些生物學(xué)過(guò)程介導(dǎo)的,我們的實(shí)驗(yàn)處理影響了哪些生物學(xué)過(guò)程诸典。理解這些DEG所代表的生物學(xué)意義的最佳途徑就是基因富集分析(Gene Set Enrichment Analysis, GSEA)描函。

1、富集分析的原理

富集分析(Gene Set Enrichment Analysis, GSEA)的基本思想是狐粱,如果一個(gè)生物學(xué)過(guò)程在當(dāng)前研究中發(fā)生異常舀寓,則共同發(fā)揮功能的基因被選擇出來(lái)作為與這一過(guò)程相關(guān)的基因集是大概率事件。分析比較一種生物學(xué)狀態(tài)的研究群體的【過(guò)表達(dá)差異基因集】在一通路的富集概率相比在總基因集中【隨機(jī)抽取的同數(shù)目基因集】在該通路的富集概率是否有顯著差異肌蜻,如果有顯著差異互墓,則認(rèn)為該通路對(duì)于在當(dāng)前研究群體是具有意義的。

生物學(xué)過(guò)程(通路)是受基因表達(dá)調(diào)控的蒋搜,一條通路中富集的差異表達(dá)基因數(shù)目越多篡撵,這條通路整體的表達(dá)紊亂的可能性就越大。通過(guò)富集分析可以用來(lái)解讀一組基因背后所代表的生物學(xué)知識(shí)豆挽,揭示其在細(xì)胞內(nèi)或細(xì)胞外扮演了什么樣的角色育谬。

2、富集分析的統(tǒng)計(jì)模型-超幾何分布型

超幾何分布是統(tǒng)計(jì)學(xué)中的一種離散分布帮哈,它描述了由有限總體中抽出n個(gè)樣本膛檀,成功抽出指定種類(lèi)的樣本的個(gè)數(shù)。 是生物信息學(xué)中常用的一種統(tǒng)計(jì)分布模型娘侍】校基因的富集分析就采用這個(gè)模型來(lái)檢驗(yàn)一組基因出現(xiàn)在某個(gè)通路的顯著性。

2.1超幾何分布與二項(xiàng)分布

在概率論中憾筏,超幾何分布是一個(gè)在產(chǎn)品檢驗(yàn)和隨機(jī)抽樣中應(yīng)用廣泛的離散概率分布模型嚎杨。超幾何分布與二項(xiàng)分布均基于伯努利試驗(yàn)

二項(xiàng)分布是建立在有放回抽樣的基礎(chǔ)上的氧腰,也就是抽出一個(gè)樣品測(cè)量或處理完后再放回去磕潮,然后抽下一個(gè),所以二項(xiàng)分布每次試驗(yàn)結(jié)果的發(fā)生概率是不變的(有放回抽樣容贝,每次實(shí)驗(yàn)相互獨(dú)立)自脯。但在實(shí)際的工作中通常我們很少會(huì)這樣抽,一般都屬于無(wú)放回抽樣斤富,這時(shí)候需要用超幾何分布來(lái)計(jì)算概率膏潮。在一般的教課書(shū)上都會(huì)要求,當(dāng)總體的容量N不大時(shí)满力,要用超幾何分布來(lái)計(jì)算焕参,如果N很大而n很小轻纪,則可以用二項(xiàng)分布來(lái)近似計(jì)算,也就是可以將無(wú)放回抽樣近似看出有放回抽樣叠纷。至于n要小到什么程度刻帚,有的書(shū)上說(shuō)n/N小于0.1就可以了,有的書(shū)上則要求小于0.05涩嚣。

總結(jié):二項(xiàng)分布每次試驗(yàn)結(jié)果的發(fā)生概率是不變的(有放回抽樣崇众,每次實(shí)驗(yàn)相互獨(dú)立),而超幾何分布試驗(yàn)是在有限總體中進(jìn)行無(wú)放回抽樣(總體數(shù)量不斷減少)航厚,所以每次試驗(yàn)結(jié)果發(fā)生的概率將發(fā)生變化(不放回抽樣顷歌,每次實(shí)驗(yàn)相互影響)。

2.2離散分布中的兩個(gè)重要函數(shù):

概率質(zhì)量函數(shù)(probability mass function幔睬,簡(jiǎn)稱PMF):是離散隨機(jī)變量X在各特定取值上的概率P(x)眯漩,其總和為1。與概率密度函數(shù)f(x)不同麻顶,概率質(zhì)量函數(shù)是對(duì)離散隨機(jī)變量定義的赦抖,本身就代表該值的概率;而概率- - 密度函數(shù)是對(duì)連續(xù)隨機(jī)變量定義的辅肾,本身不是概率队萤,它在某區(qū)間內(nèi)的積分才是概率。

  • R語(yǔ)言的概率質(zhì)量函數(shù)求算方法dhyper(k,M,N-M,n):返回一次抽樣的成功概率:

超幾何分布的概率質(zhì)量函數(shù):

累積分布函數(shù)(cumulative distribution function, 簡(jiǎn)稱CDF):定義為F(x)=P(X≤x)宛瞄,是單調(diào)遞增的浮禾,且滿足:F(-∞)=0和F(+∞)=1交胚。對(duì)離散分布而言份汗,它是所有小于等于x的值出現(xiàn)的概率之和。

  • R語(yǔ)言的累積概率函數(shù)求算方法phyper(k,M,N-M,n):求解"至多"問(wèn)題蝴簇,返回相應(yīng)的累計(jì)概率(超幾何分布左尾概率):

3杯活、超幾何分布型的假設(shè)檢驗(yàn)-Fisher's 精確檢驗(yàn)

3.1 關(guān)于 Fisher's test:

Fisher's test 用來(lái)檢驗(yàn)一次隨機(jī)實(shí)驗(yàn)的結(jié)果是否支持對(duì)于某個(gè)隨機(jī)實(shí)驗(yàn)的假設(shè)。具體如下:隨機(jī)事件發(fā)生的概率小于0.05則認(rèn)定該事件為小概率事件熬词。一般原則認(rèn)為在某個(gè)假設(shè)前提下旁钧,一次隨機(jī)實(shí)驗(yàn)的結(jié)果不會(huì)出現(xiàn)小概率事件。若一次隨機(jī)實(shí)驗(yàn)的結(jié)果出現(xiàn)了小概率事件則認(rèn)定該假設(shè)不被支持互拾。

  • 在給定假設(shè)(如零假設(shè):事件間無(wú)顯著相關(guān)性)的前提下歪今,對(duì)假設(shè)事件的出現(xiàn)可能性做統(tǒng)計(jì)學(xué)檢驗(yàn),p-value越小颜矿,越能拒絕原假設(shè)寄猩。
  • p-value是一種概率:是在原假設(shè)為真的前提下,出現(xiàn)該樣本或比該樣本更極端的結(jié)果的概率之和骑疆。

3.2 富集分析的一般假設(shè)

H0: 已知生物學(xué)狀態(tài)下的研究樣本的n個(gè)過(guò)表達(dá)差異基因中富集m個(gè)A通路基因的事件是隨機(jī)事件田篇,說(shuō)明A通路在該生物學(xué)狀態(tài)下的研究樣本中未發(fā)生紊亂替废。
H1: A通路在該生物學(xué)狀態(tài)下的研究樣本中發(fā)生了紊亂。

3.3 統(tǒng)計(jì)學(xué)顯著性的 p值 計(jì)算

統(tǒng)計(jì)檢驗(yàn)的p值(p-value)是在原假設(shè)為真的前提下計(jì)算的比觀察事件更極端事件的發(fā)生概率泊柬。對(duì)應(yīng)離散分布型中的單尾概率或雙尾概率椎镣。富集分析計(jì)算的是超幾何分布型的右尾概率

關(guān)于p值計(jì)算的理解:既然我們需要通過(guò)在已知生物學(xué)狀態(tài)下的研究樣本的n個(gè)DEGs中富集了A通路相關(guān)基因的數(shù)目來(lái)檢驗(yàn)A通路在該樣本中是否發(fā)生紊亂兽赁。那么在假設(shè)H0為真的前提下状答,事件(隨機(jī)在研究樣本的基因集中抽取n個(gè)基因,其中富集有\geq m個(gè)通路A相關(guān)基因)應(yīng)該是大概率事件,事件的發(fā)生概率p \geq 95\%闸氮。所以如果事件(隨機(jī)在研究樣本的基因集中抽取n個(gè)基因,其中富集有\geq m個(gè)通路A相關(guān)基因)的發(fā)生概率p \leq 5\%剪况,就可以認(rèn)為在統(tǒng)計(jì)假設(shè)為真的前提下發(fā)生了小概率事件,我們就有理由懷疑假設(shè)的真實(shí)性蒲跨,從而拒絕接受該假設(shè)译断。

事件(隨機(jī)在研究樣本的基因集中抽取n個(gè)基因,其中富集有\geq m個(gè)通路A相關(guān)基因) 的發(fā)生概率p可以由計(jì)算超幾何分布型的右尾概率得到,p=1- F_X(m)或悲。

超幾何分布右尾概率

參考材料
假設(shè)檢驗(yàn)孙咪、P值、假設(shè)檢驗(yàn)和置信區(qū)間的關(guān)系 - 知乎 (zhihu.com)
R-概率統(tǒng)計(jì) | 概率分布與假設(shè)檢驗(yàn) - 知乎 (zhihu.com)
R統(tǒng)計(jì)學(xué)(03): 超幾何分布 - 知乎 (zhihu.com)
淺探富集分析中的超幾何分布 - 簡(jiǎn)書(shū) (jianshu.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載巡语,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者翎蹈。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市男公,隨后出現(xiàn)的幾起案子荤堪,更是在濱河造成了極大的恐慌,老刑警劉巖枢赔,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件澄阳,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡踏拜,警方通過(guò)查閱死者的電腦和手機(jī)碎赢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)速梗,“玉大人肮塞,你說(shuō)我怎么就攤上這事∫鏊” “怎么了枕赵?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)位隶。 經(jīng)常有香客問(wèn)我拷窜,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任装黑,我火速辦了婚禮副瀑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘恋谭。我一直安慰自己糠睡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布疚颊。 她就那樣靜靜地躺著狈孔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪材义。 梳的紋絲不亂的頭發(fā)上均抽,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音其掂,去河邊找鬼油挥。 笑死,一個(gè)胖子當(dāng)著我的面吹牛款熬,可吹牛的內(nèi)容都是我干的深寥。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼贤牛,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼惋鹅!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起殉簸,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤闰集,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后般卑,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體武鲁,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年椭微,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了洞坑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盲链。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蝇率,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出刽沾,到底是詐尸還是另有隱情本慕,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布侧漓,位于F島的核電站锅尘,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜藤违,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一浪腐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧顿乒,春花似錦议街、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至骨杂,卻和暖如春涂身,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背搓蚪。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工蛤售, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人妒潭。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓悍抑,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親杜耙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子搜骡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容