GO富集分析

GO富集是組學(xué)數(shù)據(jù)分析常用的手段准脂,通常用來(lái)挖掘差異基因中GO term的富集程度起胰。Fisher's exact test是常用的統(tǒng)計(jì)檢驗(yàn)方法,但這種方法存在明顯的缺點(diǎn)舷暮。很多公司提供的測(cè)序分析結(jié)果都普遍使用這樣的方法,導(dǎo)致很多后續(xù)的分析與實(shí)驗(yàn)結(jié)果不一致的情況噩茄。對(duì)于這種情況下面,目前還有其他算法來(lái)彌補(bǔ)這些缺點(diǎn)。(文中例子來(lái)源于《the Gene Ontology handbook》)

一绩聘、基本方法

Fisher's exact test

fisher's exact test是基于超幾何分布來(lái)計(jì)算的沥割,單邊檢驗(yàn)就是超幾何檢驗(yàn)。通常用來(lái)檢驗(yàn)兩組分類(lèi)是否有顯著差異凿菩。
m:研究物種的基因數(shù)机杜;
n:研究的樣本中基因數(shù);
mt:總體中被注釋到term t(GO 詞條t)的基因數(shù)衅谷;
nt:樣本中被注釋到term t的基因數(shù)椒拗。
隨機(jī)變量Xt表示樣本中被觀察到的term t 的數(shù)目,所有根據(jù)超幾何分別,觀察到k個(gè)term t 的概率P(Xt)是:


fisher_exact_test.png

零假設(shè)H0:樣本中出現(xiàn)的term t 的數(shù)目與總體中總的term t數(shù)目沒(méi)有正關(guān)聯(lián)蚀苛。也就是說(shuō)樣本中的term t數(shù)目的比例與總體中term t的接近在验。
為了拒絕H0,使用單尾檢驗(yàn):


ont-tail_test.png

一個(gè)簡(jiǎn)單的例子:假設(shè)總體中有18個(gè)基因堵未,其中有5個(gè)被注釋到binding這個(gè)term译红,轉(zhuǎn)錄組分析發(fā)現(xiàn)有5個(gè)差異表達(dá)的基因,其中有3個(gè)被注釋到binding這個(gè)term兴溜,為了說(shuō)明binding這個(gè)term是否是overrepresentation侦厚,用上面的Fisher's exact test計(jì)算p值:


fisher's_exact_example.png
example.png

multiple testing problem

在現(xiàn)實(shí)中,我們不可能只對(duì)某一個(gè)term進(jìn)行檢驗(yàn)拙徽,而是對(duì)很多term進(jìn)行檢測(cè)刨沦,即多重檢驗(yàn),但這樣就會(huì)導(dǎo)致假陽(yáng)性的term數(shù)目非常高膘怕。所以我們需要對(duì)p值進(jìn)行校正想诅。通常是使用Benjamini-Hochberg校正方法來(lái)控制預(yù)期的錯(cuò)誤發(fā)現(xiàn)率(false discoveries rate-FDR)進(jìn)行校正。(如何通俗地解釋錯(cuò)誤發(fā)現(xiàn)率(FDR))岛心。盡管多重檢驗(yàn)的校正可以減少假陽(yáng)性来破,但并不能從根本上解決GO(或KEGG)富集的問(wèn)題缤底。

二哺哼、根本問(wèn)題:Gene Progagation

GO富集的根本問(wèn)題在于一個(gè)基因?qū)?yīng)的GO term有多個(gè)离唬,一個(gè)term對(duì)應(yīng)多個(gè)gene聪铺,同時(shí)還有層級(jí)關(guān)系桨螺。這樣導(dǎo)致如果一個(gè)term顯著富集榔组,那和它共享很多基因的term也會(huì)顯著富集表谊。


解決方法

有很多其他的算法來(lái)試圖解決這個(gè)問(wèn)題搔谴,其中包括parent-child approach干旁、topology-based algorithms驶沼、model-based approaches和gene set enrichment analysis。下面是對(duì)這些算法的簡(jiǎn)單介紹:

Parent-child approach

該算法還是基于Fisher's exact test争群,只不過(guò)考慮了term的父節(jié)點(diǎn)回怜。在計(jì)算概率時(shí),不再是在總體m中取樣换薄,而是從term的父節(jié)點(diǎn)中取樣玉雾,所以計(jì)算公式變成了:


parent-child approach.png

當(dāng)一個(gè)term有多個(gè)父節(jié)點(diǎn)時(shí)計(jì)算就變得復(fù)雜了,具體方法還得參考原始文獻(xiàn)(improved detection of overrepresentation of Gene-Ontology annotatins with parent child analysis)

Topology-Based algorithms
Model-Based approaches

這兩種方法原理反正我沒(méi)看懂专控,有興趣的可以看原始文獻(xiàn):
1抹凳、Improved scoring of functional groups from gene expression data by decorrelating GO graph structure.
2、GOing Bayesian: model-based gene set analysis of genome-scale data

Gene Set Enrichment analysis(GSEA)

該算法首先根據(jù)感興趣的特征(比如差異基因的表達(dá)量)對(duì)基因進(jìn)行排序伦腐,形成一個(gè)列表赢底。零假設(shè)是某個(gè)基因集(genes encoding products in a metabolic pathway, located in the same cytogenetic band, or sharing the sam GO category)里基因順序與這個(gè)列表沒(méi)有關(guān)聯(lián),即排序是隨機(jī)的。對(duì)應(yīng)的備擇假設(shè)是它們之間有關(guān)聯(lián)幸冻。如果基因集里的基因都聚集在基因列表的前端或底端或者非隨機(jī)分布粹庞,我們就傾向于相信它們之間有關(guān)聯(lián)。
S:想研究的基因集洽损;
L:整個(gè)排序的基因列表庞溜;
統(tǒng)計(jì)量:Kolmogorov-Smirnov(KS)


KS.png

step 1:計(jì)算富集得分(Enrichment Score)。按順序從頭到尾逐個(gè)比較L中的基因與S中的基因碑定,加和統(tǒng)計(jì)量流码,如果兩者相同就增加KS統(tǒng)計(jì)量,反之就減少KS統(tǒng)計(jì)量延刘。增加的多少與這個(gè)基因和表型的相關(guān)性有關(guān)漫试。最后ES就是KS的最大方差值。


step 2碘赖、檢驗(yàn)ES的顯著性驾荣。重復(fù)k次隨機(jī)選擇的大小為nt的基因集(Nt1,...,Ntk),p值計(jì)算公式為:


step3普泡、使用FDR進(jìn)行多重檢驗(yàn)的校正播掷。
相關(guān)軟件:GSEA-P software

參考文獻(xiàn)

1、Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practercal and powerful approch to multiple testing.
2撼班、https://www.zhihu.com/question/3560619
3歧匈、Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles
4、 《the Gene Ontology handbook》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末权烧,一起剝皮案震驚了整個(gè)濱河市眯亦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌般码,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乱顾,死亡現(xiàn)場(chǎng)離奇詭異板祝,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)走净,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)券时,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人伏伯,你說(shuō)我怎么就攤上這事橘洞。” “怎么了说搅?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵炸枣,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng)适肠,這世上最難降的妖魔是什么霍衫? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮侯养,結(jié)果婚禮上敦跌,老公的妹妹穿的比我還像新娘。我一直安慰自己逛揩,他們只是感情好柠傍,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著辩稽,像睡著了一般携兵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上搂誉,一...
    開(kāi)封第一講書(shū)人閱讀 51,198評(píng)論 1 299
  • 那天徐紧,我揣著相機(jī)與錄音,去河邊找鬼炭懊。 笑死并级,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的侮腹。 我是一名探鬼主播嘲碧,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼父阻!你這毒婦竟也來(lái)了愈涩?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤加矛,失蹤者是張志新(化名)和其女友劉穎履婉,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體斟览,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡毁腿,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了苛茂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片已烤。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖妓羊,靈堂內(nèi)的尸體忽然破棺而出胯究,到底是詐尸還是另有隱情,我是刑警寧澤躁绸,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布裕循,位于F島的核電站臣嚣,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏费韭。R本人自食惡果不足惜茧球,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望星持。 院中可真熱鬧抢埋,春花似錦、人聲如沸督暂。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)逻翁。三九已至饥努,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間八回,已是汗流浹背酷愧。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留缠诅,地道東北人溶浴。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像管引,于是被迫代替她去往敵國(guó)和親士败。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354