GO富集介紹
每個(gè)基因都會(huì)對(duì)應(yīng)有一個(gè)或多個(gè)GO term(也就是GO功能)系吩。
富集涉及到兩個(gè)概念:前景基因和背景基因。前景基因就是你關(guān)注的要重點(diǎn)研究的基因集绪杏,背景基因就是所有的基因集嵌莉。比如做兩個(gè)樣本對(duì)照組和處理組的轉(zhuǎn)錄組測(cè)序,前景基因就是對(duì)照組vs處理組的差異基因已烤,背景基因就是這兩組樣本的所有表達(dá)基因鸠窗。再比如妓羊,我想知道與整個(gè)廣東省相比,深圳市的大學(xué)生是不是顯著更多(“大學(xué)生”就相當(dāng)于深圳市民的其中一個(gè)GO term)稍计。那么前景就是深圳市的人口躁绸,背景就是廣東省的人口,每個(gè)個(gè)體都會(huì)有一個(gè)標(biāo)簽(如大學(xué)生、中學(xué)生净刮、小學(xué)生等)剥哑。
具體介紹:
Gene Ontology分為分子功能,生物過程和細(xì)胞組成三個(gè)部分淹父。蛋白質(zhì)或者基因可以通過ID對(duì)應(yīng)或者序列注釋的方法找到與之對(duì)應(yīng)的GO號(hào)株婴,而GO號(hào)可對(duì)應(yīng)到Term,即功能類別或者細(xì)胞定位暑认。這也是GO富集的一個(gè)基礎(chǔ)困介。
概念明晰:
功能富集需要有一個(gè)參考數(shù)據(jù)集,通過該項(xiàng)分析可以找出在統(tǒng)計(jì)上顯著富集的GO Term蘸际。該功能或者定位有可能與研究的目的有關(guān)座哩。
GO功能分類是在某一功能層次上統(tǒng)計(jì)蛋白或者基因的數(shù)目或組成,往往是在GO的第二層次粮彤。此外也有研究者挑選一些Term根穷,而后統(tǒng)計(jì)直接對(duì)應(yīng)到該Term的基因或蛋白數(shù)。結(jié)果一般以柱狀圖或者餅圖表
為什么做基因富集分析导坟?
我們?cè)诘玫较嚓P(guān)基因的表達(dá)后屿良,做基因差異分析得到了好多差異基因(p值小的,也就是差異很顯著的基因)惫周,做后續(xù)研究時(shí)不可能將所有差異基因都拿來做實(shí)驗(yàn)驗(yàn)證或者拿出來說明問題管引,這時(shí)候就需要挑選了,那怎么挑選呢闯两?或者說拿什么標(biāo)準(zhǔn)來衡量我挑選的基因是否可信褥伴,有一個(gè)統(tǒng)一的挑選標(biāo)準(zhǔn)嗎?
這就是富集分析需要做的漾狼,能夠給出的結(jié)果重慢。
富集分析一般包括以下步驟:
1.GO分析
根據(jù)挑選出的差異基因,計(jì)算這些差異基因同GO 分類中某(幾)個(gè)特定的分支的超幾何分布關(guān)系逊躁,GO 分析會(huì)對(duì)每個(gè)有差異基因存在的GO 返回一個(gè)p-value似踱,小的p 值表示差異基因在該GO 中出現(xiàn)了富集。
GO 分析對(duì)實(shí)驗(yàn)結(jié)果有提示的作用稽煤,通過差異基因的GO 分析核芽,可以找到富集差異基因的GO分類條目,尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)酵熙。
2.Pathway分析
根據(jù)挑選出的差異基因轧简,計(jì)算這些差異基因同Pathway 的超幾何分布關(guān)系,Pathway 分析會(huì)對(duì)每個(gè)有差異基因存在的pathway 返回一個(gè)p-value匾二,小的p 值表示差異基因在該pathway 中出現(xiàn)了富集哮独。
pathway 分析對(duì)實(shí)驗(yàn)結(jié)果有提示的作用拳芙,通過差異基因的Pathway 分析,可以找到富集差異基因的Pathway 條目皮璧,尋找不同樣品的差異基因可能和哪些細(xì)胞通路的改變有關(guān)舟扎。與GO 分析不同,pathway 分析的結(jié)果更顯得間接悴务,這是因?yàn)槎孟蓿琾athway 是蛋白質(zhì)之間的相互作用,pathway 的變化可以由參與這條pathway 途徑的蛋白的表達(dá)量或者蛋白的活性改變而引起讯檐。而通過芯片結(jié)果得到的是編碼這些蛋白質(zhì)的mRNA 表達(dá)量的變化邦泄。從mRNA 到蛋白表達(dá)還要經(jīng)過microRNA 調(diào)控,翻譯調(diào)控裂垦,翻譯后修飾(如糖基化顺囊,磷酸化),蛋白運(yùn)輸?shù)纫幌盗械恼{(diào)控過程蕉拢,mRNA 表達(dá)量和蛋白表達(dá)量之間往往不具有線性關(guān)系特碳,因此mRNA 的改變不一定意味著蛋白表達(dá)量的改變。
同時(shí)也應(yīng)注意到晕换,在某些pathway 中午乓,如EGF/EGFR 通路,細(xì)胞可以在維持蛋白量不變的情況下闸准,通過蛋白磷酸化程度的改變(調(diào)節(jié)蛋白的活性)來調(diào)節(jié)這條通路益愈。所以芯片數(shù)據(jù)pathway 分析的結(jié)果需要有后期蛋白質(zhì)功能實(shí)驗(yàn)的支持,如Western blot/ELISA夷家,IHC(免疫組化)蒸其,over expression(過表達(dá)),RNAi(RNA 干擾)库快,knockout(基因敲除)摸袁,trans gene(轉(zhuǎn)基因)等。
3.基因網(wǎng)絡(luò)分析
目的:根據(jù)文獻(xiàn)义屏,數(shù)據(jù)庫和已知的pathway 尋找基因編碼的蛋白之間的相互關(guān)系(不超過1000 個(gè)基因)靠汁。
GO數(shù)據(jù)的分析
GO官網(wǎng)的Term enrichment services提供豐富的GO terms分析,可以幫助研究者找到所提交的基因集中是否具有共同的GO術(shù)語或者有共同的上級(jí)GO術(shù)語(某些基因都在某個(gè)GO術(shù)語子集里)闽铐,以幫助發(fā)現(xiàn)哪些輸入基因可能具有某些共同特點(diǎn)(比如說都在某個(gè)催化反應(yīng)中起作用蝶怔,都是某類細(xì)胞器的組成成分,都在某個(gè)通路里執(zhí)行功能等)兄墅。
當(dāng)然踢星,也許我們發(fā)現(xiàn)了(獲得了)一些基因,想知道他在某一個(gè)物種里在哪些部分發(fā)揮功能察迟,他在GO術(shù)語庫中歸屬于哪一個(gè)目錄層次斩狱,這時(shí)GO富集就起作用了。
到哪里找呢扎瓶?
打開GO的官網(wǎng)tools菜單欄里邊選擇對(duì)應(yīng)的工具即可所踊,如下圖所示:
實(shí)例展示
以下為實(shí)例展示GO數(shù)據(jù)庫自帶富集功能,以具體感覺富集的含義:
下面以一份蛋白質(zhì)ID集為例概荷,命名為protein.txt秕岛,格式為每行一個(gè)蛋白質(zhì)ID,
分別使用GO官網(wǎng)提供的兩個(gè)在線分析工具(下圖藍(lán)線)展示
展示一:GO slimmer
設(shè)置如下:
上述設(shè)置你要研究的目標(biāo)基因或基因產(chǎn)物集(protein.txt)误证,基因ID的格式為UniProtKB,要研究的GO參考集(背景集)是宏基因GO條目继薛,提交,等待結(jié)果愈捅。
結(jié)果展示:
生物過程遏考、細(xì)胞組分或者分子功能三大類里的GO術(shù)語選一個(gè),
選擇后具體信息如下:
術(shù)語信息:
本術(shù)語相關(guān)的術(shù)語:
可以用不同形式展示蓝谨,選擇圖表展示(graph view)如下:
在QuickGO里邊查看:
子術(shù)語(Child Terms)灌具,注釋等條目也都會(huì)一一列出來,更多信息各位可以自己去試試譬巫,在此以祖先圖表(Ancestor Chart)為例展示:
可以看到祖先圖表(Ancestor Chart)一欄咖楣,點(diǎn)選表格選項(xiàng)(chart options)可以看到更詳細(xì)的圖標(biāo)內(nèi)容,如下:
局部放大如下:
可以看到各個(gè)GO term子集的GO ID以及GO功能芦昔,連線的不同顏色代表不同的隸屬關(guān)系诱贿,方框中的顏色條也代表不同物種等屬性,這個(gè)具體的說明圖例已經(jīng)給出來了咕缎,如下:
展示二:Enrichment analysis
提交珠十,結(jié)果如下:
點(diǎn)選圖標(biāo),可以以圖表格式查看凭豪,比如選擇通路(pathway)
可以看到protein.txt里的蛋白質(zhì)在這么多通路中起作用宵睦,最顯著的是黃顏色這個(gè)蛋白質(zhì),可以說顯著表達(dá)了墅诡。
其他的選項(xiàng)比如功能分類:
Protein.txt里的蛋白主要還是起結(jié)合蛋白作用(對(duì)應(yīng)歸類到binding這一GO術(shù)語中)的壳嚎。GO數(shù)據(jù)庫提供了其他幾項(xiàng)選項(xiàng),想要詳細(xì)了解的可以自己試一下末早。
總結(jié)
Gene Ontology(GO)包含了基因參與的生物過程烟馅,所處的細(xì)胞位置,發(fā)揮的分子功能三方面功能信息然磷,并將概念粗細(xì)不同的功能概念組織成DAG(有向無環(huán)圖)的結(jié)構(gòu)郑趁。GO常用于提供基因功能分類標(biāo)簽和基因功能研究的背景知識(shí)。利用GO的知識(shí)體系和結(jié)構(gòu)特點(diǎn)姿搜,旨在發(fā)掘與基因差異表達(dá)現(xiàn)象關(guān)聯(lián)的單個(gè)特征基因功能類或多個(gè)特征功能類的組合寡润。
GO富集可以提供基因差異篩選的候選集捆憎,也可以幫助了解前景基因集在功能上的富集,得出基因潛在的可能功能梭纹《愣瑁可以幫助研究者找到所提交的基因集中是否具有共同的GO術(shù)語或者有共同的上級(jí)GO術(shù)語(某些基因都在某個(gè)GO術(shù)語子集里),以幫助發(fā)現(xiàn)哪些輸入基因可能具有某些共同特點(diǎn)(比如說都在某個(gè)催化反應(yīng)中起作用变抽,都是某類細(xì)胞器的組成成分础拨,都在某個(gè)通路里執(zhí)行功能等)。
原文:GO富集分析