在我們做完組學項目看報告時經(jīng)常遇到的詞兒就有“富集分析”右蒲,那到底什么是富集分析,它又是用來做什么的赶熟,以及富集分析的結果要怎么查看瑰妄。今天小編就通過自問自答的方式給大家一起科普一下。
1
為什么要做功能富集分析映砖?
組學數(shù)據(jù)得到的差異基因或者物質(zhì)非常多间坐,面對海量數(shù)據(jù)我們無法做到挨個研究、逐一驗證來把待研究現(xiàn)象的機制解析清楚。通過富集分析我們可以把差異基因或者物質(zhì)根據(jù)其功能進行歸類竹宋,這樣具有相似功能的基因或者物質(zhì)就被放在一起劳澄,從而減少工作量,并可以實現(xiàn)功能和表型相關聯(lián)蜈七。
2
什么是富集秒拔?
富集表示差異基因或者差異物質(zhì)中注釋到某個代謝通路的基因或者物質(zhì)數(shù)目在所有差異基因或者物質(zhì)中的比例顯著大于背景基因或物質(zhì)中注釋到某個代謝通路的基因或物質(zhì)數(shù)目在所有背景基因或者物質(zhì)中的比例。
3
常用的富集分析有哪些飒硅?
常用的富集分析包括GO富集分析砂缩、KEGG富集分析以及GSEA富集分析。其中前兩者均基于統(tǒng)計學的超幾何分布三娩,計算出一個p值來確定是否真的富集梯轻。而GSEA的原理是判斷功能基因集中的成員在差異表達基因排序列表中的位置,如果都位于差異表達基因排序列表的頂端或者底部尽棕,則該基因集也是我們需要關注的喳挑。
4
什么是GO富集分析?
我們都知道GO主要是用來看基因的三個方面滔悉,分別是分子功能(比如有催化活性功能)伊诵、細胞組分(如定位在細胞膜上)、參與的生物過程(如參與物質(zhì)運輸?shù)龋┗毓佟K砸粋€基因可能可以同時被定義到GO的這三個層面曹宴。GO富集就是看我們得到的差異基因或者物質(zhì)是否富集在這三個層面的基因集中。舉例說歉提,鐵離子結合的GO term是GO:0005506笛坦,如果我們對所得到的差異基因進行GO富集分析后得到該term富集,則我們可以認為我們所研究的現(xiàn)象可能與鐵離子結合有關系苔巨。由上述信息也可以看出版扩,我們得到的差異基因個數(shù)與富集的GO term的個數(shù)不是一一對應的關系,一個GO term里會有好多個基因侄泽,而一個基因也可以富集在多個term中礁芦。
5
什么是KEGG富集?
KEGG是代謝通路圖悼尾,所以我們得到的是一張展示各個基因或物質(zhì)關系的網(wǎng)狀圖柿扣。例如通過KEGG分析后我們得到其中一條富集通路的編號是map00010(糖酵解/糖異生),則我們可以認為我們所研究的現(xiàn)象的機制與糖酵解/糖異生有關闺魏。同樣未状,可能很多個基因會被富集在同一條通路中,而也有可能很多個基因沒有被富集到析桥,所以差異基因的個數(shù)與KEGG富集結果也不是一一對應的關系司草。
6
什么是GSEA富集分析活翩?
是先把差異表達基因按照表達差異倍數(shù)從大到小進行排序,然后看某一個基因集下的所有基因主要位于這個排列順序的前面還是后面部分翻伺,如果在前面則表示該基因是上調(diào);如果在后面則表示基因是下調(diào)沮焕,所以吨岭,GSEA富集主要關注兩端的基因。
7
GO峦树、KEGG和GSEA富集分析
的區(qū)別是什么辣辫?
GO是用來找差異基因引起的功能改變,KEGG是用于尋找通路上的影響魁巩。GO/KEGG對差異基因的富集需要明確的閾值急灭,這樣容易漏掉部分有重要生物學意義的基因。GSEA不需要指定明確的差異基因閾值谷遂,算法根據(jù)實際整體趨勢分析葬馋,所以結果可以補充GO和KEGG的富集分析。
8
是否可以在線富集分析肾扰?
可以畴嘶,常用的在線富集分析網(wǎng)站有DAVID(https://david.ncifcrf.gov/)和KOBAS(http://kobas.cbi.pku.edu.cn/),兩者都可以在線進行GO或者KEGG富集分析集晚。
9
GO富集分析文件結果如何看窗悯?
一般GO富集分析后會看到這樣的表格,第一列表示GO的三個levels偷拔,ID表示 GO數(shù)據(jù)庫ID蒋院,Decription:表示該GO term的功能描述,GeneRAatio:富集到該term里的差異基因數(shù)/全部差異基因數(shù)莲绰,BgRatio:該term的全部基因數(shù)/該物種全部有GO注釋信息的基因數(shù)欺旧,pvalue是p值,p.adjust表示矯校正過的p值蛤签,qvalue是q值切端,geneID表示富集到該term里的基因的名稱,Count表示富集到該term中的差異基因的數(shù)目顷啼。
10
GO富集分析結果圖怎么看踏枣?
GO注釋的結果一般有三種展示形式,第一種是有向無環(huán)圖(DAG钙蒙,directed-acyclic-graph)茵瀑,第二種是柱狀圖,第三種是氣泡圖躬厌。下面依次來做介紹马昨。
(1)有向無環(huán)圖:
箭頭表示上下層級關系竞帽;橢圓形表示富集程度沒有在前10的GO terms;方框表示富集程度在前10的GO terms鸿捧。顏色表示差異基因在GO term里的富集程度屹篓,顏色越深則表示富集越顯著,紅色代表富集最顯著的匙奴,黃色是富集次之的堆巧,無色表示富集不顯著∑镁框內(nèi)的第一行表示GO的term編號谍肤,第二行表示該term的功能描述,第三行表示p值哗伯,最后一行數(shù)字表示該研究中富集到該term中的差異基因數(shù)/該term中全部差異基因數(shù)荒揣。
(2)柱狀圖
富集的柱狀圖或者氣泡圖一般會選擇前10或者前20個進行作圖。x軸一般有幾種情況焊刹,如count/Gene Ratio/-Log10(padj)系任。柱子越長說明該條目下基因數(shù)越多、富集后越顯著虐块。y軸表示富集條目赋除,GO富集下面有三個level,不同level可以使用不同顏色區(qū)分非凌,也可以像下圖這樣做成不同的框圖举农。
(3)氣泡圖
x軸是一個比值(Rich Factor/GeneRatio/ (GeneRatio / BgRatio ))或者差異表達倍數(shù),值越大敞嗡,富集到該通路的差異代謝物/蛋白質(zhì)/基因富集程度越高颁糟。Y軸表示富集出來的GO或者通路名稱,挑選富集通路前20或30的通路來繪圖喉悴;點的大小表示Gene數(shù)目棱貌,點越大,表示富集到該通路的基因越多箕肃;顏色代表P值的高低婚脱,-log10(Pvalue)越大,P值越小勺像,表示該通路越顯著障贸。
11
KEGG富集分析結果怎么看?
KEGG富集結果與GO結果類似吟宦,ID表示KEGG的PATHWAY數(shù)據(jù)庫中途徑標識篮洁,Description是該通路的描述,GeneRAatio:富集到該通路里的差異基因數(shù)/全部可以富集到KEGG里的差異基因數(shù)殃姓,BgRatio:該通路的全部基因數(shù)/該物種全部有KEGG信息的基因數(shù)袁波,pvalue是p值瓦阐,p.adjust表示矯校正過的p值,qvalue是q值篷牌,geneID表示富集到該通路里的基因的名稱睡蟋,Count表示富集到該通路中的差異基因的數(shù)目。
12
GSEA富集結果如何查看枷颊?
GSEA全稱是Gene Set Enrichment Analysis 戳杀,GSEA的富集結果也分為對GO的富集以及KEGG富集,兩者結果差不多偷卧,這里以對KEGG的富集結果為例做介紹。ID表示KEGG的PATHWAY數(shù)據(jù)庫中途徑標識吆倦,Description是該通路的描述听诸,setSize:富集到該通路下的基因數(shù),enrichmentScore是富集分數(shù)蚕泽,NES表示歸一化后的富集分數(shù)晌梨, pvalue是p值,p.adjust表示矯校正過的p值须妻,qvalue是q值仔蝌,rank是在基因集中對ES分數(shù)貢獻最大的核心基因在基因表排序中的位置(按照log2FC從大到小的排序),leading_edge中tags表示核心基因在該基因集基因總數(shù)的占比荒吏,list表示核心基因占所有基因總數(shù)的比例敛惊,signal利用這兩個指標計算得到,core_enrichment表示富集到該通路的基因列表绰更。其中ES或者NES>0瞧挤,則說明該通路高表達,反之儡湾,則認為該通路被抑制特恬。
13
GSEA富集結果圖如何查看?
GSEA富集圖主要有三部分組成徐钠,最上面一部分是縱坐標為Enrichment score的這一塊癌刽,這是把該通路里所有基因的富集分數(shù)連成一條線得到的,最高峰就是富集得分(ES)尝丐,一般在最左側(cè)或者最右側(cè)有個明顯峰的通路是我們可以深入研究的通路显拜。第二部分是類似條形碼的中間部分,每一條黑線表示一個基因爹袁,這些基因是按照極陰極里的排序位置進行定位的讼油。條形碼下面的紅色部分表示在目的樣本中高表達,后面紫色部分表示在對照組中高表達呢簸。第三部分為所有基因的rank值分布圖矮台,縱坐標為ranked list metric乏屯,即該基因排序量的值,可理解為公式化處理后的FC值瘦赫。