富集分析可以繪制很多不同的圖形和兩種結(jié)果表
一、兩種結(jié)果表
1漾峡、GO富集分析結(jié)果以及表頭各列的含義如下:
1)ONTOLOGY:表示GO分類的種類攻旦,通常有三個(gè)主要的類別:
① BP:生物過程(Biological Process)
② CC:細(xì)胞組成(Cellular Component)
③ MF:分子功能(Molecular Function)
2)ID:GO條目的編號(hào),唯一標(biāo)識(shí)某個(gè)GO術(shù)語(例如GO:0008150代表生物過程類別中的“生物學(xué)過程”)生逸。
3)Description:GO條目的描述牢屋,通常會(huì)簡(jiǎn)要說明該GO條目所涉及的生物學(xué)概念或功能。
4)GeneRatio:基因比率槽袄,指的是在某一GO條目富集的基因數(shù)與輸入基因總數(shù)的比值烙无。例如,若某GO條目包含10個(gè)基因遍尺,而輸入基因集總共有100個(gè)基因截酷,則GeneRatio為10/100 = 0.1。
5)BgRatio:背景比率乾戏,指的是在所有背景基因(通常是參考基因集)中屬于某一GO條目的基因數(shù)與所有背景基因總數(shù)的比值迂苛。它幫助確定某GO條目在輸入基因集中的顯著性三热。
6)RichFactor:富集因子,表示基因比率與背景比率的比值(GeneRatio / BgRatio)三幻。該值用于衡量某一GO條目相較于背景的富集程度就漾,富集因子越大,說明該GO條目在輸入基因集中越富集赌髓。
7)FoldEnrichment:富集倍數(shù)从藤,類似于富集因子,用來衡量目標(biāo)基因集在某一GO條目中的富集程度锁蠕。與RichFactor類似夷野,越大表示越富集。
8)zScore:Z得分荣倾,反映某GO條目富集的統(tǒng)計(jì)顯著性悯搔。較大的zScore值(正數(shù))表明該GO條目較為顯著地富集,負(fù)值則表示較少富集舌仍。
9)pvalue:P值妒貌,表示某個(gè)GO條目富集的統(tǒng)計(jì)顯著性。P值越小铸豁,富集結(jié)果越顯著灌曙。
10)p.adjust:經(jīng)過多重檢驗(yàn)校正后的P值。為了控制假陽性率节芥,通常會(huì)進(jìn)行FDR(假發(fā)現(xiàn)率)校正在刺,調(diào)整后的P值比原始P值更可靠。
11)qvalue:調(diào)整后的P值头镊,通常與p.adjust相似蚣驼,主要用于控制假陽性率的影響,確保結(jié)果的可靠性相艇。
12)geneID:富集在該GO條目中的基因列表颖杏。顯示哪些基因符合該GO條目的富集標(biāo)準(zhǔn)。
13)Count:在該GO條目中富集的基因數(shù)量。
2、KEGG富集分析結(jié)果的表頭各列的含義如下:
1)category:KEGG路徑分類。表示該通路所屬的一級(jí)分類。例如殴泰,代謝通路(Metabolism)、信號(hào)轉(zhuǎn)導(dǎo)通路(Signal Transduction)凡泣、免疫系統(tǒng)(Immune System)等藏鹊。
2)subcategory:KEGG路徑的二級(jí)分類。進(jìn)一步細(xì)分通路的類別膘盖,通常反映了更具體的生物學(xué)功能或機(jī)制胧弛。例如尤误,代謝通路下的二級(jí)分類可能包括“氨基酸代謝”、“糖類代謝”等结缚。
3)ID:KEGG通路的ID(編號(hào))损晤,是該通路在KEGG數(shù)據(jù)庫中的唯一標(biāo)識(shí)符。例如红竭,hsa00010代表“糖酵解通路”在KEGG數(shù)據(jù)庫中的ID尤勋。
4)Description:KEGG通路的描述,簡(jiǎn)要說明該通路的功能或生物學(xué)意義茵宪。例如最冰,“糖酵解通路”描述了糖類分解為能量的過程。
5)GeneRatio:基因比率稀火,指的是在某一KEGG通路中富集的基因數(shù)與輸入基因總數(shù)的比值暖哨。例如,如果某通路包含10個(gè)基因凰狞,而輸入基因集總共有100個(gè)基因篇裁,那么GeneRatio為 10/100 = 0.1。
6)BgRatio:背景比率赡若,指的是在背景基因集(通常是參考基因集)中屬于某個(gè)KEGG通路的基因數(shù)與背景基因總數(shù)的比值达布。這個(gè)比率用于衡量該通路在背景基因集中的分布情況。
7)RichFactor:富集因子逾冬,表示基因比率與背景比率的比值(GeneRatio / BgRatio)黍聂。富集因子越高,說明該KEGG通路在輸入基因集中的富集程度越高粉渠。
8)FoldEnrichment:富集倍數(shù)分冈,類似于富集因子,用于衡量輸入基因集中某一KEGG通路的富集程度霸株。富集倍數(shù)越大雕沉,說明該通路在輸入基因集中的富集程度越高。
9)zScore:Z得分去件,反映某個(gè)KEGG通路富集的統(tǒng)計(jì)顯著性坡椒。較大的zScore(通常為正值)表示該通路較為顯著地富集,負(fù)值則表示較少富集尤溜。
10)pvalue:P值倔叼,表示某個(gè)KEGG通路富集的統(tǒng)計(jì)顯著性。P值越小宫莱,表示富集結(jié)果越顯著丈攒。
11)p.adjust:經(jīng)過多重檢驗(yàn)校正后的P值。為了減少假陽性結(jié)果,通常會(huì)進(jìn)行FDR(假發(fā)現(xiàn)率)校正巡验。調(diào)整后的P值比原始P值更加可靠际插。
12)qvalue:調(diào)整后的P值,與p.adjust類似显设,表示經(jīng)過多重檢驗(yàn)校正后的顯著性框弛。q值通常用于控制假發(fā)現(xiàn)率,確保結(jié)果的可靠性捕捂。
13)geneID:富集在該KEGG通路中的基因列表瑟枫。顯示哪些基因符合該KEGG通路的富集標(biāo)準(zhǔn)。
14)Count:富集在該KEGG通路中的基因數(shù)量指攒,表示輸入基因集中有多少個(gè)基因被分配到了該KEGG通路中慷妙。
二、各種富集圖的說明
1.?KEGG條形圖(Barplot)
1)解析:
-X軸:顯示的是KEGG通路上的基因數(shù)目澡屡。
-Y軸:顯示的是KEGG通路的名稱(每個(gè)條形代表一個(gè)通路)猿挚。
-條形的顏色:條形的顏色表示調(diào)整后的p值(p.adjust),通常顏色越深表示p值越小驶鹉,通路富集的顯著性越高绩蜻。
-顯示數(shù)量:showCategory = 15表示只顯示排名前15的 KEGG 通路。
2)圖的解讀:
-長(zhǎng)度較長(zhǎng)的條形代表該通路在你的基因集中的富集較高室埋。
-p值越小办绝,通路越顯著。
-可以通過顏色的深淺看到富集的顯著性:顏色較深表示該通路具有較低的p值姚淆,富集較為顯著孕蝉。
2. KEGG氣泡圖(Dotplot)
解析:
-X軸:基因比率。若值越高搏讶,代表在所研究的基因集中佳鳖,與特定通路相關(guān)的基因占比較高。這可能意味著該通路在所研究的生物學(xué)問題中扮演重要角色媒惕。
-Y軸:表示每個(gè)通路的富集程度(通路的名稱)系吩。
-氣泡的大小:氣泡的大小通常表示該通路中的富集基因數(shù)量。氣泡越大妒蔚,代表該通路中的基因數(shù)量越多穿挨。
-氣泡的顏色:氣泡的顏色根據(jù)p.adjust值來表示月弛,顏色越深表示該通路的富集越顯著,p值越小絮蒿。
-顯示數(shù)量:showCategory = 15也表示僅顯示排名前15的通路尊搬。
圖的解讀:
-每個(gè)氣泡代表一個(gè)KEGG通路叁鉴,氣泡的大小和顏色反映了該通路富集的強(qiáng)度土涝。
-如果氣泡較大且顏色較深,說明該通路不僅富集程度較高幌墓,而且具有較高的顯著性但壮。
-氣泡圖可以幫助你快速識(shí)別出既富集基因數(shù)量多,又富集顯著的KEGG通路常侣。
3. KEGG小弦圖(Cnetplot)
解析:
節(jié)點(diǎn):
-基因節(jié)點(diǎn)(Gene Nodes):展示了參與KEGG通路富集的基因溯祸。
-通路節(jié)點(diǎn)(Category Nodes):展示了被富集的KEGG通路。每個(gè)通路是一個(gè)節(jié)點(diǎn)舞肆。
-邊緣:邊緣連接基因和KEGG通路焦辅,表示基因和通路之間的關(guān)系。邊緣的顏色和粗細(xì)通常表示邊緣的顯著性或其他相關(guān)屬性椿胯。
-圓形布局:整個(gè)圖呈現(xiàn)圓形布局筷登,通路節(jié)點(diǎn)和基因節(jié)點(diǎn)通過邊緣連接,形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)哩盲。
-節(jié)點(diǎn)標(biāo)簽:我這里選擇了node_label = "category"前方,意味著節(jié)點(diǎn)標(biāo)簽為通路的名稱。如果設(shè)置為"gene"廉油,則會(huì)顯示基因名稱惠险。
圖的解讀:
-節(jié)點(diǎn)大小:節(jié)點(diǎn)的大小通常代表該通路中的基因數(shù)量或富集程度。較大的節(jié)點(diǎn)表示該通路中的富集基因更多抒线。
-顏色和邊緣:邊緣的顏色表示顯著性班巩,顏色較深的邊緣連接表示該通路與基因的富集關(guān)系更為顯著。
-基因與通路的關(guān)系:通過小弦圖十兢,你可以清晰地看到哪些基因參與了哪些KEGG通路趣竣,并且可以觀察到不同通路之間的相互關(guān)系。
總結(jié):
在KEGG中旱物,①?條形圖和氣泡圖主要用于展示KEGG通路的顯著性和富集程度遥缕,可以幫助你從全局上看到哪些通路被顯著富集。②?小弦圖則側(cè)重于基因和通路之間的關(guān)系宵呛,適合用來揭示基因在各個(gè)通路中的分布和富集情況单匣。
4、GO條形圖(Barplot)、氣泡圖(Dotplot)
與KEGG不同的是户秤,GO的氣泡圖和條形圖分為三小類码秉。
① BP:生物過程(Biological Process)
② CC:細(xì)胞組成(Cellular Component)
③ MF:分子功能(Molecular Function)
5、GO小弦圖(Cnetplot)
解析:
節(jié)點(diǎn):
-基因節(jié)點(diǎn)(Gene Nodes):展示了參與GO通路富集的基因鸡号。
-通路節(jié)點(diǎn)(Category Nodes):展示了被富集的GO通路转砖。每個(gè)通路是一個(gè)節(jié)點(diǎn)。
-邊緣:邊緣連接基因和GO通路鲸伴,表示基因和通路之間的關(guān)系府蔗。邊緣的顏色和粗細(xì)通常表示邊緣的顯著性或其他相關(guān)屬性。
-圓形布局:整個(gè)圖呈現(xiàn)圓形布局汞窗,通路節(jié)點(diǎn)和基因節(jié)點(diǎn)通過邊緣連接姓赤,形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。
-節(jié)點(diǎn)標(biāo)簽:我這里選擇了node_label = "category"仲吏,意味著節(jié)點(diǎn)標(biāo)簽為通路的名稱不铆。如果設(shè)置為"gene",則會(huì)顯示基因名稱裹唆。
圖的解讀:
-節(jié)點(diǎn)大惺某狻:節(jié)點(diǎn)的大小通常代表該通路中的基因數(shù)量或富集程度。較大的節(jié)點(diǎn)表示該通路中的富集基因更多品腹。
-顏色和邊緣:邊緣的顏色表示顯著性岖食,顏色較深的邊緣連接表示該通路與基因的富集關(guān)系更為顯著。
-基因與通路的關(guān)系:通過小弦圖舞吭,你可以清晰地看到哪些基因參與了哪些GO通路泡垃,并且可以觀察到不同通路之間的相互關(guān)系。
6羡鸥、富集圈圖(Enrichment Circle Plot)
從外到內(nèi)共4個(gè)track蔑穴,中間的為圖例(從上到下依次為:分類,p值惧浴,上調(diào)或者下調(diào))
- 分類track
相同顏色的為同一分類存和,例如黃色表示BP,藍(lán)色表示MF衷旅,最外圈刻度表示總的基因數(shù)捐腿,10的次方表示∈炼ィ總的基因數(shù)即圖2中所有黃色圈所包含的基因去重后的基因數(shù)茄袖,或者推薦使用比所有條目中基因數(shù)最大值更大的一個(gè)值(一般設(shè)置為整百或者整千)。
-? term里邊的基因數(shù)
矩形長(zhǎng)度表示該term中包含的基因數(shù)(例如GO:0031625這個(gè)term中包含306個(gè)基因)嘁锯,與最外圈的刻度成比例宪祥。矩形的顏色表示該term的富集p值(或者FDR值聂薪,q值等,經(jīng)過-log10轉(zhuǎn)化)蝗羊,顏色越深表示P越小藏澳。
- 重疊基因數(shù)
矩形長(zhǎng)度表示該term中包含的基因與進(jìn)行基因富集分析時(shí)所輸入的基因的重疊基因數(shù)。例如進(jìn)行富集分析的基因有500個(gè)耀找,其中與GO:0031625中306個(gè)基因重疊的基因?yàn)?8個(gè)翔悠。由于這個(gè)數(shù)字一般較小,因此矩形的長(zhǎng)度與該track中最的基因數(shù)成比例涯呻。一般我們要么使用up的基因凉驻,要么使用down的基因進(jìn)行富集分析,因此這里僅一種顏色复罐。
- 富集分?jǐn)?shù)bar
Bar的高度即第三個(gè)track里的基因數(shù)占第二個(gè)track里對(duì)應(yīng)基因數(shù)的比例。數(shù)值范圍為0到1雄家,這里每個(gè)小圈表示0.2效诅。
圓圈 從外向內(nèi)看
- 第1圈是通路編號(hào)和分類,具體編號(hào)對(duì)應(yīng)什么通路名稱可以在代碼輸出的Excel文件中查詢趟济;
- 第2圈表示這個(gè)通路有多少個(gè)基因乱投;
- 第3圈分為兩種顏色,二者加和始終是一樣的顷编,表示高表達(dá)基因的數(shù)目戚炫,深色表示其中有多少基因?qū)儆谶@個(gè)通路,淺色是不屬于這個(gè)通路的基因數(shù)目媳纬;
- 第4圈是富集因子双肤,等于差異基因中落到這個(gè)通路的基因數(shù)除以這個(gè)通路的基因總數(shù)(第三圈深色除以第二圈)
- 內(nèi)部標(biāo)簽是,基因數(shù)量钮惠、上調(diào)茅糜、下調(diào)、富因子 (0-1)素挽。
7蔑赘、Z-score氣泡圖(Z-score Bubble Plot)
- 氣泡的大兴跞:通常代表該GO條目或KEGG通路中富集的基因數(shù)或GeneRatio。較大的氣泡表示富集程度較高撰糠。
- 氣泡的顏色:表示z-score值酥馍。z-score反映了富集的顯著性,通常為正值時(shí)表示富集顯著窗慎,- 負(fù)值表示富集較弱物喷。顏色的深淺或漸變通常用來表示z-score的值卤材。
解讀:
- 大氣泡表示該GO條目或KEGG通路富集的基因數(shù)較多,富集程度較高峦失。
- 顏色深的氣泡通常表示該GO條目或KEGG通路的富集顯著性較高(通常對(duì)應(yīng)正的z-score)扇丛。
- 負(fù)的z-score值表示富集較弱或不顯著,而正的z-score值表示富集程度顯著尉辑。
生物信息學(xué)領(lǐng)域非常廣泛帆精,難以一次說盡。我們下次繼續(xù)更新隧魄,一起深入學(xué)習(xí)生物信息學(xué)的內(nèi)容卓练!
喜歡的寶子們點(diǎn)個(gè)贊吧~碼字不易,且行且珍惜~