GO和KEGG富集方法以及簡(jiǎn)單富集圖的繪制
一、需要準(zhǔn)備文件:
基因列表(可以是差異分析的結(jié)果文件或者取交集的交集基因等肌毅,有標(biāo)志的基因Symbol名稱即可)掺炭,測(cè)試文件為DEG_result.csv
1)這個(gè)DEG(差異表達(dá)基因)表格包含了基因的統(tǒng)計(jì)分析結(jié)果矫限。各列的含義如下:
- logFC:對(duì)數(shù)轉(zhuǎn)換的折疊變化(log Fold Change)。表示某基因在實(shí)驗(yàn)組與對(duì)照組之間的表達(dá)變化量转质。值為負(fù)表示基因在實(shí)驗(yàn)組的表達(dá)水平低于對(duì)照組园欣,值為正則表示實(shí)驗(yàn)組中該基因的表達(dá)高于對(duì)照組。在這個(gè)表格中休蟹,KLF9沸枯、CEBPD和SLC19A2都是負(fù)值日矫,意味著這些基因在實(shí)驗(yàn)組中的表達(dá)低于對(duì)照組。
- AveExpr:平均表達(dá)值(Average Expression)绑榴。表示該基因在所有樣本中的平均表達(dá)水平哪轿。數(shù)值越大,表示該基因的表達(dá)水平越高翔怎。例如窃诉,KLF9的平均表達(dá)為5.34,說(shuō)明它在樣本中的表達(dá)水平較高赤套。
- t:t值飘痛,表示差異表達(dá)基因的統(tǒng)計(jì)顯著性。t值越大(無(wú)論是正值還是負(fù)值)容握,表示該基因在兩組間的差異越顯著宣脉。在這個(gè)表格中,KLF9的t值為-17.49剔氏,說(shuō)明它的表達(dá)差異非常顯著塑猖。
- pvalue:P值,用于評(píng)估該基因差異表達(dá)的統(tǒng)計(jì)顯著性介蛉。P值越小萌庆,表示該基因的差異表達(dá)越顯著溶褪。例如币旧,KLF9的P值為2.12E-14,遠(yuǎn)小于0.05猿妈,說(shuō)明該基因的差異表達(dá)具有極高的顯著性吹菱。
- padj:調(diào)整后的P值,通常使用Benjamini-Hochberg(BH)方法或其他方法來(lái)校正多重假設(shè)檢驗(yàn)帶來(lái)的假陽(yáng)性率彭则。padj值越小鳍刷,表示差異表達(dá)結(jié)果越可靠。KLF9的padj值為2.59E-10俯抖,表示即使考慮到多個(gè)假設(shè)檢驗(yàn)输瓜,該基因的差異表達(dá)依然是非常顯著的。
- B:貝葉斯統(tǒng)計(jì)量(B-statistic)芬萍。這是一種基于貝葉斯模型的評(píng)估標(biāo)準(zhǔn)尤揣,反映了基因是否有顯著的差異表達(dá)。數(shù)值越大柬祠,表示該基因的差異表達(dá)越可信北戏。例如,KLF9的B值為22.25漫蛔,說(shuō)明它的差異表達(dá)顯著且可信嗜愈。
總結(jié):
① logFC:表示基因在兩組之間的表達(dá)差異旧蛾,負(fù)值表示實(shí)驗(yàn)組中的表達(dá)低于對(duì)照組。
② AveExpr:基因的平均表達(dá)水平蠕嫁。
③ t:差異的統(tǒng)計(jì)顯著性锨天,t值越大表示差異越顯著。
④ pvalue:P值剃毒,表示差異表達(dá)的統(tǒng)計(jì)顯著性绍绘。
⑤ padj:多重檢驗(yàn)調(diào)整后的P值,控制假陽(yáng)性率迟赃。
⑥ B:貝葉斯統(tǒng)計(jì)量陪拘,反映差異表達(dá)的可信度。
二纤壁、KEGG 富集分析左刽,并生成三個(gè)圖形:條形圖、氣泡圖和小弦圖酌媒。
1.KEGG 富集分析
① R.utils::setOption("clusterProfiler.download.method", "auto"):該選項(xiàng)指定了下載 KEGG 注釋時(shí)使用的方式欠痴。"auto" 表示自動(dòng)選擇合適的下載方式。
② enrichKEGG():使用 clusterProfiler 包的 enrichKEGG 函數(shù)進(jìn)行 KEGG 富集分析秒咨。它基于給定的基因集喇辽,計(jì)算這些基因在 KEGG 通路中的富集程度。
③ gene = Gene$ENTREZID:Gene$ENTREZID 應(yīng)該是你基因數(shù)據(jù)框中的基因 ID 列雨席,這里是 ENTREZ ID菩咨。
④ organism = 'hsa':選擇物種為人類(hsa 表示 Homo sapiens)。
⑤ keyType = 'kegg':指定輸入的基因 ID 類型是 KEGG ID陡厘。
⑥ pvalueCutoff = 0.05:設(shè)置 p 值的閾值為 0.05抽米。
⑦ qvalueCutoff = 0.2:設(shè)置 q 值的閾值為 0.2。
⑧ pAdjustMethod = 'BH':選擇 Benjamini-Hochberg 方法對(duì) p 值進(jìn)行調(diào)整糙置,以減少假陽(yáng)性云茸。
在運(yùn)行時(shí),enrichKEGG() 會(huì)從 KEGG 數(shù)據(jù)庫(kù)在線下載相關(guān)注釋數(shù)據(jù)谤饭,輸出一個(gè) enrichResult 對(duì)象标捺,存儲(chǔ) KEGG 富集分析的結(jié)果。
2揉抵、將結(jié)果設(shè)置為可讀格式
① setReadable(kegg, 'org.Hs.eg.db', 'ENTREZID'):這個(gè)步驟將富集結(jié)果中的基因 ID 轉(zhuǎn)換為人類基因符號(hào)(gene symbols)亡容。org.Hs.eg.db是Bioconductor提供的數(shù)據(jù)庫(kù),包含了關(guān)于人類基因的信息功舀,ENTREZID是轉(zhuǎn)換前的基因 ID 類型萍倡。
3、查看富集分析結(jié)果的條目數(shù)辟汰,并保存文件
①?nrow(kegg):查看 KEGG 富集結(jié)果中有多少個(gè)條目列敲。這將返回富集結(jié)果的通路數(shù)量阱佛。
4、繪制 KEGG 條形圖
① pdf(file = "fig4.KEGG_barplot.pdf", width = 6.8, height = 7.2):在生成一個(gè) PDF 文件來(lái)保存圖形戴而,圖形的寬度和高度分別為 6.8 和 7.2凑术。
② barplot():使用 clusterProfiler 包中的 barplot() 函數(shù)來(lái)繪制富集結(jié)果的條形圖。
③ kegg:輸入的 KEGG 富集分析結(jié)果所意。
④ title = '':去除標(biāo)題淮逊,你可以自定義標(biāo)題。
⑤ color = 'p.adjust':條形圖的顏色依據(jù) p 值調(diào)整扶踊。
⑥ showCategory = 15:顯示前 15 個(gè)富集通路泄鹏。
⑦ font.size = 12:條目字體大小設(shè)置為 12。
⑧ scale_y_discrete(labels = function(y) stringr::str_wrap(y, width = 45)):通過(guò) stringr::str_wrap() 函數(shù)設(shè)置 Y 軸標(biāo)簽的換行秧耗,使得每個(gè)標(biāo)簽最多顯示 45 個(gè)字符备籽,以防止標(biāo)簽過(guò)長(zhǎng)。
5分井、繪制 KEGG 氣泡圖
① dotplot():使用 clusterProfiler 包中的 dotplot() 函數(shù)繪制 KEGG 富集分析的氣泡圖车猬。
② showCategory = 15:顯示前 15 個(gè)富集通路。
③ font.size = 12:字體大小尺锚。
④ label_format = 40:控制標(biāo)簽的寬度珠闰,避免標(biāo)簽過(guò)長(zhǎng)。
⑤ color = 'p.adjust':設(shè)置顏色根據(jù) p 值調(diào)整瘫辩。
⑥ scale_y_discrete(labels = function(y) stringr::str_wrap(y, width = 45)):同樣設(shè)置 Y 軸標(biāo)簽的換行伏嗜,以保證標(biāo)簽的顯示效果。
6杭朱、繪制 KEGG 小弦圖
①?cnetplot():使用 clusterProfiler 包中的 cnetplot() 函數(shù)繪制 KEGG 富集分析的小弦圖(circle network plot)阅仔。該圖展示了 KEGG 通路中的基因與通路之間的關(guān)系吹散。
② showCategory = 6:顯示前 6 個(gè)富集通路弧械。
③ circular = TRUE:設(shè)置為圓形布局。
④ colorEdge = TRUE:邊緣使用顏色表示空民。
⑤ node_label = "category":節(jié)點(diǎn)標(biāo)簽為類別刃唐。
⑥ cex_gene = 1 和 cex_label_category = 1:設(shè)置基因節(jié)點(diǎn)和類別標(biāo)簽的大小。
7界轩、可視化結(jié)果
三画饥、GO 富集分析,并生成三個(gè)圖形:條形圖浊猾、氣泡圖和小弦圖抖甘。
1、安裝包葫慎,并載入數(shù)據(jù)
2衔彻、保存結(jié)果
3薇宠、可視化繪圖
4、結(jié)果
生物信息學(xué)領(lǐng)域非常廣泛艰额,難以一次說(shuō)盡澄港。我們下次繼續(xù)更新,一起深入學(xué)習(xí)生物信息學(xué)的內(nèi)容柄沮!
喜歡的寶子們點(diǎn)個(gè)贊吧~碼字不易回梧,且行且珍惜~