Gene ontology enrichment analysis可能是現(xiàn)在生物信息學(xué)里面最常用的分析鸣剪。以前我一般都是用DAVID這個(gè)在線工具來(lái)做钱贯。但是用DAVID有三個(gè)主要問題
DAVID的注釋不全帕涌,很多基因都沒有更新的注釋信息
這個(gè)是DAVID這個(gè)軟件的硬傷DAVID的結(jié)果只是列表虚缎,并沒有好的可視化方式
這樣導(dǎo)致每次做基因富集分析的時(shí)候都需要去挑選冗余Gene ontology,并且費(fèi)時(shí)耗力的去做文章中需要的可視化圖DAVID只支撐3000個(gè)GENE碑幅,更多的就罷工了
已經(jīng)記不得有多少次我的GENE LIST中有3000多個(gè)基因彰触,然后還要去做隨機(jī)篩選的內(nèi)心小崩潰了
這些問題梯投,在clusterprofiler這個(gè)包中都得到了很好的解決。
下面總結(jié)下clusterprofiler包的主要功能,參考資料在https://bioconductor.org/packages/release/bioc/vignettes/clusterProfiler/inst/doc/clusterProfiler.html
gene ID轉(zhuǎn)換
支持orgdb的所有物種分蓖,以及orgdb所包含的所有g(shù)ene ID種類groupGO
函數(shù)來(lái)將列表中的基因根據(jù)相對(duì)于的gene ontology進(jìn)行分類enrichGO
函數(shù)來(lái)做gene ontology富集分析gseGO
函數(shù)來(lái)做gene set enrichment analysis
為何要用gene set enrichment analysis呢吮龄?因?yàn)橐话阕鰀ifferential expressed genes analysis找出的gene都是有著統(tǒng)計(jì)顯著差別的單個(gè)基因,但是有些基因是屬于同一類的(gene set)咆疗,它們單個(gè)的變化并沒有那么大漓帚,但是這同一類基因都發(fā)生了一些變化。這樣午磁,當(dāng)做DEG分析的時(shí)候尝抖,找不出這些基因,但是gsea分析可以把這種差異找出來(lái)迅皇。
這里需要注意一個(gè)問題昧辽。用這個(gè)函數(shù)的時(shí)候,如果要得到典型的gsea的running enrichment score的圖登颓,則必須指定geneSetID搅荞。這就需要先找出現(xiàn)在已經(jīng)富集了幾個(gè)geneSet,然后一個(gè)接一個(gè)的畫出框咙。
enrichKEGG
函數(shù)來(lái)做基因的pathway富集分析完善強(qiáng)大的可視化函數(shù)選擇咕痛,包括了
barplot
,dotplot
,emapplot
,cnetplot
,gseaplot
,browseKEGG
compareCluster
用于比較不同gene list的gene ontology富集情況