拿到一個感興趣的基因集合時贰逾,最常想到的是對它們做富集分析会傲,看一下這些基因可以顯著富集到哪些功能题翰。GO富集是最為常用的方法之一,但是有些時候我們會得到非常多的結(jié)果窖张,其中含有很大的冗余幕随。
前一篇推送分享的文獻(xiàn)中,作者也遇到了這個問題宿接,所以在方法部分特意寫明對GO富集的結(jié)果做了簡化赘淮。今天的推送聚焦于如何簡化GO富集的結(jié)果辕录。
GO富集中結(jié)果的冗余性
上圖是某次GO富集中“MF”的結(jié)果,一共富集到9個顯著的GO term梢卸,其中存在部分術(shù)語是相近的走诞,如7、8蛤高、9蚣旱。
簡化方法1:R-simply函數(shù)
方法一:clusterProfiler包的simplify函數(shù)
我們可以利用clusterProfiler包的simplify函數(shù)對enrichGO的輸出結(jié)果進(jìn)行簡化。以上代碼是Y叔給出的(https://rdrr.io/bioc/clusterProfiler/man/simplify-methods.html)戴陡。
Cutoff設(shè)置為0.7會把9個結(jié)果簡化成6個塞绿,是上圖中紅色框標(biāo)記的。若設(shè)置成0.3恤批,則只剩黃色框標(biāo)記的三個异吻。
簡化方法2:樹狀圖
方法二:樹狀圖
樹狀圖并沒有減少最終得到的GO term,而是依賴于pairwise_termsim()函數(shù)計算的豐富項的成對相似性喜庞,默認(rèn)情況下使用 Jaccard 的相似性指數(shù) (JC)來對GO term進(jìn)行聚類涧黄。
默認(rèn)聚合方法treeplot()是ward.D,用戶可以通過hclust_method參數(shù)指定其他方法(例如赋荆,’average’笋妥、’complete’、’median’窄潭、’centroid’等春宣。
treeplot()函數(shù)會將樹切割成幾個子樹(由nCluster參數(shù)指定(默認(rèn)為 5))并使用高頻詞標(biāo)記子樹。
參考鏈接:https://yanzhongsino.github.io/2022/04/28/bioinfo_enrichment_clusterProfiler.visualization/
簡化方法3:simpleEnrichment包
方法三:simpleEnrichment包
本質(zhì)上也沒有減少GO term嫉你,而是對GO term根據(jù)相似度聚類月帝,然后用詞云圖展示每個cluster的功能。