1 GO和KEGG富集分析工具:Clusterprofiler包和REVIGO
進(jìn)行基因功能或生物學(xué)通路富集的工具或網(wǎng)站有很多。像DAVID境氢、IPA臼膏、GATHE等。我基本采用基于R的Clusterprofiler包食棕。該包抓取最新的KEGG數(shù)據(jù)進(jìn)行計(jì)算,保證富集結(jié)果的可靠性错沽。另外簿晓,該包還可以對(duì)富集結(jié)果進(jìn)行比較并可視化(基于ggplot2包:http://ggplot2.org/book/)。具體參數(shù)設(shè)置為:p-value cutoff=0.01, q-value cutoff=0.05, p值矯正方法為BH(即把每個(gè)p-value進(jìn)行矯正千埃,轉(zhuǎn)換為q-value)憔儿。
2 去冗余
因?yàn)镚O條目的分級(jí)特性,其富集結(jié)果會(huì)有冗余放可,對(duì)結(jié)果的分析造成影響谒臼,其中一個(gè)策略是計(jì)算兩個(gè)GO terms之間的語義相似性朝刊,去除冗余。
目前主要有兩類方法:
2.1 計(jì)算語義相似性得分
基于它們的共有父條目的注釋統(tǒng)計(jì)蜈缤,計(jì)算語義相似性得分拾氓,包含Resnik、Lin劫樟、Jiang 和Schlicker四種方法痪枫;
2.2 基于GO圖形結(jié)構(gòu)
Wang提出基于GO的圖形結(jié)構(gòu)進(jìn)行計(jì)算。
以上方法叠艳,各有利弊奶陈,而GOSemsim(GO semantic similarity)是ClusterProfilers包的作者Y叔開發(fā)的計(jì)算GO terms,sets of GO terms附较,gene Cluster語義相似性的包吃粒,并且提供上述的五種語義相似計(jì)算方法。我在進(jìn)行GO terms集的相似性分析時(shí)拒课,一般采取基于Resnik和Lin兩種方法的綜合方法徐勃,簡稱為simRel方法,利用REVIGO進(jìn)行分析早像,然后基于R語言做圖僻肖。
同樣,具體代碼和步驟以后再寫卢鹦,先放圖