Gene Ontology
可分為分子功能(Molecular Function),生物過(guò)程(biological process)和細(xì)胞組成(cellular component)三個(gè)部分散劫。蛋白質(zhì)或者基因可以通過(guò)ID對(duì)應(yīng)或者序列注釋的方法找到與之對(duì)應(yīng)的GO號(hào)魏保,而GO號(hào)可對(duì)于到Term枫笛,即功能類別或者細(xì)胞定位。
?根據(jù)挑選出的差異基因,計(jì)算這些差異基因同GO 分類中某(幾)個(gè)特定的分支的超幾何分布關(guān)系南吮,GO 分析會(huì)對(duì)每個(gè)有差異基因存在的GO 返回一個(gè)p-value花嘶,小的p 值表示差異基因在該GO 中出現(xiàn)了富集笋籽。
GO 分析對(duì)實(shí)驗(yàn)結(jié)果有提示的作用,通過(guò)差異基因的GO 分析椭员,可以找到富集差異基因的GO分類條目车海,尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)。
上一篇提到的Pathway指代謝通路隘击,對(duì)差異基因進(jìn)行pathway分析侍芝,可以了解實(shí)驗(yàn)條件下顯著改變的代謝通路,在機(jī)制研究中顯得尤為重要埋同。
GO分析好比是將基因分門別類放入一個(gè)個(gè)功能類群的籃子竭贩,而pathway則是將基因一個(gè)個(gè)具體放到代謝網(wǎng)絡(luò)中的指定位置。
下面我們來(lái)總結(jié)一下R語(yǔ)言如何做GO分析
1.準(zhǔn)備數(shù)據(jù)莺禁,需要導(dǎo)入與基因?qū)?yīng)的ENTREIZID的數(shù)據(jù)框DEG
因此首先你要先準(zhǔn)備這個(gè)數(shù)據(jù)框留量,這里不詳細(xì)闡述,可自學(xué)ID注釋部分
首先理解一下即將用到的代碼:
#gene: 通路編號(hào)
#"org.Hs.eg.db":OrgDb
#ont: One of "MF", "BP", and "CC" subontologies.
#pvalueCutoff:pvalue的最大值
#pAdjustMethod:多重假設(shè)檢驗(yàn)矯正的方法:"holm", "hochberg", "hommel", "bonferroni", "BH", "BY", "fdr", "none"
#universe: 背景基因-所有測(cè)序的基因
#qvalueCutoff: qvalue的最大值
#minGSSize: minimal size of genes annotated by Ontology term for testing.
#maxGSSize: maximal size of genes annotated for testing
#readable: TRUE\FALSE:是否將基因ID轉(zhuǎn)換為gene symbol
#pool: If ont=’ALL’, whether pool 3 GO sub-ontologies
#細(xì)胞組分
erich.go.CC = enrichGO(gene = DEG$ENTREZID,
OrgDb = org.Hs.eg.db,
keyType = "ENTREZID",
pAdjustMethod = "BH",
ont = "CC",
pvalueCutoff = 0.5,
qvalueCutoff = 0.5,
readable=T)
## 畫圖
barplot(erich.go.CC)
ggsave("erich.go.CC.png")
#生物過(guò)程
erich.go.BP = enrichGO(gene = DEG$ENTREZID,
OrgDb = org.Hs.eg.db,
keyType = "ENTREZID",
ont = "BP",
pvalueCutoff = 0.5,
qvalueCutoff = 0.5,
readable=T)
##分析完成后哟冬,作圖
barplot(erich.go.BP)
#分子功能:
ego_MF <- enrichGO(gene = DEG$ENTREZID,
OrgDb= org.Hs.eg.db,
keyType = "ENTREZID",
ont = "MF",
pvalueCutoff = 0.5,
qvalueCutoff = 0.5)
barplot(ego_MF)
ALL <- enrichGO(gene=DEG$ENTREZID,
OrgDb=org.Hs.eg.db,
keyType = "ENTREZID",
ont = 'ALL',
pvalueCutoff = 0.5,
pAdjustMethod = "BH",
qvalueCutoff = 0.5,
readable=T)
barplot(ALL)
#BB,CC,MF全部顯示出來(lái)
#條形圖
barplot(ALL, split="ONTOLOGY")+ facet_grid(ONTOLOGY~.,scale="free")
#泡泡圖
dotplot(ALL, split="ONTOLOGY")+ facet_grid(ONTOLOGY~.,scale="free")
ALLGO <- as.data.frame(ALL@result)
write.csv(as.data.frame(ALL@result), file="GOALL-ADM.csv",quote=FALSE)
圖形解讀:
#橫坐標(biāo)是GeneRatio楼熄,意思是說(shuō)輸入進(jìn)去的基因,它每個(gè)term(縱坐標(biāo))占整體基因的百分之多少
條形的顏色代表P-value浩峡,顏色代表的P值越小可岂,這事就越可信。