正在做GO和KEGG畏妖,感覺之前理解的不夠透徹.. 現(xiàn)在把自己理解的整理一下
理論基礎(chǔ):超幾何分布
超幾何分布理解:從一個箱子里不放回的取球,取到某種顏色球的概率踢代。
超幾何分布記作X~H(n,M,N)
超幾何分布在R中的命令
#100個白球400個紅球先鱼,取50次,取到10個白球的概率
dhyper(10,100,400,50,log=FALSE)
0.1474
#100個白球400個紅球奸鬓,取50次焙畔,取到小于等于10個白球的概率
phyper(10,100,400,50)
0.5851
R中help文檔中的描述,做quantile function的時候
Description
Density, distribution function, quantile function and random generation for the hypergeometric distribution.
Usage
dhyper(x, m, n, k, log = FALSE)
phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE)
rhyper(nn, m, n, k)
關(guān)于GO和富集的一點(diǎn)理解:
- GO terms是對基因的產(chǎn)物進(jìn)行描述串远,而不是基因本身進(jìn)行描述宏多,因為基因本身的產(chǎn)物有時候不止一種。
- GO注釋(GO annotations)庫澡罚,它主要是為GO terms提供注釋伸但,也就是描述這個GO terms有什么功能(例如某些基因的產(chǎn)物是什么,是蛋白質(zhì)留搔,還是非編碼RNA更胖,還是大分子等)。
-
GO富集分析主要關(guān)注兩點(diǎn):前景基因和背景基因隔显。
比如却妨,這是goatools的結(jié)果:
ratio_in_study(110/220) 即前景基因的情況,研究的220個基因(差異基因分析所得或其他)中有110個落在該GO term上;
ratio_in_pop(3167/19230) 即背景基因的情況括眠,該個體中所有的表達(dá)基因彪标,即19230個基因,落在該GO term中的基因數(shù)為3167;
P值即是這個兩個比值的顯著性差異掷豺,通過超幾何分布計算概率所得:即 一個個體內(nèi)捞烟,有3167個基因落在該GO term上,不在該GO term上的基因數(shù)為19230-3167個当船,從中取220個基因题画,落在該GO的基因數(shù)為110個的概率。
富集方法及GO term的查詢
python /.../goatools/scripts/find_enrichment.py <fg.genelist> <bg.genelist> <association_file> --outfile <outfile> --obo /../go-basic_20180701.obo --pval 0.05
說明:
- fg.genelist和bg.genelist就是研究的前景和背景基因文件德频,每行一個基因名
- association文件即每個基因?qū)?yīng)的GO號苍息,兩列,第一列為基因名第二列為GO號
-
obo: 官網(wǎng)下載的GO信息文件抱婉,大概情況如下:
4.ClusterProfiler
R包档叔,很有名了踢星,隨便搜搜都是參考信息啊估盘,簡單說一下骤菠,就是bitr這個方法轉(zhuǎn)化基因ID,然后用enrichGO和enrichKEGG進(jìn)行分析就ok了患亿。
簡書
既然講到轉(zhuǎn)化基因ID,那就講講基因ID的那些事吧:
HGNC:11998
淺談entrezID
常用數(shù)據(jù)庫 ID
關(guān)于GO term的理解:
namespace:biological_process
namespace在GO中共有三種BP(biological_process)、MF(molecular_function)步藕、CC(cellular_component)
摘自讀研筆記:
細(xì)胞組成(cellular component惦界,CC):一般用來描述基因產(chǎn)物的發(fā)揮作用的位置,比如一個蛋白可能定位在細(xì)胞核中咙冗,也可能定位在核糖體中沾歪;
生物過程(biological process,BP):描述的是指基因產(chǎn)物所聯(lián)系的一個大的生物功能雾消,或者說是它們要完成的一個大的生物目標(biāo)灾搏,例如有絲分裂或嘌呤代謝;
分子功能(Molecular Function立润,MF):主要是指基因產(chǎn)物分子所執(zhí)行的任務(wù)狂窑,例如一個蛋白質(zhì)可能一個轉(zhuǎn)錄因子或是一個載體蛋白。
在一個GO注釋中桑腮,例如泉哈,一個基因的產(chǎn)物是細(xì)胞色素c(cytochrome c),那么這個基因的產(chǎn)物就會被一個分子功能術(shù)語(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity )破讨,被生物過程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation)丛晦,被細(xì)胞成分(Cellular Component )描述為線性體基質(zhì)(mitochondrial matrix)和線粒體內(nèi)膜(mitochondrial inner membrane)。
alt_id: GO:0008372 同一個GO term
剩下就是關(guān)系'is_a','part_of','regulates'等等