[數(shù)據(jù)庫] GO注釋學(xué)習(xí)

正在做GO和KEGG畏妖,感覺之前理解的不夠透徹.. 現(xiàn)在把自己理解的整理一下

理論基礎(chǔ):超幾何分布

超幾何分布理解:從一個箱子里不放回的取球,取到某種顏色球的概率踢代。

超幾何分布記作X~H(n,M,N)

百度:超幾何分布

image.png

超幾何分布在R中的命令

#100個白球400個紅球先鱼,取50次,取到10個白球的概率
dhyper(10,100,400,50,log=FALSE)
0.1474
#100個白球400個紅球奸鬓,取50次焙畔,取到小于等于10個白球的概率
phyper(10,100,400,50)
0.5851

R中help文檔中的描述,做quantile function的時候

Description
Density, distribution function, quantile function and random generation for the hypergeometric distribution.
Usage
dhyper(x, m, n, k, log = FALSE)
phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE)
rhyper(nn, m, n, k)

關(guān)于GO和富集的一點(diǎn)理解:

  1. GO terms是對基因的產(chǎn)物進(jìn)行描述串远,而不是基因本身進(jìn)行描述宏多,因為基因本身的產(chǎn)物有時候不止一種。
  2. GO注釋(GO annotations)庫澡罚,它主要是為GO terms提供注釋伸但,也就是描述這個GO terms有什么功能(例如某些基因的產(chǎn)物是什么,是蛋白質(zhì)留搔,還是非編碼RNA更胖,還是大分子等)。
  3. GO富集分析主要關(guān)注兩點(diǎn):前景基因和背景基因隔显。
    比如却妨,這是goatools的結(jié)果:


    goEnrichment.png

ratio_in_study(110/220) 即前景基因的情況,研究的220個基因(差異基因分析所得或其他)中有110個落在該GO term上;
ratio_in_pop(3167/19230) 即背景基因的情況括眠,該個體中所有的表達(dá)基因彪标,即19230個基因,落在該GO term中的基因數(shù)為3167;

P值即是這個兩個比值的顯著性差異掷豺,通過超幾何分布計算概率所得:即 一個個體內(nèi)捞烟,有3167個基因落在該GO term上,不在該GO term上的基因數(shù)為19230-3167個当船,從中取220個基因题画,落在該GO的基因數(shù)為110個的概率。

富集方法及GO term的查詢

  1. AmiGO
    官網(wǎng)的樣子:

    圖片.png

    這個網(wǎng)站好像也可以做GO TERM 富集

  2. DAVID

  3. goatools
    命令:

python /.../goatools/scripts/find_enrichment.py <fg.genelist> <bg.genelist> <association_file> --outfile <outfile> --obo /../go-basic_20180701.obo --pval 0.05

說明:

  1. fg.genelist和bg.genelist就是研究的前景和背景基因文件德频,每行一個基因名
  2. association文件即每個基因?qū)?yīng)的GO號苍息,兩列,第一列為基因名第二列為GO號
  3. obo: 官網(wǎng)下載的GO信息文件抱婉,大概情況如下:


    圖片.png

4.ClusterProfiler
R包档叔,很有名了踢星,隨便搜搜都是參考信息啊估盘,簡單說一下骤菠,就是bitr這個方法轉(zhuǎn)化基因ID,然后用enrichGO和enrichKEGG進(jìn)行分析就ok了患亿。
簡書

既然講到轉(zhuǎn)化基因ID,那就講講基因ID的那些事吧:

TP53.png

HGNC:11998
淺談entrezID
常用數(shù)據(jù)庫 ID

關(guān)于GO term的理解:

namespace:biological_process
namespace在GO中共有三種BP(biological_process)、MF(molecular_function)步藕、CC(cellular_component)

摘自讀研筆記:

細(xì)胞組成(cellular component惦界,CC):一般用來描述基因產(chǎn)物的發(fā)揮作用的位置,比如一個蛋白可能定位在細(xì)胞核中咙冗,也可能定位在核糖體中沾歪;
生物過程(biological process,BP):描述的是指基因產(chǎn)物所聯(lián)系的一個大的生物功能雾消,或者說是它們要完成的一個大的生物目標(biāo)灾搏,例如有絲分裂或嘌呤代謝;
分子功能(Molecular Function立润,MF):主要是指基因產(chǎn)物分子所執(zhí)行的任務(wù)狂窑,例如一個蛋白質(zhì)可能一個轉(zhuǎn)錄因子或是一個載體蛋白。
在一個GO注釋中桑腮,例如泉哈,一個基因的產(chǎn)物是細(xì)胞色素c(cytochrome c),那么這個基因的產(chǎn)物就會被一個分子功能術(shù)語(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity )破讨,被生物過程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation)丛晦,被細(xì)胞成分(Cellular Component )描述為線性體基質(zhì)(mitochondrial matrix)和線粒體內(nèi)膜(mitochondrial inner membrane)。

alt_id: GO:0008372 同一個GO term
剩下就是關(guān)系'is_a','part_of','regulates'等等

參考資料:

讀研筆記:GO分析學(xué)習(xí)筆記

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末提陶,一起剝皮案震驚了整個濱河市采呐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌搁骑,老刑警劉巖斧吐,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異仲器,居然都是意外死亡煤率,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進(jìn)店門乏冀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蝶糯,“玉大人,你說我怎么就攤上這事辆沦≈绾矗” “怎么了?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵肢扯,是天一觀的道長妒茬。 經(jīng)常有香客問我,道長蔚晨,這世上最難降的妖魔是什么乍钻? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任肛循,我火速辦了婚禮,結(jié)果婚禮上银择,老公的妹妹穿的比我還像新娘多糠。我一直安慰自己,他們只是感情好浩考,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布夹孔。 她就那樣靜靜地躺著,像睡著了一般析孽。 火紅的嫁衣襯著肌膚如雪搭伤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天绿淋,我揣著相機(jī)與錄音闷畸,去河邊找鬼。 笑死吞滞,一個胖子當(dāng)著我的面吹牛佑菩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播裁赠,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼殿漠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了佩捞?” 一聲冷哼從身側(cè)響起绞幌,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎一忱,沒想到半個月后莲蜘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡帘营,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年票渠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芬迄。...
    茶點(diǎn)故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡问顷,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出禀梳,到底是詐尸還是另有隱情杜窄,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布算途,位于F島的核電站塞耕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏郊艘。R本人自食惡果不足惜荷科,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一唯咬、第九天 我趴在偏房一處隱蔽的房頂上張望纱注。 院中可真熱鬧畏浆,春花似錦、人聲如沸狞贱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瞎嬉。三九已至蝎毡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間氧枣,已是汗流浹背沐兵。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留便监,地道東北人扎谎。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像烧董,于是被迫代替她去往敵國和親毁靶。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 劉小澤寫于18.9.7各行各業(yè)數(shù)據(jù)呈爆炸式增長逊移,大量的數(shù)據(jù)等待被處理预吆,R語言就是一個利器,可以說是做數(shù)據(jù)分析必備的...
    劉小澤閱讀 1,607評論 1 8
  • 記錄跟差異基因分析相關(guān)的幾個概念胳泉,主要摘自《R與Bioconductor》一書拐叉。 基因表達(dá)差異的顯著性分析 簡稱表...
    王詩翔閱讀 15,527評論 6 25
  • 我們統(tǒng)一選擇p<0.05而且abs(logFC)大于1的基因為顯著差異表達(dá)基因集,對這個基因集用R包做KEGG/G...
    xuzhougeng閱讀 25,620評論 11 86
  • topGO手冊中的實例實現(xiàn) 手冊地址:http://bioconductor.uib.no/2.7/bioc/vi...
    x2yline閱讀 15,369評論 1 32
  • 雪一直下個不停扇商,屋里的人看到這個情景都陰著臉凤瘦。都不敢說話好像這個雪是"不祥征兆"。過了好半天钳吟,張三說了話:咱...
    夏曦若涵閱讀 697評論 1 1