Contigs/Scaffolds序列經(jīng)基因預測竟终、ORF開放閱讀框識別(Open Reading fr ame)和蛋白翻譯之后驶兜,就可以進行功能注釋分析了。我們將基因/蛋白序列在特定的數(shù)據(jù)庫中搜索比對,從而完成功能注釋分析看彼。常用的功能數(shù)據(jù)庫主要包括KEGG豁遭、EggNOG叭喜、GO、COG和CAZy等蓖谢。
功能注釋就是我們拿到翻譯的蛋白之后捂蕴,與不同的功能(蛋白)數(shù)據(jù)庫進行對比。至于選擇哪種數(shù)據(jù)庫要看研究者的目的以及數(shù)據(jù)條件(如真核還是原核)闪幽。我們選擇COG數(shù)據(jù)庫啥辨,原因是目前單位還沒有相應的流程,在一步步的操作中有助于我們的理解盯腌,僅此溉知。
不同的功能數(shù)據(jù)庫可以用來解決具體問題,所以先看看COG是干嘛的,然后是怎樣注釋的级乍,最后是注釋結果的解讀舌劳。
COG是干嘛的
COG,即Clusters of Orthologous Groups of proteins卡者≥锒冢可以理解為COG是NCBI的數(shù)據(jù)庫。COG的中文釋義即“同源蛋白簇”崇决。COG分為兩類材诽,一類是原核生物的,另一類是真核生物恒傻。原核生物的一般稱為COG數(shù)據(jù)庫脸侥;真核生物的一般稱為KOG數(shù)據(jù)庫。由NCBI創(chuàng)建并維護的蛋白數(shù)據(jù)庫盈厘,根據(jù)細菌睁枕、藻類和真核生物完整基因組的編碼蛋白系統(tǒng)進化關系分類構建而成。通過比對可以將某個蛋白序列注釋到某一個COG中沸手,每一簇COG由直系同源序列構成外遇,從而可以推測該序列的功能。COG數(shù)據(jù)庫按照功能一共可以分為二十六類契吉。
蛋白質直系同源簇
- 保守
- 相似的結構和生物學功能(關鍵性調(diào)控蛋白)
- 重現(xiàn)物種的進化歷史
COG注釋作用:1. 通過已知蛋白對未知序列進行功能注釋跳仿; 2. 通過查看指定的COG編號對應的protein數(shù)目,存在及缺失捐晶,從而能推導特定的代謝途徑是否存在菲语; 3. 每個COG編號是一類蛋白,將query序列和比對上的COG編號的proteins進行多序列比對惑灵,能確定保守位點山上,分析其進化關系。當然英支,這里我們說的是第一種作用佩憾。
NCBI COG的數(shù)據(jù)庫主要更新歷史
- 從 1997 年 第一個公布版本,7個完整基因組,720個COG分類干花, 包含原核基因組和單細胞真核基因組(酵母)妄帘,2003 年和2014 年進行了版本升級,最后只保留了細菌和古菌把敢,包含了711個基因組以及4,631個COG分類, 26個功能分類谅辣。
- 2013 年構建真核分支COG(KOG, Eukaryotic orthologous groups)修赞;
- 2007 年構建古菌分支COG(arCOG, Archaeal Clusters of Orthologous Genes),2012 年和2014 年arCOG進一步升級柏副,arCOG比較適合用于古菌基因組注釋勾邦;
- 2011 年構建Phage分支COG(POG,phage orthologous groups)割择,2013 年進行了升級眷篇;
由于計算資源需求,NCBI COG 構建了不同系統(tǒng)分類分支的COG簇荔泳,比如arCOG蕉饼,KOG, POG等,推薦使用這些分支對新測序基因組進行注釋玛歌,其實eggNOG 尤其是4.x版本也使用了clade特異的聚類模式昧港。
其實,eggNOG(版本 4.5.1+) 數(shù)據(jù)庫對 NCBI COG 進行擴展支子,并包含了真核生物信息创肥, 版本 3.0 被廣泛應用于(元)基因組數(shù)據(jù)分析, 另外一個類似數(shù)據(jù)是 STRING (版本 10.0) 也可以實現(xiàn)COG/KOG的功能注釋值朋,主要特色是蛋白質相互作用注釋叹侄,eggNOG 升級到了 4.0 以后提供基于HMM隱馬爾可夫譜的分析,并提供了更細致的 OG 分析昨登,可根據(jù)物種所屬的clade選擇參考數(shù)據(jù)集趾代,可以有效的降低計算量,另一個特色就是提供了 GO以及其它注釋信息(KEGG/COG/SMART)關聯(lián)分析篙骡。
從2003年至2014年NCBI COG一直未更新稽坤,EMBL EggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups)繼承了NCBI COG的衣缽,極大的擴展了基因組信息糯俗。 4.5.1 版本尿褪, 把包含了2,031個基因組, 其中 352病毒基因組得湘, 190k個直系同源家族杖玲。如果做了eggNOG功能注釋還有必要做COG注釋嗎?
eggNOG 數(shù)據(jù)庫包含了豐富的注釋信息淘正,除了COG/KOG/NOG的分類和注釋信息外摆马,還包含了KEGG/GO/SMART/PFAM信息。
新版本的EggNOG 還提供了自動化注釋工具eggnog-mapper鸿吆,可很方便的完成基因組的功能注釋囤采,注釋信息可以關聯(lián)COG/KOG/KEGG/GO/BiGG等。
怎樣注釋的
既然EggNOG數(shù)據(jù)庫比COG數(shù)據(jù)庫更新更全面惩淳,那我們還講COG干嘛蕉毯?要知道乓搬,COG老是老了一點,那是人家經(jīng)典代虾。而且目前兩者都可以用同一種比對軟件來注釋进肯,所以不影響閱讀。序列決定結構棉磨,結構決定功能江掩。功能注釋本質是目標蛋白序列同功能蛋白序列數(shù)據(jù)庫的比對過程。
宏基因組數(shù)據(jù)比對神器 DIAMOND(double index alignment of
next-generation sequencing data))
2015年nature methods上發(fā)布了一款新的比對軟件DIAMOND乘瓤,是一款新的用于短DNA測序reads與蛋白參考數(shù)據(jù)庫比對的工具环形。以Illumina的100~150 bp的reads為例,在快速模式下馅扣,DIAMOND比對速度比BLASTX要快20,000倍斟赚,可以報告BLASTX發(fā)現(xiàn)的80-90%的比對數(shù)據(jù),e-value至多為1e-5差油。如果使用靈敏模式拗军,DIAMOND的比對速度也要比BLASTX快2,500倍,可以報告超過94%的比對數(shù)據(jù)蓄喇。
1)使用DIAMOND軟件將 Unigenes 與各功能數(shù)據(jù)庫進行比對(blastp发侵,evalue ≤ 1e-5)
2)比對結果過濾:對于每一條序列的 比對結果,選取 score 最高的比對結果(one HSP > 60 bits)進行后續(xù)分析
Function/DIAMOND/diamond blastp -q Unigenes_50.fa -d database/COG/cog_clean.fa -t COG/blastout -p 4 -e 1e-5 -k 50 --sensitive -o Unigenes_50.fa.m8
- double indexing
- spaced seeds
比對結果妆偏,m8格式12列對應的含義依次是:
Query id:查詢序列ID標識
Subject id:比對上的目標序列ID標識
% identity:序列比對的一致性百分比
alignment length:符合比對的比對區(qū)域的長度
mismatches:比對區(qū)域的錯配數(shù)
gap openings:比對區(qū)域的gap數(shù)目
q. start:比對區(qū)域在查詢序列(Query id)上的起始位點
q. end:比對區(qū)域在查詢序列(Query id)上的終止位點
s. start:比對區(qū)域在目標序列(Subject id)上的起始位點
s. end:比對區(qū)域在目標序列(Subject id)上的終止位點
e-value:比對結果的期望值刃鳄,解釋是大概多少次隨即比對才能出現(xiàn)一次這個score,Evalue越小,表明這種情況钱骂,從概率上越不可能發(fā)生叔锐,但是現(xiàn)在發(fā)生了,所以這個比對具有很重要的意義
bit score:比對結果的bit score值
功能層級:
INFORMATION STORAGE AND PROCESSING
[J] Translation, ribosomal structure and biogenesis
[A] RNA processing and modification
[K] Transcription
[L] Replication, recombination and repair
[B] Chromatin structure and dynamics
CELLULAR PROCESSES AND SIGNALING
[D] Cell cycle control, cell division, chromosome partitioning
[Y] Nuclear structure
[V] Defense mechanisms
[T] Signal transduction mechanisms
[M] Cell wall/membrane/envelope biogenesis
[N] Cell motility
[Z] Cytoskeleton
[W] Extracellular structures
[U] Intracellular trafficking, secretion, and vesicular transport
[O] Posttranslational modification, protein turnover, chaperones
[X] Mobilome: prophages, transposons
METABOLISM
[C] Energy production and conversion
[G] Carbohydrate transport and metabolism
[E] Amino acid transport and metabolism
[F] Nucleotide transport and metabolism
[H] Coenzyme transport and metabolism
[I] Lipid transport and metabolism
[P] Inorganic ion transport and metabolism
[Q] Secondary metabolites biosynthesis, transport and catabolism
POORLY CHARACTERIZED
[R] General function prediction only
[S] Function unknown
3)從比對結果出發(fā)见秽,統(tǒng)計不同功能層級的相對豐度(各功能層級的相對豐度等于注釋為該功能層級的基因的相對豐度之和)愉烙,其中,KEGG 數(shù)據(jù)庫劃分為 5 個層級解取,eggNOG 數(shù)據(jù)庫劃分為 3 個層級步责,CAZy 數(shù)據(jù)庫劃分為 3 個層級,各數(shù)據(jù)庫的詳細劃分層級如下所示:
4)從功能注釋結果及基因豐度表出發(fā)禀苦,獲得各個樣品在各個分類層級上的基因數(shù)目表蔓肯,對于某個功能在某個樣品中的基因數(shù)目,等于在注釋為該功能的基因中振乏,豐度不為 0 的基因數(shù)目蔗包;
說明 橫坐標表示COG功能類型,縱坐標表示注釋上的基因個數(shù)慧邮。
5)從各個分類層級上的豐度表出發(fā)调限,進行注釋基因數(shù)目統(tǒng)計邻储,相對豐度概況展示,豐度聚類熱圖展示旧噪,PCA和NMDS降維分析,基于功能豐度的Anosim組間(內(nèi))差異分析脓匿,代謝通路比較分析淘钟,組間功能差異的Metastat和LEfSe分析。
宏基因組學那些事之數(shù)據(jù)庫與軟件
每日一生信--COG注釋(終結版)
diamod安裝及使用說明閱讀筆記
序列功能注釋神器:eggNOG-mapper陪毡,KEGG/COG/KOG/GO/BiGG 一網(wǎng)打盡
諾禾致源宏基因組結題報告
諾禾致源擴增子結題報告