宏基因組功能注釋(以COG為例)

Contigs/Scaffolds序列經(jīng)基因預測竟终、ORF開放閱讀框識別(Open Reading fr ame)和蛋白翻譯之后驶兜,就可以進行功能注釋分析了。我們將基因/蛋白序列在特定的數(shù)據(jù)庫中搜索比對,從而完成功能注釋分析看彼。常用的功能數(shù)據(jù)庫主要包括KEGG豁遭、EggNOG叭喜、GO、COG和CAZy等蓖谢。

功能注釋就是我們拿到翻譯的蛋白之后捂蕴,與不同的功能(蛋白)數(shù)據(jù)庫進行對比。至于選擇哪種數(shù)據(jù)庫要看研究者的目的以及數(shù)據(jù)條件(如真核還是原核)闪幽。我們選擇COG數(shù)據(jù)庫啥辨,原因是目前單位還沒有相應的流程,在一步步的操作中有助于我們的理解盯腌,僅此溉知。

不同的功能數(shù)據(jù)庫可以用來解決具體問題,所以先看看COG是干嘛的,然后是怎樣注釋的级乍,最后是注釋結果的解讀舌劳。

COG是干嘛的

COG,即Clusters of Orthologous Groups of proteins卡者≥锒冢可以理解為COG是NCBI的數(shù)據(jù)庫。COG的中文釋義即“同源蛋白簇”崇决。COG分為兩類材诽,一類是原核生物的,另一類是真核生物恒傻。原核生物的一般稱為COG數(shù)據(jù)庫脸侥;真核生物的一般稱為KOG數(shù)據(jù)庫。由NCBI創(chuàng)建并維護的蛋白數(shù)據(jù)庫盈厘,根據(jù)細菌睁枕、藻類和真核生物完整基因組的編碼蛋白系統(tǒng)進化關系分類構建而成。通過比對可以將某個蛋白序列注釋到某一個COG中沸手,每一簇COG由直系同源序列構成外遇,從而可以推測該序列的功能。COG數(shù)據(jù)庫按照功能一共可以分為二十六類契吉。

蛋白質直系同源簇
  • 保守
    • 相似的結構和生物學功能(關鍵性調(diào)控蛋白)
    • 重現(xiàn)物種的進化歷史

其網(wǎng)址主頁為:COG
其FTP站點為:COG

COG注釋作用:1. 通過已知蛋白對未知序列進行功能注釋跳仿; 2. 通過查看指定的COG編號對應的protein數(shù)目,存在及缺失捐晶,從而能推導特定的代謝途徑是否存在菲语; 3. 每個COG編號是一類蛋白,將query序列和比對上的COG編號的proteins進行多序列比對惑灵,能確定保守位點山上,分析其進化關系。當然英支,這里我們說的是第一種作用佩憾。

NCBI COG的數(shù)據(jù)庫主要更新歷史
  1. 1997 年 第一個公布版本,7個完整基因組,720個COG分類干花, 包含原核基因組和單細胞真核基因組(酵母)妄帘,2003 年和2014 年進行了版本升級,最后只保留了細菌和古菌把敢,包含了711個基因組以及4,631個COG分類, 26個功能分類谅辣。
  2. 2013 年構建真核分支COG(KOG, Eukaryotic orthologous groups)修赞;
  3. 2007 年構建古菌分支COG(arCOG, Archaeal Clusters of Orthologous Genes),2012 年和2014 年arCOG進一步升級柏副,arCOG比較適合用于古菌基因組注釋勾邦;
  4. 2011 年構建Phage分支COG(POG,phage orthologous groups)割择,2013 年進行了升級眷篇;

由于計算資源需求,NCBI COG 構建了不同系統(tǒng)分類分支的COG簇荔泳,比如arCOG蕉饼,KOG, POG等,推薦使用這些分支對新測序基因組進行注釋玛歌,其實eggNOG 尤其是4.x版本也使用了clade特異的聚類模式昧港。

其實,eggNOG(版本 4.5.1+) 數(shù)據(jù)庫對 NCBI COG 進行擴展支子,并包含了真核生物信息创肥, 版本 3.0 被廣泛應用于(元)基因組數(shù)據(jù)分析, 另外一個類似數(shù)據(jù)是 STRING (版本 10.0) 也可以實現(xiàn)COG/KOG的功能注釋值朋,主要特色是蛋白質相互作用注釋叹侄,eggNOG 升級到了 4.0 以后提供基于HMM隱馬爾可夫譜的分析,并提供了更細致的 OG 分析昨登,可根據(jù)物種所屬的clade選擇參考數(shù)據(jù)集趾代,可以有效的降低計算量,另一個特色就是提供了 GO以及其它注釋信息(KEGG/COG/SMART)關聯(lián)分析篙骡。

從2003年至2014年NCBI COG一直未更新稽坤,EMBL EggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups)繼承了NCBI COG的衣缽,極大的擴展了基因組信息糯俗。 4.5.1 版本尿褪, 把包含了2,031個基因組, 其中 352病毒基因組得湘, 190k個直系同源家族杖玲。如果做了eggNOG功能注釋還有必要做COG注釋嗎?

eggNOG 數(shù)據(jù)庫包含了豐富的注釋信息淘正,除了COG/KOG/NOG的分類和注釋信息外摆马,還包含了KEGG/GO/SMART/PFAM信息。

新版本的EggNOG 還提供了自動化注釋工具eggnog-mapper鸿吆,可很方便的完成基因組的功能注釋囤采,注釋信息可以關聯(lián)COG/KOG/KEGG/GO/BiGG等。

EggNOG
怎樣注釋的

既然EggNOG數(shù)據(jù)庫比COG數(shù)據(jù)庫更新更全面惩淳,那我們還講COG干嘛蕉毯?要知道乓搬,COG老是老了一點,那是人家經(jīng)典代虾。而且目前兩者都可以用同一種比對軟件來注釋进肯,所以不影響閱讀。序列決定結構棉磨,結構決定功能江掩。功能注釋本質是目標蛋白序列同功能蛋白序列數(shù)據(jù)庫的比對過程

宏基因組數(shù)據(jù)比對神器 DIAMOND(double index alignment of
next-generation sequencing data))

2015年nature methods上發(fā)布了一款新的比對軟件DIAMOND乘瓤,是一款新的用于短DNA測序reads與蛋白參考數(shù)據(jù)庫比對的工具环形。以Illumina的100~150 bp的reads為例,在快速模式下馅扣,DIAMOND比對速度比BLASTX要快20,000倍斟赚,可以報告BLASTX發(fā)現(xiàn)的80-90%的比對數(shù)據(jù),e-value至多為1e-5差油。如果使用靈敏模式拗军,DIAMOND的比對速度也要比BLASTX快2,500倍,可以報告超過94%的比對數(shù)據(jù)蓄喇。

1)使用DIAMOND軟件將 Unigenes 與各功能數(shù)據(jù)庫進行比對(blastp发侵,evalue ≤ 1e-5)

2)比對結果過濾:對于每一條序列的 比對結果,選取 score 最高的比對結果(one HSP > 60 bits)進行后續(xù)分析

Function/DIAMOND/diamond blastp -q Unigenes_50.fa -d  database/COG/cog_clean.fa -t  COG/blastout -p 4 -e 1e-5 -k 50 --sensitive -o Unigenes_50.fa.m8
  • double indexing
  • spaced seeds

比對結果妆偏,m8格式12列對應的含義依次是:

比對結果m8格式
  Query id:查詢序列ID標識
  Subject id:比對上的目標序列ID標識
  % identity:序列比對的一致性百分比
  alignment length:符合比對的比對區(qū)域的長度
  mismatches:比對區(qū)域的錯配數(shù)
  gap openings:比對區(qū)域的gap數(shù)目
  q. start:比對區(qū)域在查詢序列(Query id)上的起始位點
  q. end:比對區(qū)域在查詢序列(Query id)上的終止位點
  s. start:比對區(qū)域在目標序列(Subject id)上的起始位點
  s. end:比對區(qū)域在目標序列(Subject id)上的終止位點
  e-value:比對結果的期望值刃鳄,解釋是大概多少次隨即比對才能出現(xiàn)一次這個score,Evalue越小,表明這種情況钱骂,從概率上越不可能發(fā)生叔锐,但是現(xiàn)在發(fā)生了,所以這個比對具有很重要的意義
  bit score:比對結果的bit score值

功能層級:

INFORMATION STORAGE AND PROCESSING
 [J] Translation, ribosomal structure and biogenesis 
 [A] RNA processing and modification 
 [K] Transcription 
 [L] Replication, recombination and repair 
 [B] Chromatin structure and dynamics 

CELLULAR PROCESSES AND SIGNALING
 [D] Cell cycle control, cell division, chromosome partitioning 
 [Y] Nuclear structure 
 [V] Defense mechanisms 
 [T] Signal transduction mechanisms 
 [M] Cell wall/membrane/envelope biogenesis 
 [N] Cell motility 
 [Z] Cytoskeleton 
 [W] Extracellular structures 
 [U] Intracellular trafficking, secretion, and vesicular transport 
 [O] Posttranslational modification, protein turnover, chaperones 
 [X] Mobilome: prophages, transposons
 
METABOLISM
 [C] Energy production and conversion 
 [G] Carbohydrate transport and metabolism 
 [E] Amino acid transport and metabolism 
 [F] Nucleotide transport and metabolism 
 [H] Coenzyme transport and metabolism 
 [I] Lipid transport and metabolism 
 [P] Inorganic ion transport and metabolism 
 [Q] Secondary metabolites biosynthesis, transport and catabolism 

POORLY CHARACTERIZED
 [R] General function prediction only 
 [S] Function unknown 

篩選后blast m8結果
篩選后blast結果的注釋信息

3)從比對結果出發(fā)见秽,統(tǒng)計不同功能層級的相對豐度(各功能層級的相對豐度等于注釋為該功能層級的基因的相對豐度之和)愉烙,其中,KEGG 數(shù)據(jù)庫劃分為 5 個層級解取,eggNOG 數(shù)據(jù)庫劃分為 3 個層級步责,CAZy 數(shù)據(jù)庫劃分為 3 個層級,各數(shù)據(jù)庫的詳細劃分層級如下所示:

各數(shù)據(jù)庫的詳細劃分層級

4)從功能注釋結果及基因豐度表出發(fā)禀苦,獲得各個樣品在各個分類層級上的基因數(shù)目表蔓肯,對于某個功能在某個樣品中的基因數(shù)目,等于在注釋為該功能的基因中振乏,豐度不為 0 的基因數(shù)目蔗包;

基因功能注釋 COG功能分類圖
      說明 橫坐標表示COG功能類型,縱坐標表示注釋上的基因個數(shù)慧邮。

5)從各個分類層級上的豐度表出發(fā)调限,進行注釋基因數(shù)目統(tǒng)計邻储,相對豐度概況展示,豐度聚類熱圖展示旧噪,PCA和NMDS降維分析,基于功能豐度的Anosim組間(內(nèi))差異分析脓匿,代謝通路比較分析淘钟,組間功能差異的Metastat和LEfSe分析。

宏基因組學那些事之數(shù)據(jù)庫與軟件
每日一生信--COG注釋(終結版)
diamod安裝及使用說明閱讀筆記
序列功能注釋神器:eggNOG-mapper陪毡,KEGG/COG/KOG/GO/BiGG 一網(wǎng)打盡
諾禾致源宏基因組結題報告
諾禾致源擴增子結題報告

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末米母,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子毡琉,更是在濱河造成了極大的恐慌铁瞒,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件桅滋,死亡現(xiàn)場離奇詭異慧耍,居然都是意外死亡,警方通過查閱死者的電腦和手機丐谋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門芍碧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人号俐,你說我怎么就攤上這事泌豆。” “怎么了吏饿?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵踪危,是天一觀的道長。 經(jīng)常有香客問我猪落,道長贞远,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任许布,我火速辦了婚禮兴革,結果婚禮上,老公的妹妹穿的比我還像新娘蜜唾。我一直安慰自己杂曲,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布袁余。 她就那樣靜靜地躺著擎勘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪颖榜。 梳的紋絲不亂的頭發(fā)上棚饵,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天煤裙,我揣著相機與錄音,去河邊找鬼噪漾。 笑死硼砰,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的欣硼。 我是一名探鬼主播题翰,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼诈胜!你這毒婦竟也來了豹障?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤焦匈,失蹤者是張志新(化名)和其女友劉穎血公,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缓熟,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡累魔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了够滑。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片薛夜。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖版述,靈堂內(nèi)的尸體忽然破棺而出梯澜,到底是詐尸還是另有隱情,我是刑警寧澤渴析,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布晚伙,位于F島的核電站,受9級特大地震影響俭茧,放射性物質發(fā)生泄漏咆疗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一母债、第九天 我趴在偏房一處隱蔽的房頂上張望午磁。 院中可真熱鬧,春花似錦毡们、人聲如沸迅皇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽登颓。三九已至,卻和暖如春红氯,著一層夾襖步出監(jiān)牢的瞬間框咙,已是汗流浹背咕痛。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留喇嘱,地道東北人茉贡。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像者铜,于是被迫代替她去往敵國和親块仆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 轉載 :https://www.plob.org/article/3856.html 生物信息數(shù)據(jù)庫與查詢 近年來...
    oddxix閱讀 10,841評論 0 37
  • eggnog-mapper實現(xiàn)功能注釋 eggNOG-Mapper介紹 通常功能注釋的思路都是基于序列相似性找直系...
    xuzhougeng閱讀 50,599評論 15 90
  • 關于GO 注釋的心得體會 目前對于GO功能注釋的思路有 以下常見的四種: 1王暗、BLAST+InterProScan...
    IMC小達人閱讀 6,586評論 9 29
  • 太陽在我屁股底下照著別人生活的時候我還在輾轉反側難以入眠。 我在思考庄敛,世界俗壹,宇宙,空間藻烤,深海绷雏,氣候等那些我無法改變...
    阿拉母雞雷縮的薩玩意兒閱讀 230評論 0 0
  • 圓畫著平行線 平行但不平直 終點沒有盡頭 不動仍在前行 時間從未停止 所謂存在不過曇花一現(xiàn) 分分秒秒己經(jīng)歲歲年年 ...
    溪林飛羽閱讀 233評論 0 2