[toc]
1. eggNOG簡介
最近考慮到所用的一些數(shù)據庫太舊了塑陵,需要更新。在整理的時候發(fā)現(xiàn)eggNOG數(shù)據庫在去年的時候已經做了一次更新eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses。距離上個版本eggNOG4.5已經過去了3-4年囚枪,更新頻率相對來說比較慢赊级。但這次更新的內容是翻倍式增加的,以下是4.5和5.0比較敢辩。
eggNOG數(shù)據庫全稱是:直系同源蛋白分組比對(evolutionary genealogy of genes: Non-supervised Orthologous Groups)數(shù)據庫,由EMBL創(chuàng)建維護弟疆,是對NCBI的COG數(shù)據庫進行拓展戚长,提供不同分類水平蛋白的直系同源分組(Orthologous Groups,OG)怠苔,包括真核同廉、原核及病毒的數(shù)據信息。它擴展了COG數(shù)據庫的分類方法柑司,采用無監(jiān)督聚類算法在全基因組范圍內推導基因功能迫肖,更適用于譜系特征基因的分析。
2. eggNOG-Mapper注釋原理
常規(guī)功能注釋方法基于序列相似性尋找直系同源基因攒驰,常用blast+blast2go
或InterProscan
來注釋蟆湖,這種方法可能找到旁系同源基因,而eggNOG能區(qū)分旁系和直系同源基因玻粪,因此開發(fā)出eggNOG-mapper
來進行功能注釋隅津。eggNOG v5.0
對應的工具是eggNOG-mapper v2
。
注釋的過程可分為圖下四個過程:
- A. 序列比對:通過HMMER搜索HMMs數(shù)據庫找到OG劲室,或者通過DIAMOND搜索蛋白數(shù)據庫(速度更快伦仍,更適合宏組學),每條序列的最佳匹配結果以 seed ortholog 形式存放很洋,用于獲取其他直系同源基因充蓝。
- B. 獲取直系同源基因:通過seed ortholog來提取一個或一組精細的直系同源基因。
- C.去除關系較遠的直系同源基因:根據bit-score或E-value對結果進行一次過濾,剔除同源性不高的結果谓苟。
-
D. 功能注釋:蛋白序列搜索到的直系同源基因的功能描述就是最終的注釋結果官脓,如GO、KEGG娜谊、COG等确买。
image.png
3. eggNOG 5.0數(shù)據資源
數(shù)據庫是生物信息的基礎,每個生物數(shù)據庫都有各自的特點(主要是從不同角度說明生物問題)纱皆,但信息的全面湾趾、分類和準確性是數(shù)據庫的關鍵。eggNOG 5.0的下載數(shù)據在:http://eggnog5.embl.de/download/eggnog_5.0/
其中e5.proteomes.faa為所有的蛋白組序列派草,e5.viruses.faa為所有的病毒蛋白序列搀缠,e5.taxid_info.tsv為Taxid對應的物種名稱以及完整的譜系信息,e5.og_annotations.tsv為所有的NOG信息近迁,其第一列為Taxid艺普,第二列為NOG groups,第三列為COG歸屬鉴竭,第四列為Function歧譬。
除了功能,每個物種都有相應的注釋信息http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/搏存,比如1060(TaxID):
5000余個物種對功能注釋來說是比較全面的了瑰步,但如果要做物種注釋,那是遠遠不夠的璧眠。
4. eggNOG-Mapper使用
在eggnog-mapper使用之前應該準備好:python缩焦、hmmer、diamond责静、fasta袁滥、注釋數(shù)據庫。
# 下載軟件
git clone https://github.com/jhcepas/eggnog-mapper.git
# 下載數(shù)據庫
cd eggnog-mapper ./download_eggnog_data.py euk #euk真核灾螃,bact原核题翻,arch古菌,viruses病毒
#注釋
python emapper.py -i test.fa --output ./ -d euk #默認以HMMER搜索
python emapper.py -m diamond -i test.fa --output ./ -d euk #指定搜索數(shù)據庫類型腰鬼,可大類藐握、小類
python emapper.py -i test.fa --output ./ -d maNOG #哺乳動物NOG
python emapper.py -i test.fa --output ./ -d maNOG --usemem --cpu 10 #內存和線程
至于eggNOG注釋的結果,包括了一些匹配和得分信息垃喊,以及GO,KEGG袜炕,BiGG本谜,COG,KOG偎窘,NOG等功能注釋結果乌助。但不建議用它的GO和KEGG結果溜在,因為這兩個數(shù)據庫是生信領域更新最快的,信息最全他托,eggNOG注釋的結果可能會跟不上掖肋。可以采納下它的COG赏参、KOG志笼、NOG的注釋信息,因為COG/KOG幾乎沒有更新了把篓,還停留在2003-2014年:https://www.ncbi.nlm.nih.gov/COG/纫溃。
5. NOG、KOG韧掩、COG紊浩、KEGG、GO區(qū)別疗锐?
KEGG(Encyclopedia of Genes and Genomes)和GO(Gene Ontology)耳熟能詳就不解釋了坊谁,至少是目前權威公認的兩大數(shù)據庫。
主要是NOG和KOG滑臊、COG有點懵口芍。
相同點:三者都是同源分類數(shù)據庫,即都是OG(Orthologous Groups)简珠。
不同點:
- COG:Clusters of Orthologous Groups of proteins阶界,即同源蛋白簇,是NCBI的一個數(shù)據庫聋庵。根據生物完整基因組的編碼蛋白系統(tǒng)進化關系分類構建而成膘融,每一簇COG由直系同源序列構成,從而可以推測該序列的功能祭玉,按功能共可以分為二十六類氧映。
- KOG:EuKaryotic Orthologous Groups(為什么不叫EOG?問號臉)脱货。廣義上COG分為真核和原核生物兩類岛都,原核的一般稱為COG數(shù)據庫,真核的一般稱為KOG數(shù)據庫振峻。
- NOG:Non-supervised Orthologous Groups臼疫,注意是非監(jiān)督,因COG未及時更新扣孟,EMBL EggNOG對COG進行了完善烫堤,極大拓展了基因組信息,主要是基于HMM分析提供更細致的OG分析。
做了eggNOG鸽斟,還有必要做COG/KOG嗎拔创?做不做都可以,主要看心情富蓄,看哪個更能解釋你的生物學問題剩燥。一般來說,差別不會太大立倍,COG雖然過時灭红,但權威性還在呀。
附:不同功能數(shù)據庫的層級劃分
Ref:
應該是最好的eggnog-mapper功能注釋教程
時隔四年帐萎,NOG數(shù)據庫更新啦比伏!
宏基因組功能注釋(以COG為例)
https://www.biostars.org/p/286615/