eggNOG 5.0數(shù)據庫介紹

[toc]

1. eggNOG簡介

最近考慮到所用的一些數(shù)據庫太舊了塑陵,需要更新。在整理的時候發(fā)現(xiàn)eggNOG數(shù)據庫在去年的時候已經做了一次更新eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses。距離上個版本eggNOG4.5已經過去了3-4年囚枪,更新頻率相對來說比較慢赊级。但這次更新的內容是翻倍式增加的,以下是4.5和5.0比較敢辩。

image.png

image.png

eggNOG數(shù)據庫全稱是:直系同源蛋白分組比對(evolutionary genealogy of genes: Non-supervised Orthologous Groups)數(shù)據庫,由EMBL創(chuàng)建維護弟疆,是對NCBI的COG數(shù)據庫進行拓展戚长,提供不同分類水平蛋白的直系同源分組(Orthologous Groups,OG)怠苔,包括真核同廉、原核及病毒的數(shù)據信息。它擴展了COG數(shù)據庫的分類方法柑司,采用無監(jiān)督聚類算法在全基因組范圍內推導基因功能迫肖,更適用于譜系特征基因的分析。

2. eggNOG-Mapper注釋原理

常規(guī)功能注釋方法基于序列相似性尋找直系同源基因攒驰,常用blast+blast2goInterProscan來注釋蟆湖,這種方法可能找到旁系同源基因,而eggNOG能區(qū)分旁系和直系同源基因玻粪,因此開發(fā)出eggNOG-mapper來進行功能注釋隅津。eggNOG v5.0對應的工具是eggNOG-mapper v2
注釋的過程可分為圖下四個過程:

  • A. 序列比對:通過HMMER搜索HMMs數(shù)據庫找到OG劲室,或者通過DIAMOND搜索蛋白數(shù)據庫(速度更快伦仍,更適合宏組學),每條序列的最佳匹配結果以 seed ortholog 形式存放很洋,用于獲取其他直系同源基因充蓝。
  • B. 獲取直系同源基因:通過seed ortholog來提取一個或一組精細的直系同源基因。
  • C.去除關系較遠的直系同源基因:根據bit-score或E-value對結果進行一次過濾,剔除同源性不高的結果谓苟。
  • D. 功能注釋:蛋白序列搜索到的直系同源基因的功能描述就是最終的注釋結果官脓,如GO、KEGG娜谊、COG等确买。
    image.png

3. eggNOG 5.0數(shù)據資源

數(shù)據庫是生物信息的基礎,每個生物數(shù)據庫都有各自的特點(主要是從不同角度說明生物問題)纱皆,但信息的全面湾趾、分類和準確性是數(shù)據庫的關鍵。eggNOG 5.0的下載數(shù)據在:http://eggnog5.embl.de/download/eggnog_5.0/

image.png

其中e5.proteomes.faa為所有的蛋白組序列派草,e5.viruses.faa為所有的病毒蛋白序列搀缠,e5.taxid_info.tsv為Taxid對應的物種名稱以及完整的譜系信息,e5.og_annotations.tsv為所有的NOG信息近迁,其第一列為Taxid艺普,第二列為NOG groups,第三列為COG歸屬鉴竭,第四列為Function歧譬。

除了功能,每個物種都有相應的注釋信息http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/搏存,比如1060(TaxID):

image.png

5000余個物種對功能注釋來說是比較全面的了瑰步,但如果要做物種注釋,那是遠遠不夠的璧眠。

4. eggNOG-Mapper使用

在eggnog-mapper使用之前應該準備好:python缩焦、hmmer、diamond责静、fasta袁滥、注釋數(shù)據庫。

# 下載軟件
git clone https://github.com/jhcepas/eggnog-mapper.git
# 下載數(shù)據庫
cd eggnog-mapper ./download_eggnog_data.py euk  #euk真核灾螃,bact原核题翻,arch古菌,viruses病毒

#注釋
python emapper.py -i test.fa --output ./ -d euk  #默認以HMMER搜索
python emapper.py -m diamond -i test.fa --output ./ -d euk  #指定搜索數(shù)據庫類型腰鬼,可大類藐握、小類
python emapper.py -i test.fa --output ./ -d maNOG #哺乳動物NOG
python emapper.py -i test.fa --output ./ -d maNOG --usemem --cpu 10  #內存和線程

至于eggNOG注釋的結果,包括了一些匹配和得分信息垃喊,以及GO,KEGG袜炕,BiGG本谜,COG,KOG偎窘,NOG等功能注釋結果乌助。但不建議用它的GO和KEGG結果溜在,因為這兩個數(shù)據庫是生信領域更新最快的,信息最全他托,eggNOG注釋的結果可能會跟不上掖肋。可以采納下它的COG赏参、KOG志笼、NOG的注釋信息,因為COG/KOG幾乎沒有更新了把篓,還停留在2003-2014年:https://www.ncbi.nlm.nih.gov/COG/纫溃。

5. NOG、KOG韧掩、COG紊浩、KEGG、GO區(qū)別疗锐?

KEGG(Encyclopedia of Genes and Genomes)和GO(Gene Ontology)耳熟能詳就不解釋了坊谁,至少是目前權威公認的兩大數(shù)據庫。

主要是NOG和KOG滑臊、COG有點懵口芍。

相同點:三者都是同源分類數(shù)據庫,即都是OG(Orthologous Groups)简珠。

不同點

  • COG:Clusters of Orthologous Groups of proteins阶界,即同源蛋白簇,是NCBI的一個數(shù)據庫聋庵。根據生物完整基因組的編碼蛋白系統(tǒng)進化關系分類構建而成膘融,每一簇COG由直系同源序列構成,從而可以推測該序列的功能祭玉,按功能共可以分為二十六類氧映。
  • KOG:EuKaryotic Orthologous Groups(為什么不叫EOG?問號臉)脱货。廣義上COG分為真核和原核生物兩類岛都,原核的一般稱為COG數(shù)據庫,真核的一般稱為KOG數(shù)據庫振峻。
  • NOG:Non-supervised Orthologous Groups臼疫,注意是非監(jiān)督,因COG未及時更新扣孟,EMBL EggNOG對COG進行了完善烫堤,極大拓展了基因組信息,主要是基于HMM分析提供更細致的OG分析。

做了eggNOG鸽斟,還有必要做COG/KOG嗎拔创?做不做都可以,主要看心情富蓄,看哪個更能解釋你的生物學問題剩燥。一般來說,差別不會太大立倍,COG雖然過時灭红,但權威性還在呀。

附:不同功能數(shù)據庫的層級劃分

image.png

Ref:
應該是最好的eggnog-mapper功能注釋教程
時隔四年帐萎,NOG數(shù)據庫更新啦比伏!
宏基因組功能注釋(以COG為例)
https://www.biostars.org/p/286615/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市疆导,隨后出現(xiàn)的幾起案子赁项,更是在濱河造成了極大的恐慌,老刑警劉巖澈段,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悠菜,死亡現(xiàn)場離奇詭異,居然都是意外死亡败富,警方通過查閱死者的電腦和手機悔醋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兽叮,“玉大人芬骄,你說我怎么就攤上這事○写希” “怎么了账阻?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長泽本。 經常有香客問我淘太,道長,這世上最難降的妖魔是什么规丽? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任蒲牧,我火速辦了婚禮,結果婚禮上赌莺,老公的妹妹穿的比我還像新娘冰抢。我一直安慰自己,他們只是感情好艘狭,可當我...
    茶點故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布晒屎。 她就那樣靜靜地躺著喘蟆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鼓鲁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天港谊,我揣著相機與錄音骇吭,去河邊找鬼。 笑死歧寺,一個胖子當著我的面吹牛燥狰,可吹牛的內容都是我干的。 我是一名探鬼主播斜筐,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼龙致,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了顷链?” 一聲冷哼從身側響起目代,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嗤练,沒想到半個月后榛了,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡煞抬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年霜大,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片革答。...
    茶點故事閱讀 40,444評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡战坤,死狀恐怖,靈堂內的尸體忽然破棺而出残拐,到底是詐尸還是另有隱情途茫,我是刑警寧澤,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布蹦骑,位于F島的核電站慈省,受9級特大地震影響,放射性物質發(fā)生泄漏眠菇。R本人自食惡果不足惜边败,卻給世界環(huán)境...
    茶點故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捎废。 院中可真熱鬧笑窜,春花似錦、人聲如沸登疗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至断傲,卻和暖如春脱吱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背认罩。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工箱蝠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人垦垂。 一個月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓宦搬,卻偏偏與公主長得像,于是被迫代替她去往敵國和親劫拗。 傳聞我的和親對象是個殘疾皇子间校,可洞房花燭夜當晚...
    茶點故事閱讀 45,455評論 2 359

推薦閱讀更多精彩內容