kegg genes 數(shù)據(jù)庫收錄了物種的基因信息信粮。 kegg 使用自己定義的ID 唯一區(qū)別每個基因,叫做kegg gene ID旨巷。
對于每個基因,除了給出對應的物種添忘,染色體位置采呐,ncbi-gene ID,DNA 序列搁骑, 蛋白序列等基本信息以外斧吐,還會給出這個基因?qū)腒O, module, pathway 等注釋信息靶病。
其中KO 注釋是核心会通,kegg 提供了兩種工具,用于基因的KO 注釋
對于單個物種的基因組娄周,使用BlastKOALA 工具涕侈;
對于環(huán)境微生物,使用GhostKOALA 工具進行注釋煤辨;
截止到2018年3月7號裳涛,所有基因的注釋情況如下:
http://www.kegg.jp/kegg/docs/genes_statistics.html
基因從功能上分成了兩大類,編碼蛋白基因和非編碼蛋白基因众辨。從注釋信息的角度端三,提供了KO , pathway, Enzyme 共3種kegg 的注釋。
我們來想詳細看下human 基因的注釋情況
目前共收錄了20380個蛋白編碼基因鹃彻,其中13226 個基因有KO 注釋郊闯;19172 個非編碼基因,其中 315個有KO 注釋;有pathway 注釋的只有 7376 個基因团赁,而有Enzyme 酶類注釋的只有3261 個基因育拨。其中pathway 相關基因只有7376個,這個數(shù)字值得我們重點關注欢摄。
對于轉(zhuǎn)錄組分析而言熬丧,KEGG的富集分析是常用的功能分析手段,而20380個蛋白編碼基因中怀挠,只有30%左右的基因有pathway 信息析蝴,剩下的沒有pathway 相關信息的基因,在富集分析時 绿淋,會被忽略掉了闷畸。所以pathway 富集分析還是有一定的局限性的。
這里我列出了人躬它,小鼠腾啥,大鼠基因的pathway 注釋情況
org | protein | pathway |
---|---|---|
hsa | 20,380 | 7376 |
mmu | 22,103 | 8197 |
rno | 23,503 | 8436 |
總體來看,有pathway注釋信息的基因比例都很低冯吓。pathway 是基于我們已有的認知來構建的 倘待,隨著研究的不斷深入和進行,pathway 數(shù)據(jù)庫也會越來越大组贺, 也會有更多的基因有pathway 相關的信息⊥苟妫現(xiàn)階段,由于我們對基因功能認知的局限失尖,只能對那些有pathway 信息的基因去研究啊奄。所以在富集分析時,我們需要綜合多個數(shù)據(jù)庫的結果掀潮, 比如 GO, Reatcome 等數(shù)據(jù)庫菇夸。
總結:
kegg genes 數(shù)據(jù)庫收錄了基因的信息,包括了編碼基因和非編碼基因仪吧。
對于單基因組庄新,采用BlastKOALA 進行KO 注釋;對于宏基因組薯鼠,采用GhostKOALA 進行注釋择诈。
由于我們現(xiàn)階段對基因功能認知的局限性,有pathway注釋信息的基因比例較低出皇,在進行功能富集分析時羞芍,建議綜合多個數(shù)據(jù)庫的結果。