文獻(xiàn)時(shí)間
1999
摘要
KEGG (Kyoto Encyclopedia of Genes and Genomes)是一個(gè)用于基因功能系統(tǒng)分析的數(shù)據(jù)庫(kù),將基因組信息與更有序的生物功能信息聯(lián)系起來(lái)尘吗〔谴罚基因組的所有信息儲(chǔ)存在GENES數(shù)據(jù)庫(kù)中近刘,它包含了所有完整測(cè)序的基因組和一些實(shí)時(shí)更新的部分測(cè)序基因組。更有序的生物功能信息儲(chǔ)存在PATHWAY數(shù)據(jù)庫(kù)中介劫,其中包括了生物過程的圖形表現(xiàn)形式案淋,比如新陳代謝,膜運(yùn)輸誉碴,信號(hào)轉(zhuǎn)導(dǎo)瓣距,細(xì)胞循環(huán)。PATHWAY數(shù)據(jù)庫(kù)由一組直系同源組表補(bǔ)充成黄,用于保存子途徑(途徑基序)的信息逻杖,這些信息通常由染色體上的位置偶聯(lián)基因編碼,并且在預(yù)測(cè)基因功能方面特別有用闻伶。KEGG中的第三個(gè)數(shù)據(jù)庫(kù)是LIGAND管搪,其中保存著化合物,酶分子霎箍,酶促反映等相關(guān)信息澡为。KEGG提供Java圖形工具,用于瀏覽基因組圖譜顶别,比較兩個(gè)基因組圖和操縱表達(dá)圖,以及用于序列比較完慧,圖形比較和路徑計(jì)算的計(jì)算工具剩失。KEGG數(shù)據(jù)庫(kù)每天更新而且可以免費(fèi)獲取。
引言
各個(gè)物種的基因組測(cè)序數(shù)據(jù)不斷的完整脾歧,但是對(duì)于每個(gè)基因功能的注釋信息還很片段演熟。KEGG嘗試通過對(duì)生物過程的計(jì)算處理,對(duì)注釋信息的標(biāo)準(zhǔn)化處理來(lái)將基因組信息和生物功能信息聯(lián)系起來(lái)兄纺∈窃總的來(lái)說(shuō),一個(gè)活細(xì)胞的生物功能是許多生物分析相互作用的結(jié)果旁蔼;并不能通過單獨(dú)的基因或者分子就將其指代疙教。KEGG中的功能分配就是將基因組中的一系列基因和細(xì)胞中一些相互作用的分子聯(lián)系起來(lái),比如一個(gè)通路或者符合物就代表一個(gè)更有序的生物功能限佩。
KEGG項(xiàng)目于1995年5月在日本教育裸弦,科學(xué),體育和文化部的人類基因組計(jì)劃下啟動(dòng)晕城。KEGG中多有的數(shù)據(jù)以及相關(guān)的工具都可從日本基因網(wǎng)中獲取窖贤。KEGG包含三個(gè)數(shù)據(jù)庫(kù):
- PATHWAY:通路贰锁,分子相互作用網(wǎng)絡(luò)在基因?qū)用娴拿枋?/li>
- GENES:各種生物的基因組測(cè)序數(shù)據(jù)
- LIGAND:細(xì)胞中的化合物豌熄,酶分子物咳,酶促反映
用戶可以從途徑(功能)信息開始自上而下進(jìn)入KEGG系統(tǒng),或者從基因組信息開始自下而上地進(jìn)入KEGG系統(tǒng)囱持。KEGG目錄頁(yè)面(http://www.genome.ad.jp/kegg/kegg2.html)焕济。
基因組信息
GENES數(shù)據(jù)庫(kù)
表1總結(jié)了目前的KEGG數(shù)據(jù)庫(kù)現(xiàn)狀盔几。去年一年間逊拍,我們一直在努力跟上全基因組測(cè)序的數(shù)據(jù),以及就要到來(lái)的測(cè)序爆發(fā)芯丧。GENES中僅29個(gè)物種的記錄數(shù)(其中24個(gè)為全基因組測(cè)序)就有110000條缨恒,已經(jīng)超過了注釋良好的SWISS-PROT中的記錄數(shù)。如表2展示的骗露,GENES以最低限度信息來(lái)記錄每個(gè)基因萧锉,但它旨在包括最新的標(biāo)準(zhǔn)化的基因功能描述。GENES同時(shí)提供一些具有更詳細(xì)信息資源的鏈接叶洞。
我們開發(fā)了一系列計(jì)算工具來(lái)維持GENES數(shù)據(jù)庫(kù)禀崖,尤其是從GenBank中提取數(shù)據(jù)來(lái)協(xié)助對(duì)基因功能的系統(tǒng)注釋。圖1闡釋了計(jì)算和操作的整體流程惭婿。使用基于網(wǎng)絡(luò)的注釋工具和其他計(jì)算工具來(lái)分配EC編號(hào),指定分配標(biāo)識(shí)符换吧,結(jié)合來(lái)自文獻(xiàn)的新實(shí)驗(yàn)證據(jù)钥星,以及基于途徑構(gòu)建來(lái)注釋預(yù)測(cè)。 如下所述贯莺,使用同源基因標(biāo)識(shí)來(lái)進(jìn)行通路中基因組和基因產(chǎn)物的自動(dòng)匹配宁改。
基因表達(dá)文件
GENES的主要檢索系統(tǒng)是DBGET/LinkDB,但是也有其他的連接方法爹耗。其中一個(gè)就是基于Java的genome map瀏覽器谜喊,可以用來(lái)對(duì)染色體上基因位置進(jìn)行圖形操作。里一個(gè)就是hierarchical text瀏覽器山卦,用于處理基因目錄的功能層次結(jié)構(gòu)账蓉。這里我們介紹另一個(gè)Java圖像化瀏覽器藻懒,expression map瀏覽器,用于處理由cDNA微陣列或寡核苷酸陣列實(shí)驗(yàn)產(chǎn)生的基因表達(dá)文件嬉荆。由功能基因組學(xué)實(shí)驗(yàn)產(chǎn)生的大量數(shù)據(jù)蘊(yùn)含大量的信息归敬,可以補(bǔ)充基因組測(cè)序數(shù)據(jù)產(chǎn)生的信息,從而得到其中更高階(系統(tǒng)化)的生物學(xué)功能鄙早。expression map瀏覽器的初始版本可以鏈接到KEGG通路數(shù)據(jù)庫(kù)和基因組圖譜數(shù)據(jù)庫(kù)汪茧,因此用戶可以檢測(cè)一組具有相關(guān)性的基因是否在通路中仍然相關(guān),或者由染色體上的某一類基因編碼限番。
通路信息
PATHWAY數(shù)據(jù)庫(kù)
目前整理的最好的KEGG/PATHWAY數(shù)據(jù)庫(kù)就是代謝舱污,通過大約90個(gè)代謝通路圖來(lái)呈現(xiàn)。每一個(gè)通路都已看做是一些列酶(或者EC號(hào)碼弥虐,酶的國(guó)際命名)組成的網(wǎng)絡(luò)扩灯。通過測(cè)序上的相似和基因上的位置相關(guān)可以鑒定酶媚赖,繼而進(jìn)行命名得到EC號(hào)碼珠插,然后就可以通過基因組中的基因和通路中的酶構(gòu)建物種特異的通路惧磺。我們嘗試將這種通路構(gòu)建方法推廣到細(xì)胞凋亡,信號(hào)轉(zhuǎn)導(dǎo)捻撑,細(xì)胞循環(huán)等過程磨隘,但是在調(diào)控通路構(gòu)建上有兩個(gè)主要的問題。
因?yàn)槲锓N之間的代謝通路比較保守顾患,所以容易先構(gòu)建一個(gè)一般性的通路番捂,在通過計(jì)算得到物種特異性的通路。但是調(diào)控通路物種間的差異比較大江解,很難得到一般通路设预,因此我們基因上為每一個(gè)物種構(gòu)建調(diào)控通路。同時(shí)犁河,我們正在嘗試為不同物種的調(diào)控通路尋找共享的部分絮缅,或者那些部分是可以組裝起來(lái)的。
另一個(gè)問題就是調(diào)控通路沒有合適的識(shí)別元件呼股。代謝通路中EC號(hào)碼,作為識(shí)別點(diǎn)(酶)的 元件画恰,同時(shí)指向基因信息彭谁。我們準(zhǔn)備將同源基因擴(kuò)展,實(shí)現(xiàn)類似EC號(hào)碼的功能允扇。用同源基因來(lái)標(biāo)記調(diào)控通路中的點(diǎn)(蛋白)缠局,同時(shí)指向基因組信息。而且考润,同源基因?qū)⑻娲鶨C號(hào)碼狭园,因?yàn)榇嬖诙嗷驅(qū)?yīng)一個(gè)EC號(hào)碼的現(xiàn)象,比如一個(gè)酶的不同亞基糊治,不同基因在不同條件下的表達(dá)唱矛。
同源基因組表
KEGG中同源基因的確定,不僅通過測(cè)序上的相似井辜,還檢測(cè)所有組成成員是否在一個(gè)功能中绎谦,比如保守的子通路或者分子復(fù)合物。KEGG同源基因組有三個(gè)特征:
- 一個(gè)物種是否包組成一個(gè)功能的完整基因集
- 這些基因是否在染色體上耦合
- 什么是不同生物之間的直系同源基因
目前有61個(gè)直系同源基因組表粥脚,比如窃肠,基因組上編碼代謝途徑相關(guān)酶類的一類基因。在KEGG中這些基因類首先由啟發(fā)式圖形比較算法檢測(cè)到刷允,然后手動(dòng)編輯并組裝到同源基因組表上冤留。我們使用兩種圖形對(duì)比方法:基因組-通路碧囊,基因組-基因組。直系同源組表是這種成對(duì)比較的復(fù)合物纤怒,代表該途徑的保守部分糯而,或者我們稱之為途徑基序。
生成蛋白-蛋白相互作用
KEGG通路主要采用蛋白網(wǎng)絡(luò)的呈現(xiàn)方式(也含部分功能RNA)肪跋。如圖2:
- 代謝通路是一個(gè)蛋白與蛋白之間間接作用的網(wǎng)絡(luò)歧蒋,實(shí)際上是酶關(guān)系網(wǎng)絡(luò)
- 與之相對(duì),調(diào)控通路常常由蛋白之間的直接作用組成州既,比如磷酸化
- 還有一些間接作用網(wǎng)絡(luò)谜洽,比如轉(zhuǎn)錄因子和基因轉(zhuǎn)錄產(chǎn)物之間的作用
上述三種網(wǎng)絡(luò)就是蛋白之間相互作用網(wǎng)絡(luò)的主要類型,對(duì)于這些網(wǎng)絡(luò)來(lái)說(shuō)吴叶,聯(lián)系相關(guān)的基因信息也十分重要阐虚。通過廣義蛋白質(zhì) - 蛋白質(zhì)相互作用網(wǎng)絡(luò)的概念,我們正在擴(kuò)展參考路徑圖的集合蚌卤。