我們有時候很關(guān)心基因所在的pathway窜护、上下調(diào)控以及一堆基因富集到的pathway,再或者同源基因等信息匆绣,KEGG數(shù)據(jù)庫也算是目前(注釋)常用的明星數(shù)據(jù)庫
KEGG:京都基因和基因組百科全書:KEGG項目于1995年5月在日本教育肝劲,科學(xué)梁沧,體育和文化部的人類基因組計劃下啟動(2)[計算資源由京都大學(xué)化學(xué)研究所超級計算機(jī)實驗室提供。]重虑。KEGG和相關(guān)軟件工具中的所有數(shù)據(jù)都作為日本GenomeNet服務(wù)的一部分提供(3)践付。KEGG由三個數(shù)據(jù)庫組成:用于表示相互作用分子網(wǎng)絡(luò)的高階函數(shù)的pathway,用于收集所有完全測序的基因組和一些部分基因組的基因目錄的GENES缺厉,以及用于化學(xué)品收集的LIGAND(4)細(xì)胞中的化合物永高,酶分子和酶促反應(yīng)。KEGG系統(tǒng)的整體架構(gòu)與之前報道的基本相同(5)提针。用戶可以從通路(功能)信息開始自上而下進(jìn)入KEGG系統(tǒng)命爬,或者從KEGG目錄頁面的基因組信息開始自下而上進(jìn)入。https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102409/
產(chǎn)生背景:如何借助計算機(jī)全面的展示細(xì)胞和生物所包含的生物學(xué)信息室后基因組時代的重大挑戰(zhàn)之一辐脖∷峭穑科學(xué)家期望能夠根據(jù)基因組中的信息,用計算機(jī)計算或者預(yù)測出的比價復(fù)雜的細(xì)胞中的通路或者生物的復(fù)雜行為嗜价,出于這個目的艇抠,日本京都大學(xué)生物信息學(xué)中心的Kanehisa實驗室于1995年建立了生物信息學(xué)數(shù)據(jù)庫KEGG。現(xiàn)在是基因組測序和其他高通量實驗技術(shù)產(chǎn)生的大規(guī)模分子數(shù)據(jù)集的整合和解釋的重要參考知識庫久锥。
內(nèi)涵:KEGG是一個數(shù)據(jù)庫資源家淤,用于從基因組和分子水平信息中了解生物系統(tǒng)的高級功能和效用,例如細(xì)胞瑟由,生物體和生態(tài)系統(tǒng)絮重。它是生物系統(tǒng)的計算機(jī)表示,由基因和蛋白質(zhì)(基因組信息)和化學(xué)物質(zhì)(化學(xué)信息)的分子構(gòu)建塊組成,它們與相互作用绿鸣,反應(yīng)和關(guān)系網(wǎng)絡(luò)的分子接線圖的知識相結(jié)合(系統(tǒng)信息) )疚沐。它還包含疾病和藥物信息(健康信息)作為生物系統(tǒng)的擾動。https://www.genome.jp/kegg/kegg1a.html
特點:人工創(chuàng)建了一個知識庫潮模,基于使用一種計算的形式捕捉和組織實驗室得到的知識而形成的系統(tǒng)功能知識庫亮蛔。它是一個生物系統(tǒng)的計算機(jī)模擬。(https://www.kegg.jp/kegg/)
KEGG具有強(qiáng)大的圖形功能擎厢,來介紹眾多的代謝途徑以及各途徑之間的關(guān)系究流。2019.8月統(tǒng)計
- genes數(shù)據(jù)庫里:儲存基因組信息,包括完整和部分‘’測序的基因組序列动遭;[從ncbi的GeneBank中搜集而來]
- pathway數(shù)據(jù)庫:儲存更高級的功能信息
- LIGAND數(shù)據(jù)庫:包含關(guān)于化學(xué)物質(zhì)芬探、酶分子、酶反應(yīng)等信息
- LinkDB:鏈接世界上其他一些大型生物信息學(xué)數(shù)據(jù)庫
下圖來自于文獻(xiàn):https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102409/
KEGG數(shù)據(jù)庫目前統(tǒng)計的數(shù)據(jù)
https://www.kegg.jp/kegg/docs/statistics.html厘惦,能看到有536條pathway偷仿。406個module。
KEGG Orthology 數(shù)據(jù)庫
KEGG建立了KEGG直系同源系統(tǒng)(the KEGG Orthology(KO) system) 宵蕉,該系統(tǒng)吧分析網(wǎng)絡(luò)的相關(guān)信息連接到基因組在中酝静,從而發(fā)展和促進(jìn)了跨物種注釋流程。因此在KEGG 數(shù)據(jù)庫中羡玛,直接存儲分子功能的就是KEGG Orthology 數(shù)據(jù)庫别智。
- KEGG Orthology 簡稱KO,該數(shù)據(jù)庫中的每一條記錄用K number 唯一標(biāo)識〖诟澹基于同源基因具有相似功能的假設(shè)薄榛,把基因的功能進(jìn)行了擴(kuò)充。對于某個物種中功能研究的很清楚的基因让歼,在不同的物種間搜尋該基因的同源基因敞恋,將這些同源基因定義為一個orthology, 用該基因的功能作為該orthology 的功能;這樣就將對于不同物種基因功能的研究都利用起來是越,提供了一個全面的研究基因功能的數(shù)據(jù)庫耳舅。(https://cloud.tencent.com/developer/news/119170)
- 特征:他是蛋白質(zhì)或酶的一個分類體系,序列高度相似倚评,并且在同一條通路上有相似功能的蛋白質(zhì)被歸為一組浦徊,然后被打上KO(或K)標(biāo)簽。
- 代謝通路圖可以找到Ortholog table表:同源基因
KEGG的pathway
根據(jù)相關(guān)知識手繪的天梧,這里的手繪的意思可能是指人工以特定的語言格式來確定通路各組件的聯(lián)系盔性。
基因組信息主要是從NCBI等數(shù)據(jù)庫中得到的,除了有完整的基因序列外呢岗,還有沒完成的草圖冕香。
ko編號就是一個pathway蛹尝,例如ko04722,這個通路不分物種悉尾,相當(dāng)于所有物種這一通路的并集
K編號表示一個基因突那,例如K02582,是ko通路中的基本單元构眯,某一K編號代表的不是某一具體物種的基因愕难,而是所有物種的某一同源基因的統(tǒng)稱。
pathway惫霸,module 等數(shù)據(jù)庫都是建立在KO數(shù)據(jù)庫的基礎(chǔ)上的猫缭,KO可以說是KEGG中處于核心地位的一個數(shù)據(jù)庫,所以理解KO數(shù)據(jù)庫就特別的重要壹店。
對于一個具體的KO來說猜丹,在這個KO下是一系列基因,這些基因可以來源于不同的物種硅卢,但是具有相同的功能射窒。以K00161為例,對應(yīng)的同源基因的列表可以從KEGG的官網(wǎng)查詢得到老赤。
pathway的五種類型:
僅僅第一種參考通路是手動畫出來的轮洋,其他的通路圖都是通過計算產(chǎn)生的制市。pathway中的每一個框或線都對應(yīng)一個或多個K編號抬旺、EC編號及R編號。
- map - Reference pathway:對于代謝相關(guān)的通路祥楣,在reference pathway中开财,一個點同時表示一個基因,這個基因編碼的酶或這個酶參加的反應(yīng)
- ko - Reference pathway(KO):KO通路中的點只表示基因
- ec - Reference pathway(EC):EC通路中的點只表示相關(guān)的酶
- rn - Reference pathway(Reaction):Reaction通路中的點只表示該點參與的某個反應(yīng)误褪、反應(yīng)物及反應(yīng)類型
- org - Organism-specific pathway map:對于所有的代謝和非代謝通路责鳍,K編號都被認(rèn)為是基因的標(biāo)識符,這個標(biāo)識符在每一個物種中對應(yīng)該物種中的某個基因兽间,從而得到物種特異性的pathway历葛。
KEGG主頁可以搜索的類型如:
- map00010
- ko00010
- ec00010
- rn00010
- hsa00010
KEGG ftp
KEGG(http://www.genome.ad.jp/kegg/)是一套數(shù)據(jù)庫和相關(guān)軟件,用于從基因組信息中理解和模擬細(xì)胞或生物體的高階功能行為嘀略。首先恤溶,KEGG計算機(jī)負(fù)責(zé)各種細(xì)胞過程的蛋白質(zhì)相互作用網(wǎng)絡(luò)(PATHWAY數(shù)據(jù)庫)和化學(xué)反應(yīng)(LIGAND數(shù)據(jù)庫)的數(shù)據(jù)和知識。其次帜羊,KEGG嘗試為基因組完全測序的所有生物重建蛋白質(zhì)相互作用網(wǎng)絡(luò)(GENES和SSDB數(shù)據(jù)庫)咒程。第三,KEGG可用作功能基因組學(xué)(EXPRESSION數(shù)據(jù)庫)和蛋白質(zhì)組學(xué)(BRITE數(shù)據(jù)庫)實驗的參考知識讼育。[https://www.ncbi.nlm.nih.gov/pubmed/12539951]
京都基因和基因組百科全書(KEGG)是從基因組角度理解生物功能的生物信息學(xué)資源帐姻。它是一種多物種稠集,綜合資源,由基因組學(xué)饥瓷,化學(xué)和網(wǎng)絡(luò)信息組成剥纷,交叉引用眾多外部數(shù)據(jù)庫,包含一整套構(gòu)建模塊(基因和分子)和接線圖(生物途徑)來表示細(xì)胞功能呢铆。KEGG由一套數(shù)據(jù)庫組成:PATHWAY筷畦,GENES / Sequence Similarity Database(SSDB),信息傳輸和表達(dá)中的生物分子關(guān)系(BRITE)刺洒,以及LIGAND鳖宾,它是COMPOUND,DRUG逆航,GLYCAN鼎文,REACTION,REPAIR和酶因俐。最近在KEGG中添加了兩個新的數(shù)據(jù)庫:DGENES(用于草圖基因組)和EGENES(用于表達(dá)序列標(biāo)簽[EST]數(shù)據(jù))拇惋。EGENES是一個知識庫系統(tǒng),用于有效分析生物特異性EST抹剩,包括公眾可獲得的植物EST撑帖。EGENES將基因組信息與更高階的功能信息鏈接在一個數(shù)據(jù)庫中。存儲在EGENES中的基因組信息是EST重疊群的集合澳眷,通過組裝公共EST產(chǎn)生胡嘿。[https://www.ncbi.nlm.nih.gov/pubmed/18287706]
后基因組時代的一個重大挑戰(zhàn)是細(xì)胞和生物體的完整計算機(jī)表示,這將使得能夠從基因組信息計算預(yù)測細(xì)胞過程的更高水平復(fù)雜性和生物體行為钳踊。為此衷敌,我們一直在開發(fā)一種基于知識的網(wǎng)絡(luò)預(yù)測方法,即基于基因組中的一組完整基因拓瞪,預(yù)測負(fù)責(zé)各種細(xì)胞過程的蛋白質(zhì)相互作用網(wǎng)絡(luò)缴罗。KEGG在http://www.genome.ad.jp/kegg/是參考知識庫,整合了當(dāng)前關(guān)于分子相互作用網(wǎng)絡(luò)的知識祭埂,如路徑和復(fù)合物(PATHWAY數(shù)據(jù)庫)面氓,關(guān)于基因組計劃產(chǎn)生的基因和蛋白質(zhì)的信息(GENES / SSDB / KO數(shù)據(jù)庫)和有關(guān)生化化合物和反應(yīng)的信息(COMPOUND / GLYCAN / REACTION數(shù)據(jù)庫)。這三種類型的數(shù)據(jù)庫實際上代表了三個圖形對象蛆橡,稱為蛋白質(zhì)網(wǎng)絡(luò)舌界,基因宇宙和化學(xué)宇宙。正在進(jìn)行新的努力以計算和手動抽取關(guān)于KO(KEGG Orthology)數(shù)據(jù)庫中的直向同源簇的知識航罗,并收集和分析GLYCAN數(shù)據(jù)庫中的碳水化合物結(jié)構(gòu)禀横。[https://www.ncbi.nlm.nih.gov/pubmed/14681412]
京都基因和基因組百科全書(KEGG,http://www.genome.jp/kegg/或http://www.kegg.jp/)是一種整合基因組學(xué)粥血,化學(xué)和系統(tǒng)功能信息的數(shù)據(jù)庫資源柏锄。特別是酿箭,來自完全測序的基因組的基因目錄與細(xì)胞,生物體和生態(tài)系統(tǒng)的更高水平的系統(tǒng)功能相關(guān)聯(lián)趾娃。通過以可計算的形式捕獲和組織實驗知識缭嫡,已經(jīng)進(jìn)行了大量努力以手動創(chuàng)建這種系統(tǒng)功能的知識庫; 即,以KEGG途徑圖抬闷,BRITE功能層次結(jié)構(gòu)和KEGG模塊的形式妇蛀。還通過KEGG Orthology系統(tǒng)不斷努力開發(fā)和改進(jìn)用于將基因組與分子網(wǎng)絡(luò)連接的跨物種注釋程序。在這里笤成,我們報告KEGG Mapper评架,KEGG PATHWAY的工具集合,BRITE和MODULE映射炕泳,實現(xiàn)大規(guī)模數(shù)據(jù)集的集成和解釋纵诞。我們還報告了KEGG繪圖程序的變體,以擴(kuò)展知識庫培遵,其中不同類型的數(shù)據(jù)和知識浙芙,例如疾病基因和藥物靶標(biāo),被整合為KEGG分子網(wǎng)絡(luò)的一部分籽腕。最后嗡呼,我們描述了KEGG內(nèi)容的最新增強(qiáng),特別是在實踐和社會中使用的疾病和藥物信息的整合皇耗,以支持轉(zhuǎn)化生物信息學(xué)南窗。[https://www.ncbi.nlm.nih.gov/pubmed/22080510]