在ncbi上搜索 kegg && Kanehisa M,這個(gè)作者簡(jiǎn)直不要太牛了哦槐脏,就一個(gè)KEGG數(shù)據(jù)庫喉童,發(fā)了好多文章啊,目前KEGG有18個(gè)數(shù)據(jù)庫顿天,每一個(gè)數(shù)據(jù)庫一篇的話堂氯,呵呵噠。而且好幾篇10+牌废。想認(rèn)真了解KEGG咽白,拜讀他的文獻(xiàn)吧。很多都講的很清楚鸟缕,我隨便就軟件翻譯了一篇他的文獻(xiàn)晶框,是2019剛出爐的排抬。湊合看吧~
1區(qū) 11.147 Nucleic Acids Res. 2019 Jan 8;47(D1):D590-D595. doi: 10.1093/nar/gky962.
New approach for understanding genome variations in KEGG.
Kanehisa M1, Sato Y2, Furumichi M1, Morishima K1, Tanabe M1.
Author information
- 1 Institute for Chemical Research, Kyoto University, Uji, Kyoto 611-0011, Japan.
- 2 Social ICT Solutions Department, Fujitsu Kyushu Systems Ltd., Hakata-ku, Fukuoka 812-0007, Japan.
摘要
KEGG(京都基因和基因組百科全書; https://www.kegg.jp/或https://www.genome.jp/kegg/)是基因組序列和其他高通量數(shù)據(jù)的生物解釋的參考知識(shí)庫。它是一個(gè)綜合數(shù)據(jù)庫授段,包括三個(gè)通用類別的系統(tǒng)信息蹲蒲,基因組信息和化學(xué)信息,以及另一類特定于人類的健康信息侵贵。KEGG途徑圖届搁,BRITE層次結(jié)構(gòu)和KEGG模塊
已經(jīng)被開發(fā)為具有功能性直向同源物的KEGG Orthology節(jié)點(diǎn)的通用分子網(wǎng)絡(luò),使得KEGG途徑作圖和其他程序可以應(yīng)用于任何細(xì)胞生物體窍育。然而卡睦,遺憾的是,這種通用方法不足以
用于健康信息類別中的知識(shí)表示漱抓,其中必須考慮人類基因組的變異表锻,尤其是與疾病相關(guān)的變異
。從而乞娄,我們引入了一種新方法瞬逊,其中人類基因變體明確地納入我們?cè)谧罱l(fā)布的KEGG NETWORK數(shù)據(jù)庫中稱為“網(wǎng)絡(luò)變體”。這允許積累關(guān)于疾病相關(guān)的擾亂分子網(wǎng)絡(luò)的知識(shí)补胚,不僅由基因變體引起码耐,而且由病毒和其他病原體,環(huán)境因素和藥物引起溶其。我們期望KEGG NETWORK將成為另一個(gè)參考知識(shí)庫骚腥,用于基本了解疾病機(jī)制和臨床測(cè)序和藥物開發(fā)的實(shí)際應(yīng)用。
KEGG:綜合數(shù)據(jù)庫瓶逃;
三類通用類別:
+ 系統(tǒng)信息
+ 基因組信息
+ 化學(xué)信息
那么進(jìn)入官網(wǎng)后束铭,你會(huì)發(fā)現(xiàn),如今的KEEG表分成4個(gè)大框的類別:增加
+ 健康信息
[看圖1,還有釋放數(shù)據(jù)庫的開始時(shí)間]
KEGG NETWORK數(shù)據(jù)庫:網(wǎng)絡(luò)圖-突變
積累關(guān)于疾病相關(guān)的擾亂分子網(wǎng)絡(luò)的知識(shí)厢绝,不僅由基因變體引起契沫,而且由病毒和其他病原體,環(huán)境因素和藥物引起昔汉。
介紹
? 保護(hù)和變異是不同層次的生物系統(tǒng)的固有特征懈万。KEGG(京都基因和基因組百科全書)數(shù)據(jù)庫已被開發(fā)用于理解細(xì)胞生物水平上基因和基因組的保守和變異。特別地靶病,已經(jīng)開發(fā)了用于表示基因和蛋白質(zhì)的保守特征的功能性直向同源物的KO(KEGG Orthology)系統(tǒng)会通,并且已經(jīng)開發(fā)了作為KO節(jié)點(diǎn)網(wǎng)絡(luò)繪制的KEGG途徑圖譜的參考知識(shí)庫,用于表示細(xì)胞過程的保守特征娄周。和有機(jī)體的行為涕侈。該通用結(jié)構(gòu)允許KEGG作圖,一旦基因用KO標(biāo)識(shí)符注釋煤辨,就可以從其基因組中的基因集自動(dòng)重建特定生物的途徑裳涛。結(jié)果是木张,這種通用方法的缺點(diǎn)是由于智人被簡(jiǎn)單地視為存儲(chǔ)在KEGG中的許多物種之一。隨著KEGG數(shù)據(jù)庫的健康信息類別的擴(kuò)展端三,一種新方法已成為更好地整合人類基因組责静,人類途徑窿给,人類疾病和藥物的必要條件(1)找蜜。因此娶视,我們現(xiàn)在明確地將單一種類的人類的保守和變異納入其中**乍楚。
**已經(jīng)開發(fā)了用于表示基因和蛋白質(zhì)的保守特征的功能性直向同源物的KO(KEGG Orthology)系統(tǒng)**:以KO作為節(jié)點(diǎn)怨咪,pathway包含所有物種的信息牍颈;
因此插勤,有必要單獨(dú)把人類的基因組泳挥、pathway然痊、疾病、藥物等整合起來屉符,納入單一種類的人類的煲粥和變異剧浸。
? 在KEGG中,疾病被認(rèn)為是由遺傳和環(huán)境因素的各種擾動(dòng)引起的分子網(wǎng)絡(luò)的擾動(dòng)狀態(tài)矗钟,以及被視為不同類型的擾動(dòng)的藥物(2)唆香。然而,迄今為止吨艇,這種擾動(dòng)并未得到很好的體現(xiàn)躬它。例如,癌癥和其他疾病相關(guān)基因中的已知遺傳改變?cè)诩膊⊥緩綀D中以紅色標(biāo)記东涡,但由于它們被繪制為KO節(jié)點(diǎn)冯吓,因此只有參考人類基因數(shù)據(jù)與這些紅色標(biāo)記的節(jié)點(diǎn)相關(guān)聯(lián)。利用本文中描述的新方法疮跑,擾動(dòng)分子網(wǎng)絡(luò)的實(shí)際數(shù)據(jù)集在新的KEGG NETWORK數(shù)據(jù)庫中呈現(xiàn)组贺,該數(shù)據(jù)庫是網(wǎng)絡(luò)變體的集合,例如由基因變體祖娘,病毒和其他因素引起的信號(hào)網(wǎng)絡(luò)的變體失尖。
利用本文中描述的新方法,擾動(dòng)分子網(wǎng)絡(luò)的實(shí)際數(shù)據(jù)集在新的KEGG NETWORK數(shù)據(jù)庫中呈現(xiàn)渐苏,該數(shù)據(jù)庫是網(wǎng)絡(luò)變體的集合掀潮,例如
由基因變體,病毒和其他因素引起的信號(hào)網(wǎng)絡(luò)的變體整以。
KEGG概述
? 1995年12月胧辽,KEGG的第一個(gè)版本只提供了四個(gè)數(shù)據(jù)庫:PATHWAY,GENES公黑,COMPOUND和ENZYME邑商。如圖1所示摄咆,KEGG現(xiàn)在由四個(gè)類別的十八個(gè)數(shù)據(jù)庫組成,但基本概念保持不變人断。分別從PATHWAY吭从,GENES和COMPOUND數(shù)據(jù)庫擴(kuò)展了三個(gè)通用類別的系統(tǒng)、基因組和化學(xué)信息恶迈,并引入了額外的人類特定健康信息類別涩金,以使KEGG在實(shí)踐中更有用。通路映射的想法首先通過ENZYME的EC編號(hào)系統(tǒng)實(shí)現(xiàn)暇仲,其中KEGG代謝途徑圖用EC編號(hào)節(jié)點(diǎn)繪制步做,并且基因組中的酶基因被指定EC編號(hào)。然而奈附,基于EC的途徑映射僅持續(xù)了5年全度,EC編號(hào)被直系同源ID取代,后者成為KOs斥滤。自2003年以來将鸵,路徑映射由KO系統(tǒng)執(zhí)行,其中所有KEGG途徑圖是用KO節(jié)點(diǎn)創(chuàng)建的佑颇,并且基因組中的基因被分配了KO標(biāo)識(shí)符(K個(gè)編號(hào))顶掉。EC編號(hào)通過KO系統(tǒng)間接分配給各個(gè)基因√粜兀基于KO的映射也適用于BRITE層次結(jié)構(gòu)文件和KEGG模塊痒筒。
最初的KEGG就四個(gè)數(shù)據(jù)庫:PATHWAY,GENES嗜暴,COMPOUND和ENZYME
現(xiàn)在的KEGG:
4個(gè)類別的18個(gè)數(shù)據(jù)庫組成凸克,
但基本概念不變,分別從PATHWAY闷沥,GENES和COMPOUND數(shù)據(jù)庫擴(kuò)展了三個(gè)通用類別的系統(tǒng)萎战、基因組和化學(xué)信息。
并引入了額外的人類特定健康信息類別舆逃,以使KEGG在實(shí)踐中更有用蚂维。
~KEGG由四個(gè)類別的十八個(gè)數(shù)據(jù)庫組成,除了計(jì)算生成的SSDB之外路狮,它們都是手動(dòng)策劃的虫啥。化學(xué)信息類別中的數(shù)據(jù)庫統(tǒng)稱為KEGG LIGAND奄妨。健康信息類別中的數(shù)據(jù)庫以及兩個(gè)外部數(shù)據(jù)庫涂籽,從JAPIC數(shù)據(jù)庫(http://www.japic.or.jp)獲得的日本藥物標(biāo)簽和與DailyMed數(shù)據(jù)庫鏈接的FDA藥物標(biāo)簽(https://dailymed.nlm.nih.gov/),統(tǒng)稱為KEGG MEDICUS砸抛。~
圖說明數(shù)據(jù)庫之間的關(guān)系和施放時(shí)間F来啤J鞣恪!
? 2017年12月景东,KEGG NETWORK數(shù)據(jù)庫與KEGG VARIANT的相關(guān)數(shù)據(jù)庫一起發(fā)布砂轻。兩者都是人類特定的數(shù)據(jù)庫,并構(gòu)成健康信息類別的一部分(圖1)斤吐。KEGG NETWORK是我們首次嘗試明確考慮單一物種內(nèi)的基因組變異搔涝。雖然我們只考慮與人類疾病和藥物相關(guān)的變異,但KEGG NETWORK中使用的方法可以應(yīng)用于任何物種的任何變異和措。在以下部分中庄呈,我們將介紹KEGG NETWORK和過去兩年的其他發(fā)展。有關(guān)KEGG數(shù)據(jù)庫的更完整描述可以在2017年核酸研究數(shù)據(jù)庫問題(1)的前一篇文章中找到派阱。
2017年12月抒痒,KEGG NETWORK數(shù)據(jù)庫與KEGG VARIANT的相關(guān)數(shù)據(jù)庫一起發(fā)布。兩者都是人類特定的數(shù)據(jù)庫颁褂,并構(gòu)成健康信息類別的一部分。
KEGG NETWORK
從基因變體到網(wǎng)絡(luò)變體
? 圖2說明了KEGG NETWORK背后的概念傀广。與用于了解細(xì)胞生物保護(hù)和變異的通用KEGG數(shù)據(jù)庫相比颁独,KEGG NETWORK專注于人類智能,提供更詳細(xì)的圖片伪冰,特別是在網(wǎng)絡(luò) - 疾病關(guān)聯(lián)方面理解人類疾彩木啤(2))。在KEGG PATHWAY數(shù)據(jù)庫中贮聂,基于KO的參考途徑是從已發(fā)表的文獻(xiàn)手動(dòng)創(chuàng)建的靠柑,并且計(jì)算生成所有生物特異性途徑的實(shí)例。KEGG NETWORK數(shù)據(jù)庫是網(wǎng)絡(luò)元素的集合吓懈,其中參考和變體網(wǎng)絡(luò)元素都是根據(jù)已發(fā)布的文獻(xiàn)手動(dòng)創(chuàng)建的歼冰。參考網(wǎng)絡(luò)元件由人類基因ID表示,而變體網(wǎng)絡(luò)元件可包含基因變體耻警,病毒蛋白質(zhì)隔嫡,環(huán)境因子和藥物。因此甘穿,變體網(wǎng)絡(luò)元件(也稱為網(wǎng)絡(luò)/變體)不僅可以適應(yīng)基因變體腮恩,而且可以適應(yīng)其他擾動(dòng)因素以理解與疾病相關(guān)的擾動(dòng)分子網(wǎng)絡(luò)。
KEGG NETWORK專注于*人類智能*温兼,提供更詳細(xì)的圖片秸滴,特別是在網(wǎng)絡(luò) - 疾病關(guān)聯(lián)方面理解人類疾病
在KEGG PATHWAY數(shù)據(jù)庫中,基于KO的參考途徑是從已發(fā)表的文獻(xiàn)手動(dòng)創(chuàng)建的募判,計(jì)算生成pathway
Network/va:有網(wǎng)絡(luò)中的元素組成荡含,其中:參考和突變的因素都是從已發(fā)布的文獻(xiàn)手動(dòng)創(chuàng)建的咒唆。
+ 參考網(wǎng)絡(luò)元素:由人類的ID表示
+ 變體網(wǎng)絡(luò)元素:由基因變體、病毒蛋白質(zhì)内颗、環(huán)境因子和藥物钧排。
因此:
通過變體、其他擾動(dòng)因素來更好的理解與疾病相關(guān)的擾動(dòng)分子網(wǎng)絡(luò)均澳!
KEGG NETWORK數(shù)據(jù)庫的概念圖恨溜。與將*人類*作為KEGG中的6000種物種之一處理的傳統(tǒng)方法相比,**新方法允許明確地結(jié)合人類基因和基因組的變體**找前。
癌癥網(wǎng)絡(luò)變種
? KEGG NETWORK數(shù)據(jù)庫將包含與各種疾病相關(guān)的網(wǎng)絡(luò)變異糟袁,但截至2018年9月,它包含癌癥躺盛,病毒感染和某些類型的內(nèi)分泌和代謝疾病的網(wǎng)絡(luò)變體
项戴。圖3顯示了癌癥網(wǎng)絡(luò)變體的實(shí)例。癌細(xì)胞獲得特征槽惫,稱為通過的Hanahan和Weinberg(癌癥標(biāo)志3周叮,4),如維持增殖信號(hào)傳導(dǎo)和抗細(xì)胞死亡界斜,這是緊密相關(guān)的擾動(dòng)信號(hào)傳導(dǎo)途徑如MAPK信號(hào)傳導(dǎo)和PI3K-AKT信號(hào)傳導(dǎo)途徑仿耽。圖3A顯示了MAPK信號(hào)傳導(dǎo)途徑圖(KEGG ID:hsa04010)的一部分,其主要途徑是從生長(zhǎng)因子到以粉紅色標(biāo)記的ERK激酶各薇。數(shù)字圖3B示出了NETWORK數(shù)據(jù)庫中該路徑的所選數(shù)據(jù)项贺,其中每個(gè)網(wǎng)絡(luò)元素由N號(hào)標(biāo)識(shí),并且網(wǎng)絡(luò)元素的集合可以在我們所稱的網(wǎng)絡(luò)變化圖中查看峭判。
圖 3:(A)KEGG途徑圖(hsa04010)中的MAPK(ERK)信號(hào)傳導(dǎo)途徑开缎,其中從生長(zhǎng)因子到ERK激酶的主要途徑以粉紅色標(biāo)記
。 (B)網(wǎng)絡(luò)變體圖(nt06201)的示例林螃,作為與(A)中的主路徑對(duì)應(yīng)的網(wǎng)絡(luò)元素的集合奕删。 文本著色表示:參考網(wǎng)絡(luò)元素為綠色
,基因變異為紅色
疗认,病毒蛋白為紫色
急侥。
? 網(wǎng)絡(luò)變異圖采用顏色編碼:綠色參考網(wǎng)絡(luò)元素,紅色基因變體侮邀,紫色病毒蛋白質(zhì)和藍(lán)色藥物坏怪。如圖3B所示,地圖可以以對(duì)齊模式顯示绊茧,意味著變體網(wǎng)絡(luò)元素與參考網(wǎng)絡(luò)元素對(duì)齊铝宵,并且可以與左側(cè)的另一種顏色編碼指示的癌癥類型相關(guān)聯(lián),例如非綠色。小細(xì)胞肺癌和褐色黑色素瘤鹏秋。圖3包含眾所周知的MAPK信號(hào)通路組成性激活的例子尊蚁,導(dǎo)致持續(xù)的增殖信號(hào)傳導(dǎo),如EGFR突變(N00014)和EML4-ALK融合(N00007)在非小細(xì)胞肺癌侣夷,BCR-ABL融合( N00002)在黑色素瘤中的慢性髓性白血病和BRAF突變(N00013)横朋。
網(wǎng)絡(luò)元素的節(jié)點(diǎn)和邊緣
? 目前,每個(gè)網(wǎng)絡(luò)元素是由不同類型的邊連接的線性節(jié)點(diǎn)序列百拓,如圖4所示琴锭。節(jié)點(diǎn)包括人參考基因(由KEGG基因中的hsa ID鑒定),人基因變體衙传,病毒蛋白决帖,代謝物和藥物。邊數(shù)的雙字符文本表示用于N數(shù)字條目的定義字段蓖捶,邊緣的符號(hào)表示用于網(wǎng)絡(luò)變體映射地回。
圖 4:KEGG網(wǎng)絡(luò)元素的節(jié)點(diǎn)和邊緣。
看圖的Node俊鱼、Edge的信息描述
? 基因變體可包括(i)通過激活突變刻像,擴(kuò)增和融合獲得功能,(ii)通過滅活突變和缺失而喪失功能和(iii)基因/蛋白質(zhì)過表達(dá)并闲。它們存儲(chǔ)在KEGG VARIANT數(shù)據(jù)庫中绎速,并由變體ID識(shí)別,例如hsa_var:1956v1和hsa_var:1956v2焙蚓,分別代表EGFR(hsa:1956)擴(kuò)增和突變。每當(dāng)變體條目被認(rèn)為是等同的時(shí)洒宝,每個(gè)變體條目可以包含已知突變的多個(gè)實(shí)例和其他遺傳改變购公。例如,1956v2由外顯子19缺失和L858R突變組成雁歌。KEGG VARIANT數(shù)據(jù)庫還包含指向外部數(shù)據(jù)庫的鏈接宏浩,如ClinVar(5),dbSNP(6)和COSMIC(7)靠瞎。
KEGG VARIANT數(shù)據(jù)庫還包含指向外部數(shù)據(jù)庫的鏈接比庄,如ClinVar(5),dbSNP(6)和COSMIC(7)
? 圖3B包含由病毒蛋白乏盐,卡波西肉瘤相關(guān)皰疹病毒(KSHV)的K1蛋白引起的網(wǎng)絡(luò)變體(N00160)佳窑。這種病毒癌蛋白激活多種途徑以維持增殖信號(hào)傳導(dǎo)和抵抗細(xì)胞死亡,這類似于人癌基因父能,如圖5所示的EML4-ALK融合基因神凑。病毒蛋白質(zhì)擾動(dòng)的另一個(gè)重要方面涉及逃避免疫破壞,這在致癌病毒和非致癌病毒中均可觀察到。其中一種逃避策略稱為病毒模仿(8)溉委,編碼調(diào)節(jié)免疫反應(yīng)的蛋白質(zhì)同源物鹃唯,如細(xì)胞因子和細(xì)胞因子受體。KEGG NETWORK正在組織病毒蛋白的這些和其他擾動(dòng)瓣喊,以及KEGG PATHWAY中病毒感染的增強(qiáng)版路徑圖坡慌。
圖5 比較KSHV的癌蛋白K1和癌基因EML4-ALK在非小細(xì)胞肺癌中激活的信號(hào)通路。 這些途徑涉及維持增殖信號(hào)傳導(dǎo)和抵抗細(xì)胞死亡藻三。
藥物 - 目標(biāo)關(guān)系
? KEGG NETWORK數(shù)據(jù)庫還包含藥物 - 靶標(biāo)關(guān)系洪橘,特別是對(duì)于那些以變體蛋白質(zhì)為靶標(biāo)的藥物。圖6顯示了針對(duì)圖3B中所示的MAPK信號(hào)傳導(dǎo)途徑中的基因變體的抗癌藥物趴酣。由于癌細(xì)胞可通過二次突變產(chǎn)生對(duì)分子靶向藥物的抗性梨树,因此區(qū)分藥物 - 靶標(biāo)關(guān)系和相應(yīng)的變體數(shù)據(jù)。例如岖寞,伊馬替尼抡四,克唑替尼和吉非替尼的第一代酪氨酸激酶抑制劑與后代的對(duì)應(yīng)物不同。這些數(shù)據(jù)主要來自DailyMed數(shù)據(jù)庫中的FDA藥物標(biāo)簽仗谆。
圖 6:抑制信號(hào)傳導(dǎo)途徑的抗癌藥物的藥物 - 靶標(biāo)關(guān)系的實(shí)例如圖3B所示指巡。
KEGG的其他發(fā)展
KO系統(tǒng)更新
? KEGG GENES數(shù)據(jù)庫的附錄類別于2015年引入,作為已發(fā)布的蛋白質(zhì)序列數(shù)據(jù)的集合隶垮,具有經(jīng)過實(shí)驗(yàn)驗(yàn)證的功能信息(9)藻雪。雖然與完整基因組的主要類別(2700萬個(gè)基因)相比,序列的數(shù)量非常少(<5000個(gè)蛋白質(zhì))狸吞,但附錄類別對(duì)于定義功能性直向同源物的KO組非常有用勉耀。截至2018年9月,KO數(shù)據(jù)庫包含超過22 000個(gè)KO條目蹋偏,其中85%與出版物相關(guān)聯(lián)便斥,68%與序列數(shù)據(jù)相關(guān)聯(lián),這可被視為定義KO的核心序列數(shù)據(jù)威始。10%的鏈接序列數(shù)據(jù)在附錄類別中枢纠。KEGG GENES數(shù)據(jù)庫的注釋(KO分配)率不斷提高,目前為48%黎棠,因?yàn)?strong>KO數(shù)據(jù)庫每年增長(zhǎng)5-7%晋渺。
? KO系統(tǒng)是表示基因和蛋白質(zhì)功能分類的KO條目的分級(jí)分類。KO系統(tǒng)最初是作為基于途徑的分類而開發(fā)的脓斩,但由于包含其他數(shù)據(jù)集木西,KO系統(tǒng)(KEGG ID:ko00001),PATHWAY分類(br08901)和BRITE分類(br08902)之間存在差異随静。這已得到糾正户魏,新的KO系統(tǒng)由八個(gè)頂級(jí)類別組成:六個(gè)用于PATHWAY(代謝,遺傳信息處理,環(huán)境信息處理叼丑,細(xì)胞過程关翎,有機(jī)體系統(tǒng)和人類疾病)鸠信,一個(gè)用于BRITE(Brite Hierarchies)纵寝,另一個(gè)用于空余(不包括在Pathway或Brite中)。
新的KO系統(tǒng)由八個(gè)頂級(jí)類別組成:
六個(gè)用于PATHWAY(代謝星立,遺傳信息處理爽茴,環(huán)境信息處理,細(xì)胞過程绰垂,有機(jī)體系統(tǒng)和人類疾彩易唷),
一個(gè)用于BRITE(Brite Hierarchies)劲装,
另一個(gè)用于空余(不包括在Pathway或Brite中)胧沫。
酶命名法的序列數(shù)據(jù)
? 自1961年以來,酶委員會(huì)(目前是IUBMB / IUPAC生物化學(xué)命名委員會(huì))已經(jīng)制定了酶命名法列表占业,其由分級(jí)分類的EC(酶學(xué)委員會(huì))編號(hào)組成绒怨,其給出了實(shí)驗(yàn)觀察和公布的酶促反應(yīng)。KEGG ENZYME是從ExplorEnz數(shù)據(jù)庫中獲取的酶命名法的實(shí)現(xiàn)(10)以及關(guān)于原始實(shí)驗(yàn)中使用的酶的序列數(shù)據(jù)的額外信息谦疾。酶命名列表不斷擴(kuò)展南蹂,它是尋找蛋白質(zhì)功能新出版物的最重要來源。手動(dòng)檢查這些出版物以識(shí)別序列數(shù)據(jù)念恍,這些數(shù)據(jù)通常作為附錄條目并入KEGG GENES六剥。然后,在適當(dāng)?shù)那闆r下峰伙,使用EC編號(hào)的關(guān)聯(lián)來定義新的KO條目疗疟。KOs和EC編號(hào)之間的關(guān)系是多對(duì)多的。一個(gè)KO可以與多個(gè)EC編號(hào)相關(guān)聯(lián)词爬,并且一個(gè)EC編號(hào)可以被給予多個(gè)KO。
? 截至2018年9月权均,超過6000個(gè)EC條目中約有一半與序列數(shù)據(jù)相關(guān)聯(lián)顿膨。圖7顯示了EC條目與創(chuàng)建年份的數(shù)量,其中已知序列為藍(lán)色叽赊,而未知序列為灰色恋沃。大多數(shù)最近添加的EC條目與序列數(shù)據(jù)相關(guān)聯(lián),但最初出現(xiàn)在酶列表的印刷版本中的舊條目更成問題必指,因?yàn)橥ǔG闆r下酶被分離并且實(shí)驗(yàn)是在不知道的情況下進(jìn)行的序列數(shù)據(jù)囊咏。
圖 7:每年分配的EC編號(hào)。藍(lán)色表示EC編號(hào)的分?jǐn)?shù),其中可以鑒定原始實(shí)驗(yàn)中使用的酶的序列數(shù)據(jù)梅割。
DISEASE和DRUG數(shù)據(jù)庫的改進(jìn)
? 由于NETWORK和VARIANT數(shù)據(jù)庫是在健康信息類別中引入的霜第,因此DISEASE和DRUG數(shù)據(jù)庫已經(jīng)發(fā)生了一些變化。首先户辞,DRUG數(shù)據(jù)庫的Target字段現(xiàn)在包含根據(jù)藥物 - 目標(biāo)關(guān)系的網(wǎng)絡(luò)數(shù)據(jù)的變體ID(圖6)泌类。其次,疾病登記(由H號(hào)碼識(shí)別)和藥物登記(由D號(hào)碼識(shí)別)之間的聯(lián)系僅基于藥物標(biāo)簽底燎。DRUG數(shù)據(jù)庫的疾病字段包含藥物標(biāo)簽中指示的疾病刃榨,并且自動(dòng)為DISEASE數(shù)據(jù)庫的藥物字段生成反向鏈接。因此双仍,<u>基于FDA藥物標(biāo)簽的英文版與基于日本藥品標(biāo)簽的日文版之間的藥物 - 疾病聯(lián)系存在一些差異</u>枢希。第三,通過引入子組和超組名稱來重組疾病條目之間的關(guān)系朱沃。第四苞轿,疾病登記由世界衛(wèi)生組織于2018年6月發(fā)布的ICD-11代碼提供.ICD-11疾病代碼和ATC藥物代碼起著與許多外部資源相連的作用。
? 除DISEASE數(shù)據(jù)庫Gene基因領(lǐng)域的人類基因組與疾病關(guān)系外为流,病原體基因組與傳染病關(guān)系正在DISEASE數(shù)據(jù)庫的病原體領(lǐng)域進(jìn)行重組呕屎,該數(shù)據(jù)庫現(xiàn)在包含用于致病性和抗菌性的特征模塊的模塊子字段。抵抗性敬察。甲識(shí)別病原體的基因組抗菌素耐藥性的工具是可用的(11)作為BlastKOALA服務(wù)器(的一部分12秀睛,13)。
訪問KEGG
KEGG可在KEGG主站點(diǎn)(https://www.kegg.jp/)和GenomeNet鏡像站點(diǎn)(https://www.genome.jp/kegg/)上獲得莲祸。對(duì)KEGG關(guān)系數(shù)據(jù)庫和一些工具蹂安,如BlastKOALA和GhostKOALA(直接查詢12,13)僅在主站點(diǎn)锐帜,而宏基因組數(shù)據(jù)(MGENOME和MGENES)和各種分析工具都保持在GenomeNet網(wǎng)站田盈。可以通過在任一站點(diǎn)首頁的搜索框中輸入ID來檢索本文中提到的KEGG ID的內(nèi)容缴阎,例如hsa04010允瞧,nt06201,N00014和hsa_var:1956v2蛮拔。
致謝
計(jì)算資源由京都大學(xué)化學(xué)研究所生物信息學(xué)中心提供述暂。
資金
日本科學(xué)技術(shù)廳國家生物科學(xué)數(shù)據(jù)庫中心(部分)。開放獲取費(fèi)用資金:日本科學(xué)技術(shù)廳國家生物科學(xué)數(shù)據(jù)庫中心建炫。
利益沖突聲明畦韭。沒有聲明。
釋放歷史: