KEGG被稱為京都基因組百科全書(shū)宾毒,是一個(gè)綜合性的數(shù)據(jù)庫(kù)鸣峭。對(duì)于如此龐大的數(shù)據(jù)庫(kù),肯定需要對(duì)數(shù)據(jù)進(jìn)行分門(mén)別類的整理肚邢。除了將各種數(shù)據(jù)拆分到不同的子數(shù)據(jù)庫(kù)中之外壹堰,KEGG還對(duì)所有的數(shù)據(jù)進(jìn)行了更加細(xì)致的功能分類,這些功能分類的信息就存儲(chǔ)在brite 數(shù)據(jù)庫(kù)中骡湖。
birte 主要包含以下五大類別的分類信息:
genes and protein
compounds and reactions
drugs
diseases
organisms and cells
在brite數(shù)據(jù)庫(kù)中缀旁,以文件的形式存儲(chǔ)分類信息。包含兩種格式的文件:
-
table 格式勺鸦,比如對(duì)藥物的分類
-
htext 文件并巍,比如kegg orthology 的分類
提供了兩種格式的文件用于下載,htext
對(duì)應(yīng)的后綴為 keg换途, json
對(duì)應(yīng)json懊渡。
json
格式是網(wǎng)絡(luò)數(shù)據(jù)傳說(shuō)的新標(biāo)準(zhǔn),主要用于程序解析军拟;`keg 文件是純文本文件剃执,可以用文本編輯器打開(kāi)。
以所有ko的分類文件 ko00000.keg
文件為例:
分類層級(jí)按照字母順序排列懈息,示例文件中A 為第一級(jí)分類肾档,B, C, D 依次為第二級(jí)。
我們可以直觀的看到 K00844 屬于Glycolysis / Gluconeogenesis
這個(gè)分類辫继,對(duì)應(yīng)的更上一級(jí)的分類為Carbohydrate metabolism
怒见,再上一級(jí)為 Metabolism
。
keg 文件格式還是非常容易理解的姑宽,但是使用起來(lái)不夠直觀遣耍,當(dāng)我們想要查詢某個(gè)KO的具體分類時(shí),如果和這個(gè)KO處于同一分類的節(jié)點(diǎn)太多時(shí)炮车,需要往上翻閱很多行舵变,才能找到對(duì)應(yīng)的分類酣溃;有時(shí)一不小心就翻過(guò)了,就會(huì)搞錯(cuò)纪隙。
當(dāng)然可以通過(guò)程序格式化這個(gè)文件赊豌,比如將這個(gè)文件變成如下的格式:
KO | Name | C | B | A |
---|---|---|---|---|
K00844 | HK… | Glycolysis… | Carbo..bolism | Metabolism |
這樣方便查看條目的詳細(xì)分類信息;
對(duì)于沒(méi)有編程基礎(chǔ)的人來(lái)說(shuō)绵咱,kegg 提供了keggHier
程序碘饼,專門(mén)用于查看brite中的分類信息。軟件是用java 開(kāi)發(fā)的麸拄,提供了圖形界面派昧,簡(jiǎn)單易用黔姜;
下載地址 :
使用方法
-
雙加批處理文件啟動(dòng)
-
從菜單欄點(diǎn)擊
File
按鈕拢切,選擇導(dǎo)入kegg網(wǎng)站上的數(shù)據(jù)
-
這里選擇第一個(gè)
kegg pathway map
的分類結(jié)構(gòu),進(jìn)行查看
向下的三角形表示展開(kāi)的意思秆吵,這里有3個(gè)淮椰,說(shuō)明pathway 共有3層分類,鼠標(biāo)可以點(diǎn)擊任意一條記錄纳寂,可以展開(kāi)詳細(xì)信息主穗;
-
右上角的搜索框可以搜索,通過(guò)搜索框可以快速查找你感興趣的記錄
總結(jié):
brite
是存儲(chǔ)分類信息的數(shù)據(jù)庫(kù)毙芜,提供了包含pathway, ko, module, drug, disease忽媒,organism 等所有記錄的分類;分類信息通過(guò)文件進(jìn)行距離腋粥,有
keg
和table
兩種格式晦雨;通過(guò)
KEGGHier
工具,可以方便的瀏覽 KEGG 分類系統(tǒng)隘冲;