目錄
一、介紹
在進(jìn)行生物學(xué)實(shí)驗(yàn)或者生物信息的學(xué)習(xí)中胖秒,都會(huì)聽說KEGG富集分析
,而且該方法在高通量測序分析中已然成為數(shù)據(jù)分析中必不可少的一環(huán)。
這種分析方法依托的是由 Kanehisa實(shí)驗(yàn)室 在1995年開發(fā)的KEGG數(shù)據(jù)庫忙菠,全稱為 Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書)。它擁有多個(gè)子數(shù)據(jù)庫纺弊,包含基因組牛欢,生化反應(yīng),生化物質(zhì)淆游,疾病與藥物傍睹,以及最常用PATHWAY通路信息。
接下來進(jìn)入KEGG官網(wǎng):https://www.kegg.jp 犹菱,它的主頁主要由以下幾部分構(gòu)成:
二拾稳、KEGG的數(shù)據(jù)庫構(gòu)成
KEGG子庫中存儲(chǔ)的信息是生物系統(tǒng)的計(jì)算機(jī)表示形式,由基因和蛋白質(zhì)(基因組信息)和化學(xué)物質(zhì)(化學(xué)信息)的分子部件組成腊脱,這些部件的相互作用访得,反應(yīng)和關(guān)系構(gòu)成調(diào)控網(wǎng)絡(luò)圖(系統(tǒng)信息),除此之外陕凹,還包含疾病和藥物信息(健康信息)震鹉。具體的分類及數(shù)據(jù)庫如下:
三、KEGG PATHWAY 數(shù)據(jù)庫
在所有子數(shù)據(jù)庫中最重要也是最常用的就是KEGG PATHWAY捆姜,它包括大量由科研人員根據(jù)已有研究文獻(xiàn)传趾,通過手動(dòng)繪制的KEGG通路圖,代表著代謝過程泥技,環(huán)境信息過程浆兰,細(xì)胞過程,生物系統(tǒng)珊豹,人類疾病和藥物開發(fā)簸呈。
每個(gè)通路都由一個(gè)五位數(shù)字標(biāo)識(shí),后跟以下任意一個(gè):map店茶,ko蜕便,ec,rn和三字母或四字母生物代碼贩幻,它們分別代表五種通路類型:
- map編號(hào):代表reference pathway轿腺,根據(jù)已有的知識(shí)繪制的两嘴、概括的、詳盡的具有一般參考意義的代謝圖族壳。 一個(gè)點(diǎn)同時(shí)表示一個(gè)基因憔辫,這個(gè)基因編碼的酶或這個(gè)酶參加的反應(yīng)
- org編號(hào):物種特異性通路,這里就是將K編號(hào)基因(直系同源基因仿荆,后面會(huì)介紹)換為每個(gè)物種中對(duì)應(yīng)的基因
- ko編號(hào):KO通路中的點(diǎn)表示直系同源基因
- ec編號(hào):EC通路中的點(diǎn)表示相關(guān)的酶
- rn編號(hào):化學(xué)反應(yīng)通路中的點(diǎn)只表示該點(diǎn)參與的某個(gè)反應(yīng)贰您、反應(yīng)物及反應(yīng)類型
在了解每種通路之前我們先學(xué)會(huì)在KEGG中切換每種通路類型
地址:https://www.kegg.jp/kegg-bin/show_pathway?org_name=map&mapno=00020&mapscale=&show_description=hide
使用過程中切換各種通路類型,比如進(jìn)入TCA循環(huán) 拢操,可以通過左上角下路菜單來切換:
接下來锦亦,我們?cè)敿?xì)介紹每種通路:
1. 參考通路圖 (map)
這里以 TCA循環(huán) 的通路圖為例,進(jìn)入?yún)⒖纪穲D(Reference pathway)令境。這是原始版本的通路孽亲,也是后續(xù)幾種通路圖的"模板"。每個(gè)白框可以代表直系同源基因展父,酶返劲,反應(yīng),也可以點(diǎn)擊鏈接至KO栖茉,ENZYME和REACTION詳細(xì)信息篮绿。
上述的形狀,箭頭吕漂,線段代表如下意義:
2. 物種特異性通路 (org)
我們選擇人的物種名Homo sapiens (human)
亲配,點(diǎn)擊Go
』棠可以看到與Reference pathway 圖(map00020)不同的是有物種特異性基因被標(biāo)注為綠色吼虎,而且通路編號(hào)為hsa00020
訪問鏈接:https://www.kegg.jp/kegg-bin/show_pathway?org_name=hsa&mapno=00020&mapscale=&show_description=hide
當(dāng)然,如果直接訪問
hsa00020
的鏈接也可以進(jìn)入該通路:https://www.kegg.jp/kegg-bin/show_pathway?hsa00020
點(diǎn)擊綠色基因苍鲜,會(huì)進(jìn)入Gene
詳細(xì)信息
3. 直系同源物通路 (ko)
藍(lán)色框超鏈接到從原始版本中選擇的KO條目
進(jìn)入PCK
的直系同源基因信息
4. 酶通路 (ec)
藍(lán)色框超鏈接到從原始版本中選擇的ENZYME條目
進(jìn)入ENZYME
5. 反應(yīng)通路 (reaction)
藍(lán)色框超鏈接到從原始版本中選擇的反應(yīng)條目思灰,
點(diǎn)擊后進(jìn)入對(duì)應(yīng)的反應(yīng)信息界面,如下圖
四混滔、KEGG ORTHOLOGY(KO)數(shù)據(jù)庫
KEGG ORTHOLOGY (KO)數(shù)據(jù)庫是構(gòu)建Pathway和Module的基礎(chǔ)洒疚,相當(dāng)于KEGG數(shù)據(jù)庫構(gòu)建的基石,因此理解KO數(shù)據(jù)庫的構(gòu)成對(duì)于使用及了解KEGG至關(guān)重要坯屿。
然而油湖,這種通用方法不足以理解由物種內(nèi)基因和基因組的變異所引起的更詳細(xì)的特征,特別是對(duì)于理解與人類基因和基因組的疾病相關(guān)的變異而言领跛。后來他們開發(fā)了 KEGG NETKERK乏德,該數(shù)據(jù)庫不僅涉及基因變異,而且包括病毒和其他因素的網(wǎng)絡(luò)變異方面的疾病和藥物知識(shí)吠昭。
KEGG的開發(fā)者根據(jù)不同生物之間基因和基因組的保守和變異喊括,引入直系同源物(KO)的概念胧瓜,使得KEGG通路圖,BRITE層次結(jié)構(gòu)和KEGG模塊的參考數(shù)據(jù)集可以廣泛應(yīng)用于任何細(xì)胞生物瘾晃。
概念
1.KO號(hào):表示不分物種的通路贷痪,相當(dāng)于所有物種的這一通路的并集幻妓,比如ko00020
代表的 TCA 循環(huán) (下圖所示)蹦误,下圖的每個(gè)圓角矩形也代表著一個(gè)KO通路。
2.K號(hào):表示基因肉津,每個(gè)號(hào)代表的是所有物種的一個(gè)同源基因强胰,比如上圖中的K01596
代表的是 PCK。
進(jìn)入K01596的詳細(xì)頁面妹沙,我們會(huì)看到它代表的是一個(gè)基因列表偶洋,這些基因具有一個(gè)功能卻來自于不同的物種。
3.C號(hào):表示化合物
對(duì)于分析工具使用和kegg資源下載距糖,會(huì)在后續(xù)文章中更新玄窝。