生物數(shù)據(jù)庫
一級核酸數(shù)據(jù)庫
NCBI https://www.ncbi.nlm.nih.gov/
EBI
DDBJ
insdc http://www.insdc.org/ 由三大數(shù)據(jù)庫集合資源,共同維護充蓝。
示例:
搜索原核生物dUTPase基因盯荤,輸入“X01714 ” 到Nucleotide 數(shù)據(jù)庫= Genbank 數(shù)據(jù)庫税产;基因的名字唯一一個犹褒,版本號有多個(更新時間堂湖,不同數(shù)據(jù)庫)
https://www.ncbi.nlm.nih.gov/nuccore/X01714搜索編碼真核生物人dUTPase的成熟mRNA序列信息:U90223 (mRNA檢索號)
https://www.ncbi.nlm.nih.gov/nuccore/U90223搜索編碼真核生物人dUTPase的基因組DNA序列信息:AF018430, gene="DUT"
https://www.ncbi.nlm.nih.gov/nuccore/AF018430.1?report=genbank
基因組數(shù)據(jù)庫
Ensemble http://www.ensembl.org/ (由EBI和sanger維護)
UCSC http://genome.ucsc.edu/
微生物宏基因組數(shù)據(jù)庫
JCVI http://www.jcvi.org/cms/home/
人類基因組計劃 http://hmp.jcvi.org/
二級核酸數(shù)據(jù)庫
- RefSeq 參考序列數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/refseq/
- dbEST 表達序列標簽數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/dbEST/
- Gene 提供基因序列注釋和檢索服務(wù) https://www.ncbi.nlm.nih.gov/gene
- Nocoding RNA database 非編碼RNA數(shù)據(jù)庫 http://biobases.ibch.poznan.pl/ncRNA
- miRBase micoroRNA序列及注釋 http://www.mirbase.org/
一級蛋白序列數(shù)據(jù)庫
Swissport 人工注釋蛋白序列數(shù)據(jù)庫缚去,可信度高
TrEMBL 計算機注釋的蛋白序列數(shù)據(jù)庫辜荠,剔除Swissprot中的序列。冗余度高、可信度低 (EBI枚抵、SIB共同管理)
PIR 蛋白質(zhì)信息資源數(shù)據(jù)庫线欲,蛋白質(zhì)組學(xué)和系統(tǒng)生物學(xué)研究的綜合公共生物信息學(xué)資源(GUMC維護)
-
Uniprot 數(shù)據(jù)庫 http://www.uniprot.org/(Swissprot、TrEMBL汽摹、PIR聯(lián)合蛋白質(zhì)序列數(shù)據(jù)庫,Universal Protein Resource,Uniprot)
- 第一層 UniParc:收錄了所有 UniProt 數(shù)據(jù)庫子庫中的蛋白質(zhì)序列李丰,量大,粗糙逼泣。
- 第二層 UniRef:他歸納了 UniProt 幾個主要數(shù)據(jù)庫并且是將重復(fù)序列去除后的數(shù)據(jù)庫趴泌。
- 第三層 UniProtKB,他有詳細注釋并與其他數(shù)據(jù)庫有鏈接拉庶,分為 UniProtKB 下的 Swiss-Prot
和 UniProtKB 下的 TrEMBL 數(shù)據(jù)庫嗜憔。(我們最常用)
示例
- 在Uniprot 數(shù)據(jù)庫搜索“human dutpase”,
http://www.uniprot.org/uniprot/?query=human+dutpase%E2%80%9D&sort=score
檢索結(jié)果
- Entry 這一列是蛋白質(zhì)序列在 UniProtKB 數(shù)據(jù)庫中的檢索號
- Entry_Name 是檢索名氏仗,檢索號與檢索名平行運行吉捶,都是一條序列在數(shù)據(jù)庫中的唯一標識
- 加星文檔圖標 代表Swissport中的數(shù)據(jù)
- 物種信息
檢索注釋
- Function,功能這部分注釋很詳細的說明了這個蛋白質(zhì)的功能皆尔。
- Names & Taxomomy 給出了蛋白質(zhì)的各種名字呐舔,包括全稱、縮寫以及別名慷蠕。
- Subcellular location:提供蛋白質(zhì)亞細胞定位(subcellular localization)的信息珊拼。
- Pathology & Biotechnology:提供蛋白質(zhì)突變或缺失導(dǎo)致的疾病及表型信息。
- PTM/Processing:提供蛋白質(zhì)翻譯后修飾或翻譯后加工的相關(guān)信息流炕。
- Expression:提供了基因在 mRNA 水平上的表達信息澎现,或者在細胞中蛋白質(zhì)水平上
的表達信息,或者在不同器官組織中的表達信息浪感。 - Interaction:提供了蛋白質(zhì)之間相互作用的信息昔头。
- Structure:提供蛋白質(zhì)二級結(jié)構(gòu)和三級結(jié)構(gòu)信息。
- Family & Domains:提供蛋白質(zhì)家族及結(jié)構(gòu)域信息影兽。
- Sequence:提供蛋白質(zhì)氨基酸序列信息揭斧。
- Cross-references:列出了所有通往其他含有該蛋白質(zhì)信息的數(shù)據(jù)庫的鏈接。
- Publications:列出了有關(guān)這個蛋白質(zhì)已發(fā)表的所有文獻的信息峻堰。
- Entry information:提供有關(guān)這條數(shù)據(jù)庫記錄的錄入信息讹开,外加一個免責聲明。
UniProtKB 純文本(Flat File)格式數(shù)據(jù)庫記錄條目索引含義表
一級蛋白結(jié)構(gòu)數(shù)據(jù)庫
蛋白質(zhì)的結(jié)構(gòu)可以分為四級捐名。
- 一級結(jié)構(gòu)也就是所謂的氨基酸序列旦万。
- 二級結(jié)構(gòu)是我們熟悉的α螺旋和β折疊等。
- 三級結(jié)構(gòu)是蛋白質(zhì)的三維空間結(jié)構(gòu)镶蹋。
- 四級結(jié)構(gòu)是幾個蛋白質(zhì)分子的復(fù)合體結(jié)構(gòu)成艘。
PDB 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 PDB
http://www.rcsb.org/pdb/home/home.do
是全世界唯一存儲生物大分子 3D 結(jié)構(gòu)的數(shù)據(jù)庫赏半。這些生物大分子除了蛋白質(zhì)以外還包括核酸以及核酸和蛋白質(zhì)的復(fù)合物。只有通過實驗方法獲得的 3D 結(jié)構(gòu)才會被收入其中淆两。
示例
- 在PDB數(shù)據(jù)庫断箫,搜索“Su X D dUTPase”
搜索結(jié)果:
http://www.rcsb.org/pdb/explore/explore.do?structureId=3H6X
http://www.rcsb.org/pdb/results/results.do?tabtoshow=Current&qrid=48C5EBE8
數(shù)據(jù)庫檢索號 PDB ID “3H6X”
結(jié)構(gòu)信息存儲在 PDB 格式的一個純文本文件里,這種文件叫做 PDB文件秋冰。PDB 文件都是以 PDB ID 命名仲义,以“.PDB”為后綴,可以用記事本打開剑勾。
PDB數(shù)據(jù)庫埃撵,主要來源的實驗方法是: X-RAY DIFFRACTION;少數(shù)是NMR核磁共振法虽另。
一級蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫:PDB 文件注釋解讀
第一部分:頭信息
HEADER:蛋白質(zhì)結(jié)構(gòu)的基本信息描述暂刘,包括分子類別,存儲日期捂刺,PDB ID
TITLE:結(jié)構(gòu)的標題
COMPND:對結(jié)構(gòu)中各個分子的描述鸳惯。從這里可以看出 3H6X 這個結(jié)構(gòu)是由三條鏈形成
的三聚體結(jié)構(gòu)。
SOURCE:結(jié)構(gòu)中所包括的每一個分子的實驗來源叠萍。
KEYWDS:用于數(shù)據(jù)庫搜索的關(guān)鍵詞
EXPDTA:測定結(jié)構(gòu)所采用的實驗方法。PDB 中絕大部分結(jié)構(gòu)都是通過 X 射線衍射法測
定的绪商,少數(shù)是核磁共振法苛谷,極少數(shù)是使用包括電子顯微鏡在內(nèi)的其他方法測定的。
AUTHOR:作者信息
REVDAT:歷史上曾經(jīng)對該數(shù)據(jù)庫記錄進行過的修改格郁。
JRNL:發(fā)表結(jié)構(gòu)的文獻信息腹殿。
REMARK:無法歸入其他部分的注釋。
第二部分:一級結(jié)構(gòu)信息(也就是氨基酸序列)
DBREF:該蛋白質(zhì)在蛋白質(zhì)序列數(shù)據(jù)庫里的檢索號等信息例书。
SEQRES:氨基酸序列锣尉。
MODRES:對標準殘基上的修飾,比如第 56 號位置的蛋氨酸被硒代蛋氨酸所取代决采。
第三部分:非標準殘基信息
HET:非標準殘基及位置自沧。
HETNAM:非標準殘基的化學(xué)名稱。
FORMUL:非標準殘基的化學(xué)式树瞭。
第四部分:二級結(jié)構(gòu)信息
HELIX:位于螺旋結(jié)構(gòu)上的氨基酸所在位置及所屬鏈拇厢。
SHEET:位于折片結(jié)構(gòu)上的氨基酸所在位置及所屬鏈。
TURN:位于轉(zhuǎn)角結(jié)構(gòu)上的氨基酸所在位置及所屬鏈晒喷。
Link:殘基間的化學(xué)鍵孝偎。比如 106 號氨基酸上的 C 與 107 號氨基酸上的 N 之間的化學(xué)
鍵是肽鍵!鍵長 1.32 埃凉敲。除了肽鍵還可能有氫鍵衣盾,二硫鍵等等寺旺。
第五部分:實驗參數(shù)信息
CRYST1:晶胞參數(shù)。
ORIGXn:直角-PDB 坐標势决。
SCALE*:直角部分結(jié)晶學(xué)坐標阻塑。
第六部分:3D 坐標信息
ATOM:PDB 文件中最重要的,也是篇幅最長的就是 3D 坐標部分徽龟。
CONECT:原子間化學(xué)鍵連接信息叮姑。
MASTER:版權(quán)擁有者信息。
END:結(jié)束符据悔。
PDB 文件 3D 展示-Jsmol
PDB 數(shù)據(jù)庫就提供這樣一個在線的可視化軟件传透,叫 JSmol
(JSmol 基于 JAVA 開發(fā),所以需要先安裝 java 運行環(huán)境极颓≈煅危可以使用360瀏覽器)
3D結(jié)構(gòu)圖:
http://www.rcsb.org/pdb/explore/jmol.do?structureId=3H6X&bionumber=1
通過Style、Color可以更改圖片風格
改變類型:
改變顏色:
二級蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫:
結(jié)構(gòu)域家族數(shù)據(jù)庫 Pfam
http://pfam.xfam.org/
是一個蛋白質(zhì)結(jié)構(gòu)域家族的集合菠隆,包括了一萬六千多個蛋白質(zhì)家族兵琳。
蛋白質(zhì)一般是由一個或多個功能區(qū)域組成,這些功能區(qū)域通常稱作結(jié)構(gòu)域(domain)骇径。在不同的蛋白質(zhì)中結(jié)構(gòu)域以不同的組合出現(xiàn)躯肌,形成了蛋白質(zhì)的多樣性。
示例
在搜索窗口:http://pfam.xfam.org/search破衔,輸入蛋白質(zhì)fasta序列清女,查到結(jié)構(gòu)域。
輸入:Toll 樣受體蛋白晰筛, pfam.fasta 文件嫡丙,查找TIR 結(jié)構(gòu)域
Summary 里可以獲得這個結(jié)構(gòu)域的功能注釋以及結(jié)構(gòu)信息。
Domain Organization 里可以看到目前有多少蛋白質(zhì)擁有 TIR 結(jié)構(gòu)域读第,以及 TIR 結(jié)構(gòu)域和其他結(jié)構(gòu)域之間的組合搭配關(guān)系曙博。
Structure 會列出目前所有包含 TIR 結(jié)構(gòu)域的蛋白質(zhì)結(jié)構(gòu),以及他們在序列數(shù)據(jù)庫怜瞒。
UniProt 和結(jié)構(gòu)數(shù)據(jù)庫 PDB 中的鏈接父泳。同時,也提供 JSmol 在線結(jié)構(gòu)查看工具盼砍。
結(jié)構(gòu)分類數(shù)據(jù)庫 CATH/Gene3D
根據(jù)結(jié)構(gòu)域的空間特征可以對結(jié)構(gòu)域進行分類尘吗。CATH 和 SCOP 是兩個重要的蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫。
CATH這個數(shù)據(jù)庫的名字 C浇坐、A睬捶、T、H 是數(shù)據(jù)庫中四種結(jié)構(gòu)分類層次的首字母近刘。
所有蛋白質(zhì)結(jié)構(gòu)域在 CATH 中被首先分成 4 種 CLASS
示例
進入CATH數(shù)據(jù)庫擒贸,對PDB數(shù)據(jù)庫分類的更新情況臀晃。
搜索“3H6X”,得到分類代碼“2.70.40.10”
詳情頁:http://www.cathdb.info/version/latest/superfamily/2.70.40.10
CATH 還從 2.70.40.10 這個結(jié)構(gòu)分類里挑出了 19 個有代表性的結(jié)構(gòu)域介劫,并且
把他們的 3D 結(jié)構(gòu)疊加在了一起(圖 3)徽惋。從這個圖上,我們可以看到這個結(jié)構(gòu)分類的總體特
征以及差異產(chǎn)生的位置座韵。
CATH 把所有擁有 2.70.40.10結(jié)構(gòu)分類的結(jié)構(gòu)域险绘,根據(jù)他們的序列相似度不同,進行了聚類
二級蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫:結(jié)構(gòu)分類數(shù)據(jù)庫 SCOP2
http://scop2.mrc-lmb.cam.ac.uk
SCOP 數(shù)據(jù)庫與 CATH 類似誉碴,也屬于蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫宦棺,但 SCOP 的分類原則更
多考慮蛋白質(zhì)間的進化關(guān)系,而且分類主要依賴于人工驗證黔帕。
示例
- 在SCOP數(shù)據(jù)庫代咸,搜索“2BOP”
專項數(shù)據(jù)庫
京都KEGG,全稱京都基因與基因組百科全書
示例
- 進入KEGG數(shù)據(jù)庫http://www.genome.jp/kegg/
子數(shù)據(jù)庫
Data-oriented entry points
KEGG PATHWAY KEGG pathway maps 代謝通路(最常用)
KEGG BRITE BRITE hierarchies and tables
KEGG MODULE KEGG modules
KEGG ORTHOLOGY KO functional orthologs [Annotation] KO功能通路
KEGG GENOME Genomes [Virus | Plant] 基因組
KEGG GENES Genes and proteins [SeqData] 基因和蛋白
KEGG COMPOUND Small molecules 小分子
KEGG GLYCAN Glycans
KEGG REACTION Biochemical reactions [RModule]
KEGG ENZYME Enzyme nomenclature
KEGG NETWORK Disease-related network elements New! 疾病相關(guān)網(wǎng)絡(luò)
KEGG DISEASE Human diseases [Cancer | Pathogen] 人類疾病
KEGG DRUG Drugs [New drug approvals] 藥物
KEGG PATHWAY
又分為7個部分:
1)Metabolism成黄,
2)Genetic Information Processing呐芥,
3)Environmental Information Processing,
4)Cellular Processes奋岁,
5)Organismal Systems思瘟,
6)Human Diseases,
7)Drug Development闻伶。
其中 Metabolism 代謝通路這部分潮太,又具體分為幾個專題:
1)Global/overview,2)Carbohydrate虾攻,3)Energy糙及,4)Lipid允坚,5)Nucleotide,6)Amino acid魏保,7)Other amino澡为,8)Glycan漂坏,9)Cofactor/vitamin,10)Terpenoid/PK媒至,11)Other secondary metabolite顶别,12)Xenobiotics,13)Chemical structure拒啰。
從1)Global/overview驯绎,進入Metabolic pathways
網(wǎng)絡(luò)通路圖
http://www.genome.jp/kegg-bin/show_pathway?map01100
調(diào)整圖片為100%,點擊圓圈谋旦,進入三羧酸循環(huán)詳細通路圖
http://www.genome.jp/kegg-bin/show_pathway?map00630
點擊其中一個酶剩失,進入KO數(shù)據(jù)庫屈尼,表示蛋白質(zhì)或酶的分類體系。
KO號代表蛋白質(zhì)(酶)的一個分類體系拴孤,序列高度相似脾歧,并且在同一個通路上有相同功能的蛋白質(zhì)被歸為一組,然后打上KO標簽
http://www.genome.jp/dbget-bin/www_bget?C00036
查看Toll-like受體傳導(dǎo)通路
Pathway Maps》Organismal Systems 》04620Toll-like receptor signaling pathway
http://www.genome.jp/kegg-bin/show_pathway?map=hsa04620&show_description=show
點擊演熟,TLR4受體
http://www.genome.jp/dbget-bin/www_bget?hsa:7099
查看引發(fā)疾病
Disease H00821 Age-related macular degeneration 黃斑變性
查看相關(guān)藥物
Drug target Eritoran (DG01426): D04043 D09573
點擊 D09573
http://www.genome.jp/dbget-bin/www_bget?dr:D09573
人類孟德爾遺傳在線 OMIM
http://www.omim.org/ 或者NCBI子數(shù)據(jù)庫 http://www.ncbi.nlm.nih.gov/omim
它是一個將遺傳病分類并鏈接到相關(guān)人類基因組中的數(shù)據(jù)庫鞭执。OMIM為臨床醫(yī)生和科研人員提供了權(quán)威可信的關(guān)于遺傳疾病及相關(guān)疾病基因位點的詳細信息。
示例
- 搜索阿爾茨海默癥芒粹,“alzheimer disease”兄纺,
進入詳情頁
http://www.omim.org/entry/104300?search=alzheimer%20disease&highlight=alzheimer%20disease
查看某一個染色體位置
http://www.omim.org/geneMap/6/127?start=-3&limit=10&highlight=127
查看某一個基因信息
http://www.omim.org/entry/613609