Uniprot (Universal Protein )是包含蛋白質(zhì)序列,功能信息副签,研究論文索引的蛋白質(zhì)數(shù)據(jù)庫讨勤,整合了包括EBI( European Bioinformatics Institute)购裙,SIB(the Swiss Institute of Bioinformatics)链嘀,PIR(Protein Information Resource)三大數(shù)據(jù)庫的資源萌狂。
- EBI( European Bioinformatics Institute):歐洲生物信息學(xué)研究所(EMBL-EBI)是歐洲生命科學(xué)旗艦實驗室EMBL的一部分。位于英國劍橋欣克斯頓的惠康基因組校園內(nèi)怀泊,是世界上基因組學(xué)領(lǐng)域最強地帶之一粥脚。
- SIB(the Swiss Institute of Bioinformatics):瑞士日內(nèi)瓦的SIB維護著ExPASy(專家蛋白質(zhì)分析系統(tǒng))服務(wù)器,這里包含有蛋白質(zhì)組學(xué)工具和數(shù)據(jù)庫的主要資源包个。
- PIR(Protein Information Resource):PIR由美國國家生物醫(yī)學(xué)研究基金會(NBRF)于1984年成立,旨在協(xié)助研究人員識別和解釋蛋白質(zhì)序列信息冤留。
目前碧囊,UniProt主要由以下子庫構(gòu)成:
他們的關(guān)系如下:
通過EMBL,GenBank纤怒,DDBJ等公共數(shù)據(jù)庫得到原始數(shù)據(jù)糯而,處理后存入UniParc的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。UniProt作為數(shù)據(jù)倉庫泊窘,再分別給UniProtKB熄驼,Proteomes,UNIRef提供可靠的數(shù)據(jù)集烘豹。其中在UniProtKB數(shù)據(jù)庫中Swiss-Prot是由TrEMBL經(jīng)過手動注釋后得到的高質(zhì)量非冗余數(shù)據(jù)庫瓜贾,也是我們今后常用的蛋白質(zhì)數(shù)據(jù)庫之一。
UniProtKB/Swiss-Prot
高質(zhì)量的携悯、手工注釋的祭芦、非冗余的數(shù)據(jù)集
Swiss-Prot旨在提供與高水平注釋(例如,蛋白質(zhì)功能憔鬼,其域結(jié)構(gòu)龟劲,翻譯后修飾胃夏,變體等的描述)相關(guān)的可靠蛋白質(zhì)序列,最小程度的冗余和高水平與其他數(shù)據(jù)庫的集成級別昌跌。注釋主要來自文獻中的研究成果和E-value校驗過計算分析結(jié)果仰禀,有質(zhì)量保證的數(shù)據(jù)才被加入該數(shù)據(jù)庫 。
Swiss-Prot由Amos Bairoch博士在1986年創(chuàng)建蚕愤,由瑞士生物信息學(xué)研究所開發(fā)答恶,隨后由歐洲生物信息學(xué)研究所的Rolf Apweiler開發(fā)。也是說EBI和SIB共同制作了Swiss-Prot和TrEMBL數(shù)據(jù)庫审胸。
Swiss-Prot條目的注釋中使用了一系列序列分析工具亥宿。包括手動評估,計算機預(yù)測砂沛,并選擇結(jié)果包含在相應(yīng)的條目中烫扼。這些預(yù)測包括翻譯后修飾,跨膜結(jié)構(gòu)域和拓撲碍庵,信號肽映企,結(jié)構(gòu)域識別和蛋白質(zhì)家族分類。
來自相同基因和相同物種的序列合并到相同的數(shù)據(jù)庫條目中静浴。確定序列之間的差異包含:可變剪接堰氓,自然變異,錯誤的起始位點苹享,錯誤的外顯子邊界双絮,移碼,未識別的沖突得问。
注釋會用相關(guān)出版物通過搜索數(shù)據(jù)庫(例如PubMed)進行識別囤攀。閱讀每篇論文的全文,然后提取信息并將其添加到條目中宫纬》倌樱科學(xué)文獻中的注釋包括但不限于:
- 蛋白質(zhì)和基因名稱
- 功能
- 特定于酶的信息,例如催化活性漓骚,輔因子和催化殘基
- 亞細胞定位
- 蛋白質(zhì)相互作用
- 表達方式
- 重要域和站點的位置和角色
- 離子蝌衔,底物和輔因子結(jié)合位點
- 通過自然遺傳變異,RNA編輯蝌蹂,替代剪接噩斟,蛋白水解加工和翻譯后修飾產(chǎn)生的蛋白質(zhì)變異形式
常用的操作
<1>:這里輸入基因名,UniProt ID孤个,或者感興趣的關(guān)鍵字
<2>:篩選:Reviewed:存儲在Swiss-Prot數(shù)據(jù)庫中經(jīng)過驗證的蛋白數(shù)據(jù)亩冬,Unreviewed:存儲在TrEMBL數(shù)據(jù)庫中沒有經(jīng)過驗證的蛋白數(shù)據(jù)
<3>:篩選某個物種,點擊就好切換到該物種
<4>:通過基因名或蛋白名來篩選
<5>:依次是Unprot ID,該蛋白數(shù)據(jù)庫命名硅急,蛋白質(zhì)名覆享,基因名,物種营袜,序列長
<6>:如果需要Blast來查看某個蛋白有哪些序列相似的蛋白序列撒顿,先選中感興趣蛋白前的方框,點擊Blast
<7>:如果需要多序列比對荚板,先選中感興趣蛋白前的方框凤壁,點擊Align
<8>:如果要下載信息,先選中感興趣蛋白前的方框跪另,點擊Download
下載拧抖。這里不選擇序列,默認會下載全部序列
下面以 PO5F1_HUMAN
為例免绿,下載對應(yīng)的fasta序列來看看:
下載到的序列:
>sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1
MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGI
PPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPG
AVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFS
QTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENR
VRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEA
AGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN
首先看 >
后的注釋信息
sp:Swiss-Prot數(shù)據(jù)庫的簡稱唧席,也就是上面說的驗證后的蛋白數(shù)據(jù)庫
Q01860:UniProt ID號
PO5F1_HUMAN:是UniProt 的登錄名
POU domain, class 5, transcription factor 1:蛋白質(zhì)名稱
OS=Homo sapiens:OS是Organism簡稱,Homo sapiens為人的拉丁文分類命名嘲驾,也就是這是人的蛋白質(zhì)
OX=9606:Organism Taxonomy淌哟,也就是物種分類數(shù)據(jù)庫Taxonomy ID
GN=POU5F1:Gene name,基因名為POU5F1
PE=1:Protein Existence辽故,蛋白質(zhì)可靠性徒仓,對應(yīng)5個數(shù)字,數(shù)字越小越可靠:
1:Experimental evidence at protein level
2:Experimental evidence at tranlevel
3:Protein inferred from homology
4:Protein predicted
5:Protein uncertain
SV=1:Sequence Version誊垢,序列版本號
UniProtKB/TrEMBL
在認識到序列數(shù)據(jù)的生成速度超過了Swiss-Prot的注釋能力時掉弛,為了給不在Swiss-Prot中的那些蛋白質(zhì)提供自動注釋,UniProt創(chuàng)建了TrEMBL(翻譯的EMBL核苷酸序列數(shù)據(jù)庫)喂走。在三大核酸數(shù)據(jù)庫(EMBL-Bank/GenBank/DDBJ)中注釋的編碼序列都會被自動翻譯并加入該數(shù)據(jù)庫中狰晚。它也有來自PDB數(shù)據(jù)庫的序列,以及Ensembl缴啡、Refeq和CCDS基因預(yù)測的序列。之前提到的PIR組織制作了蛋白質(zhì)序列數(shù)據(jù)庫(PIR-PSD)瓷们。
UniParc
UniProt Archive(UniParc)包含來自主要公共可用蛋白質(zhì)序列數(shù)據(jù)庫的所有蛋白質(zhì)序列的非冗余數(shù)據(jù)集业栅。蛋白質(zhì)可能存在于幾個不同的來源數(shù)據(jù)庫中,并且在同一數(shù)據(jù)庫中存在多個副本谬晕。 為了避免冗余碘裕,UniParc僅將每個唯一序列存儲一次。 相同序列被合并攒钳,無論它們來自相同還是不同物種帮孔。 每個序列都有一個穩(wěn)定且唯一的標識符(UPI),從而可以從不同的來源數(shù)據(jù)庫中識別相同的蛋白質(zhì)乍迄。
UniParc僅包含蛋白質(zhì)序列啦膜,沒有注釋。 UniParc條目中的數(shù)據(jù)庫交叉引用允許從源數(shù)據(jù)庫檢索有關(guān)該蛋白質(zhì)的更多信息宴霸。 當源數(shù)據(jù)庫中的序列發(fā)生更改時姆坚,UniParc將跟蹤這些更改澳泵,并記錄所有更改的歷史記錄。
UniRef
UniProt Reference Clusters(UniRef):聚類序列可顯著減小數(shù)據(jù)庫大小兼呵,從而加快序列搜索的速度兔辅。用于計算的蛋白質(zhì)序列來自UniProtKB和部分UniParc記錄的序列。UniRef100序列將相同的序列和序列片段(來自任何生物)合并到一個UniRef條目中击喂,用于顯示代表性蛋白質(zhì)的序列维苔。 使用CD-HIT算法對UniRef100序列進行聚類,并構(gòu)建UniRef90和UniRef50懂昂。UniRef90和UniRef50分別代表每個簇由與最長序列分別具有至少90%或50%序列同一性的序列組成介时。
一文極速讀懂 Uniprot 蛋白質(zhì)數(shù)據(jù)庫