一文極速讀懂 Uniprot 蛋白質(zhì)數(shù)據(jù)庫

Uniprot （Universal Protein ）是包含蛋白質(zhì)序列，功能信息副签，研究論文索引的蛋白質(zhì)數(shù)據(jù)庫讨勤，整合了包括EBI（ European Bioinformatics Institute）购裙，SIB（the Swiss Institute of Bioinformatics）链嘀，PIR（Protein Information Resource）三大數(shù)據(jù)庫的資源萌狂。

EBI（ European Bioinformatics Institute）：歐洲生物信息學(xué)研究所（EMBL-EBI）是歐洲生命科學(xué)旗艦實驗室EMBL的一部分。位于英國劍橋欣克斯頓的惠康基因組校園內(nèi)怀泊，是世界上基因組學(xué)領(lǐng)域最強地帶之一粥脚。
SIB（the Swiss Institute of Bioinformatics）：瑞士日內(nèi)瓦的SIB維護著ExPASy（專家蛋白質(zhì)分析系統(tǒng)）服務(wù)器，這里包含有蛋白質(zhì)組學(xué)工具和數(shù)據(jù)庫的主要資源包个。
PIR（Protein Information Resource）：PIR由美國國家生物醫(yī)學(xué)研究基金會（NBRF）于1984年成立，旨在協(xié)助研究人員識別和解釋蛋白質(zhì)序列信息冤留。

目前碧囊，UniProt主要由以下子庫構(gòu)成：

image

他們的關(guān)系如下：

通過EMBL，GenBank纤怒，DDBJ等公共數(shù)據(jù)庫得到原始數(shù)據(jù)糯而，處理后存入UniParc的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。UniProt作為數(shù)據(jù)倉庫泊窘，再分別給UniProtKB熄驼，Proteomes，UNIRef提供可靠的數(shù)據(jù)集烘豹。其中在UniProtKB數(shù)據(jù)庫中Swiss-Prot是由TrEMBL經(jīng)過手動注釋后得到的高質(zhì)量非冗余數(shù)據(jù)庫瓜贾，也是我們今后常用的蛋白質(zhì)數(shù)據(jù)庫之一。

image

UniProtKB/Swiss-Prot

高質(zhì)量的携悯、手工注釋的祭芦、非冗余的數(shù)據(jù)集

Swiss-Prot旨在提供與高水平注釋（例如，蛋白質(zhì)功能憔鬼，其域結(jié)構(gòu)龟劲，翻譯后修飾胃夏，變體等的描述）相關(guān)的可靠蛋白質(zhì)序列，最小程度的冗余和高水平與其他數(shù)據(jù)庫的集成級別昌跌。注釋主要來自文獻中的研究成果和E-value校驗過計算分析結(jié)果仰禀，有質(zhì)量保證的數(shù)據(jù)才被加入該數(shù)據(jù)庫。

Swiss-Prot由Amos Bairoch博士在1986年創(chuàng)建蚕愤，由瑞士生物信息學(xué)研究所開發(fā)答恶，隨后由歐洲生物信息學(xué)研究所的Rolf Apweiler開發(fā)。也是說EBI和SIB共同制作了Swiss-Prot和TrEMBL數(shù)據(jù)庫审胸。

Swiss-Prot條目的注釋中使用了一系列序列分析工具亥宿。包括手動評估，計算機預(yù)測砂沛，并選擇結(jié)果包含在相應(yīng)的條目中烫扼。這些預(yù)測包括翻譯后修飾，跨膜結(jié)構(gòu)域和拓撲碍庵，信號肽映企，結(jié)構(gòu)域識別和蛋白質(zhì)家族分類。

來自相同基因和相同物種的序列合并到相同的數(shù)據(jù)庫條目中静浴。確定序列之間的差異包含：可變剪接堰氓，自然變異，錯誤的起始位點苹享，錯誤的外顯子邊界双絮，移碼，未識別的沖突得问。

注釋會用相關(guān)出版物通過搜索數(shù)據(jù)庫（例如PubMed）進行識別囤攀。閱讀每篇論文的全文，然后提取信息并將其添加到條目中宫纬》倌樱科學(xué)文獻中的注釋包括但不限于：

蛋白質(zhì)和基因名稱
功能
特定于酶的信息，例如催化活性漓骚，輔因子和催化殘基
亞細胞定位
蛋白質(zhì)相互作用
表達方式
重要域和站點的位置和角色
離子蝌衔，底物和輔因子結(jié)合位點
通過自然遺傳變異，RNA編輯蝌蹂，替代剪接噩斟，蛋白水解加工和翻譯后修飾產(chǎn)生的蛋白質(zhì)變異形式

常用的操作

image

<1>：這里輸入基因名，UniProt ID孤个，或者感興趣的關(guān)鍵字

<2>：篩選：Reviewed：存儲在Swiss-Prot數(shù)據(jù)庫中經(jīng)過驗證的蛋白數(shù)據(jù)亩冬，Unreviewed：存儲在TrEMBL數(shù)據(jù)庫中沒有經(jīng)過驗證的蛋白數(shù)據(jù)

<3>：篩選某個物種，點擊就好切換到該物種

<4>：通過基因名或蛋白名來篩選

<5>：依次是Unprot ID，該蛋白數(shù)據(jù)庫命名硅急，蛋白質(zhì)名覆享，基因名，物種营袜，序列長

<6>：如果需要Blast來查看某個蛋白有哪些序列相似的蛋白序列撒顿，先選中感興趣蛋白前的方框，點擊Blast

<7>：如果需要多序列比對荚板，先選中感興趣蛋白前的方框凤壁，點擊Align

<8>：如果要下載信息，先選中感興趣蛋白前的方框跪另，點擊Download下載拧抖。這里不選擇序列，默認會下載全部序列

下面以 PO5F1_HUMAN 為例免绿，下載對應(yīng)的fasta序列來看看：

image

下載到的序列：

  >sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1
  MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGI
  PPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPG
  AVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFS
  QTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENR
  VRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEA
  AGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN

首先看 > 后的注釋信息

sp：Swiss-Prot數(shù)據(jù)庫的簡稱唧席，也就是上面說的驗證后的蛋白數(shù)據(jù)庫
Q01860：UniProt ID號
PO5F1_HUMAN：是UniProt 的登錄名
POU domain, class 5, transcription factor 1：蛋白質(zhì)名稱
OS=Homo sapiens：OS是Organism簡稱，Homo sapiens為人的拉丁文分類命名嘲驾，也就是這是人的蛋白質(zhì)
OX=9606：Organism Taxonomy淌哟，也就是物種分類數(shù)據(jù)庫Taxonomy ID
GN=POU5F1：Gene name，基因名為POU5F1
PE=1：Protein Existence辽故，蛋白質(zhì)可靠性徒仓，對應(yīng)5個數(shù)字，數(shù)字越小越可靠：
1：Experimental evidence at protein level
2：Experimental evidence at tranlevel
3：Protein inferred from homology
4：Protein predicted
5：Protein uncertain
SV=1：Sequence Version誊垢，序列版本號

UniProtKB/TrEMBL

在認識到序列數(shù)據(jù)的生成速度超過了Swiss-Prot的注釋能力時掉弛，為了給不在Swiss-Prot中的那些蛋白質(zhì)提供自動注釋，UniProt創(chuàng)建了TrEMBL（翻譯的EMBL核苷酸序列數(shù)據(jù)庫）喂走。在三大核酸數(shù)據(jù)庫（EMBL-Bank/GenBank/DDBJ）中注釋的編碼序列都會被自動翻譯并加入該數(shù)據(jù)庫中狰晚。它也有來自PDB數(shù)據(jù)庫的序列，以及Ensembl缴啡、Refeq和CCDS基因預(yù)測的序列。之前提到的PIR組織制作了蛋白質(zhì)序列數(shù)據(jù)庫（PIR-PSD）瓷们。

UniParc

UniProt Archive（UniParc）包含來自主要公共可用蛋白質(zhì)序列數(shù)據(jù)庫的所有蛋白質(zhì)序列的非冗余數(shù)據(jù)集业栅。蛋白質(zhì)可能存在于幾個不同的來源數(shù)據(jù)庫中，并且在同一數(shù)據(jù)庫中存在多個副本谬晕。為了避免冗余碘裕，UniParc僅將每個唯一序列存儲一次。相同序列被合并攒钳，無論它們來自相同還是不同物種帮孔。每個序列都有一個穩(wěn)定且唯一的標識符（UPI），從而可以從不同的來源數(shù)據(jù)庫中識別相同的蛋白質(zhì)乍迄。

UniParc僅包含蛋白質(zhì)序列啦膜，沒有注釋。 UniParc條目中的數(shù)據(jù)庫交叉引用允許從源數(shù)據(jù)庫檢索有關(guān)該蛋白質(zhì)的更多信息宴霸。當源數(shù)據(jù)庫中的序列發(fā)生更改時姆坚，UniParc將跟蹤這些更改澳泵，并記錄所有更改的歷史記錄。

UniRef

UniProt Reference Clusters（UniRef）：聚類序列可顯著減小數(shù)據(jù)庫大小兼呵，從而加快序列搜索的速度兔辅。用于計算的蛋白質(zhì)序列來自UniProtKB和部分UniParc記錄的序列。UniRef100序列將相同的序列和序列片段（來自任何生物）合并到一個UniRef條目中击喂，用于顯示代表性蛋白質(zhì)的序列维苔。使用CD-HIT算法對UniRef100序列進行聚類，并構(gòu)建UniRef90和UniRef50懂昂。UniRef90和UniRef50分別代表每個簇由與最長序列分別具有至少90％或50％序列同一性的序列組成介时。
一文極速讀懂 Uniprot 蛋白質(zhì)數(shù)據(jù)庫

最后編輯于：2021.10.14 16:09:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市忍法，隨后出現(xiàn)的幾起案子潮尝，更是在濱河造成了極大的恐慌，老刑警劉巖饿序，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件勉失，死亡現(xiàn)場離奇詭異，居然都是意外死亡原探，警方通過查閱死者的電腦和手機乱凿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來咽弦，“玉大人徒蟆，你說我怎么就攤上這事⌒托停” “怎么了段审？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長闹蒜。經(jīng)常有香客問我寺枉，道長，這世上最難降的妖魔是什么绷落？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任姥闪，我火速辦了婚禮，結(jié)果婚禮上砌烁，老公的妹妹穿的比我還像新娘筐喳。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布避归。她就那樣靜靜地躺著荣月，像睡著了一般。火紅的嫁衣襯著肌膚如雪槐脏。梳的紋絲不亂的頭發(fā)上喉童，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機與錄音顿天，去河邊找鬼堂氯。笑死，一個胖子當著我的面吹牛牌废，可吹牛的內(nèi)容都是我干的咽白。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼鸟缕，長吁一口氣：“原來是場噩夢啊……” “哼晶框！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起懂从，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤授段，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后番甩，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體侵贵，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年缘薛，在試婚紗的時候發(fā)現(xiàn)自己被綠了窍育。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡宴胧，死狀恐怖漱抓，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情恕齐，我是刑警寧澤乞娄，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站显歧，受9級特大地震影響仪或，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜追迟，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望骚腥。院中可真熱鬧敦间，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案厢绝，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至带猴，卻和暖如春昔汉，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背拴清。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工靶病，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人口予。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓娄周，卻偏偏與公主長得像，于是被迫代替她去往敵國和親沪停。傳聞我的和親對象是個殘疾皇子煤辨，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

一文極速讀懂 Uniprot 蛋白質(zhì)數(shù)據(jù)庫

UniProtKB/Swiss-Prot

常用的操作

UniProtKB/TrEMBL

UniParc

UniRef

推薦閱讀更多精彩內(nèi)容