一文極速讀懂 Uniprot 蛋白質(zhì)數(shù)據(jù)庫

Uniprot (Universal Protein )是包含蛋白質(zhì)序列,功能信息副签,研究論文索引的蛋白質(zhì)數(shù)據(jù)庫讨勤,整合了包括EBI( European Bioinformatics Institute)购裙,SIB(the Swiss Institute of Bioinformatics)链嘀,PIR(Protein Information Resource)三大數(shù)據(jù)庫的資源萌狂。

  • EBI( European Bioinformatics Institute):歐洲生物信息學(xué)研究所(EMBL-EBI)是歐洲生命科學(xué)旗艦實驗室EMBL的一部分。位于英國劍橋欣克斯頓的惠康基因組校園內(nèi)怀泊,是世界上基因組學(xué)領(lǐng)域最強地帶之一粥脚。
  • SIB(the Swiss Institute of Bioinformatics):瑞士日內(nèi)瓦的SIB維護著ExPASy(專家蛋白質(zhì)分析系統(tǒng))服務(wù)器,這里包含有蛋白質(zhì)組學(xué)工具和數(shù)據(jù)庫的主要資源包个。
  • PIR(Protein Information Resource):PIR由美國國家生物醫(yī)學(xué)研究基金會(NBRF)于1984年成立,旨在協(xié)助研究人員識別和解釋蛋白質(zhì)序列信息冤留。

目前碧囊,UniProt主要由以下子庫構(gòu)成:

image

他們的關(guān)系如下:

通過EMBL,GenBank纤怒,DDBJ等公共數(shù)據(jù)庫得到原始數(shù)據(jù)糯而,處理后存入UniParc的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。UniProt作為數(shù)據(jù)倉庫泊窘,再分別給UniProtKB熄驼,Proteomes,UNIRef提供可靠的數(shù)據(jù)集烘豹。其中在UniProtKB數(shù)據(jù)庫中Swiss-Prot是由TrEMBL經(jīng)過手動注釋后得到的高質(zhì)量非冗余數(shù)據(jù)庫瓜贾,也是我們今后常用的蛋白質(zhì)數(shù)據(jù)庫之一。

image

UniProtKB/Swiss-Prot

高質(zhì)量的携悯、手工注釋的祭芦、非冗余的數(shù)據(jù)集

Swiss-Prot旨在提供與高水平注釋(例如,蛋白質(zhì)功能憔鬼,其域結(jié)構(gòu)龟劲,翻譯后修飾胃夏,變體等的描述)相關(guān)的可靠蛋白質(zhì)序列,最小程度的冗余和高水平與其他數(shù)據(jù)庫的集成級別昌跌。注釋主要來自文獻中的研究成果和E-value校驗過計算分析結(jié)果仰禀,有質(zhì)量保證的數(shù)據(jù)才被加入該數(shù)據(jù)庫 。

Swiss-Prot由Amos Bairoch博士在1986年創(chuàng)建蚕愤,由瑞士生物信息學(xué)研究所開發(fā)答恶,隨后由歐洲生物信息學(xué)研究所的Rolf Apweiler開發(fā)。也是說EBI和SIB共同制作了Swiss-Prot和TrEMBL數(shù)據(jù)庫审胸。

Swiss-Prot條目的注釋中使用了一系列序列分析工具亥宿。包括手動評估,計算機預(yù)測砂沛,并選擇結(jié)果包含在相應(yīng)的條目中烫扼。這些預(yù)測包括翻譯后修飾,跨膜結(jié)構(gòu)域和拓撲碍庵,信號肽映企,結(jié)構(gòu)域識別和蛋白質(zhì)家族分類。

來自相同基因和相同物種的序列合并到相同的數(shù)據(jù)庫條目中静浴。確定序列之間的差異包含:可變剪接堰氓,自然變異,錯誤的起始位點苹享,錯誤的外顯子邊界双絮,移碼,未識別的沖突得问。

注釋會用相關(guān)出版物通過搜索數(shù)據(jù)庫(例如PubMed)進行識別囤攀。閱讀每篇論文的全文,然后提取信息并將其添加到條目中宫纬》倌樱科學(xué)文獻中的注釋包括但不限于:

  • 蛋白質(zhì)和基因名稱
  • 功能
  • 特定于酶的信息,例如催化活性漓骚,輔因子和催化殘基
  • 亞細胞定位
  • 蛋白質(zhì)相互作用
  • 表達方式
  • 重要域和站點的位置和角色
  • 離子蝌衔,底物和輔因子結(jié)合位點
  • 通過自然遺傳變異,RNA編輯蝌蹂,替代剪接噩斟,蛋白水解加工和翻譯后修飾產(chǎn)生的蛋白質(zhì)變異形式

常用的操作

image

<1>:這里輸入基因名,UniProt ID孤个,或者感興趣的關(guān)鍵字

<2>:篩選:Reviewed:存儲在Swiss-Prot數(shù)據(jù)庫中經(jīng)過驗證的蛋白數(shù)據(jù)亩冬,Unreviewed:存儲在TrEMBL數(shù)據(jù)庫中沒有經(jīng)過驗證的蛋白數(shù)據(jù)

<3>:篩選某個物種,點擊就好切換到該物種

<4>:通過基因名或蛋白名來篩選

<5>:依次是Unprot ID,該蛋白數(shù)據(jù)庫命名硅急,蛋白質(zhì)名覆享,基因名,物種营袜,序列長

<6>:如果需要Blast來查看某個蛋白有哪些序列相似的蛋白序列撒顿,先選中感興趣蛋白前的方框,點擊Blast

<7>:如果需要多序列比對荚板,先選中感興趣蛋白前的方框凤壁,點擊Align

<8>:如果要下載信息,先選中感興趣蛋白前的方框跪另,點擊Download下載拧抖。這里不選擇序列,默認會下載全部序列

下面以 PO5F1_HUMAN 為例免绿,下載對應(yīng)的fasta序列來看看:

image

下載到的序列:

  >sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1
  MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGI
  PPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPG
  AVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFS
  QTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENR
  VRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEA
  AGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN

首先看 > 后的注釋信息

  • sp:Swiss-Prot數(shù)據(jù)庫的簡稱唧席,也就是上面說的驗證后的蛋白數(shù)據(jù)庫

  • Q01860:UniProt ID號

  • PO5F1_HUMAN:是UniProt 的登錄名

  • POU domain, class 5, transcription factor 1:蛋白質(zhì)名稱

  • OS=Homo sapiens:OS是Organism簡稱,Homo sapiens為人的拉丁文分類命名嘲驾,也就是這是人的蛋白質(zhì)

  • OX=9606:Organism Taxonomy淌哟,也就是物種分類數(shù)據(jù)庫Taxonomy ID

  • GN=POU5F1:Gene name,基因名為POU5F1

  • PE=1:Protein Existence辽故,蛋白質(zhì)可靠性徒仓,對應(yīng)5個數(shù)字,數(shù)字越小越可靠:

  • 1:Experimental evidence at protein level

  • 2:Experimental evidence at tranlevel

  • 3:Protein inferred from homology

  • 4:Protein predicted

  • 5:Protein uncertain

  • SV=1:Sequence Version誊垢,序列版本號

UniProtKB/TrEMBL

在認識到序列數(shù)據(jù)的生成速度超過了Swiss-Prot的注釋能力時掉弛,為了給不在Swiss-Prot中的那些蛋白質(zhì)提供自動注釋,UniProt創(chuàng)建了TrEMBL(翻譯的EMBL核苷酸序列數(shù)據(jù)庫)喂走。在三大核酸數(shù)據(jù)庫(EMBL-Bank/GenBank/DDBJ)中注釋的編碼序列都會被自動翻譯并加入該數(shù)據(jù)庫中狰晚。它也有來自PDB數(shù)據(jù)庫的序列,以及Ensembl缴啡、Refeq和CCDS基因預(yù)測的序列。之前提到的PIR組織制作了蛋白質(zhì)序列數(shù)據(jù)庫(PIR-PSD)瓷们。

UniParc

UniProt Archive(UniParc)包含來自主要公共可用蛋白質(zhì)序列數(shù)據(jù)庫的所有蛋白質(zhì)序列的非冗余數(shù)據(jù)集业栅。蛋白質(zhì)可能存在于幾個不同的來源數(shù)據(jù)庫中,并且在同一數(shù)據(jù)庫中存在多個副本谬晕。 為了避免冗余碘裕,UniParc僅將每個唯一序列存儲一次。 相同序列被合并攒钳,無論它們來自相同還是不同物種帮孔。 每個序列都有一個穩(wěn)定且唯一的標識符(UPI),從而可以從不同的來源數(shù)據(jù)庫中識別相同的蛋白質(zhì)乍迄。

UniParc僅包含蛋白質(zhì)序列啦膜,沒有注釋。 UniParc條目中的數(shù)據(jù)庫交叉引用允許從源數(shù)據(jù)庫檢索有關(guān)該蛋白質(zhì)的更多信息宴霸。 當源數(shù)據(jù)庫中的序列發(fā)生更改時姆坚,UniParc將跟蹤這些更改澳泵,并記錄所有更改的歷史記錄。

UniRef

UniProt Reference Clusters(UniRef):聚類序列可顯著減小數(shù)據(jù)庫大小兼呵,從而加快序列搜索的速度兔辅。用于計算的蛋白質(zhì)序列來自UniProtKB和部分UniParc記錄的序列。UniRef100序列將相同的序列和序列片段(來自任何生物)合并到一個UniRef條目中击喂,用于顯示代表性蛋白質(zhì)的序列维苔。 使用CD-HIT算法對UniRef100序列進行聚類,并構(gòu)建UniRef90和UniRef50懂昂。UniRef90和UniRef50分別代表每個簇由與最長序列分別具有至少90%或50%序列同一性的序列組成介时。
一文極速讀懂 Uniprot 蛋白質(zhì)數(shù)據(jù)庫

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市忍法,隨后出現(xiàn)的幾起案子潮尝,更是在濱河造成了極大的恐慌,老刑警劉巖饿序,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件勉失,死亡現(xiàn)場離奇詭異,居然都是意外死亡原探,警方通過查閱死者的電腦和手機乱凿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咽弦,“玉大人徒蟆,你說我怎么就攤上這事⌒托停” “怎么了段审?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長闹蒜。 經(jīng)常有香客問我寺枉,道長,這世上最難降的妖魔是什么绷落? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任姥闪,我火速辦了婚禮,結(jié)果婚禮上砌烁,老公的妹妹穿的比我還像新娘筐喳。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布避归。 她就那樣靜靜地躺著荣月,像睡著了一般。 火紅的嫁衣襯著肌膚如雪槐脏。 梳的紋絲不亂的頭發(fā)上喉童,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音顿天,去河邊找鬼堂氯。 笑死,一個胖子當著我的面吹牛牌废,可吹牛的內(nèi)容都是我干的咽白。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼鸟缕,長吁一口氣:“原來是場噩夢啊……” “哼晶框!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起懂从,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤授段,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后番甩,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體侵贵,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年缘薛,在試婚紗的時候發(fā)現(xiàn)自己被綠了窍育。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡宴胧,死狀恐怖漱抓,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情恕齐,我是刑警寧澤乞娄,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站显歧,受9級特大地震影響仪或,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜追迟,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望骚腥。 院中可真熱鬧敦间,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至带猴,卻和暖如春昔汉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背拴清。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工靶病, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人口予。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓娄周,卻偏偏與公主長得像,于是被迫代替她去往敵國和親沪停。 傳聞我的和親對象是個殘疾皇子煤辨,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容