Swiss-Prot數(shù)據(jù)庫(2022.5.25)使用記錄

文章僅是記錄自己的學(xué)習(xí)使用,有錯誤請指出,我立刻改正!

更多說明:
http://www.reibang.com/p/f80398cb9c97
https://zhuanlan.zhihu.com/p/108602863
https://www.liaochenlanruo.fun/post/e922.html
https://xuzhougeng.top/archives/Function-anotation-with-swiss-prot-database
https://github.com/xuzhougeng/myscripts/blob/master/annotation/add_annotation_from_dat.py

一、Swiss-Prot

(一)Uniprot簡介

  • Uniprot (Universal Protein )是包含蛋白質(zhì)序列荐糜,功能信息,研究論文索引的蛋白質(zhì)數(shù)據(jù)庫,整合了包括EBI( European Bioinformatics Institute)狞尔,SIB(the Swiss Institute of Bioinformatics)丛版,PIR(Protein Information Resource)三大數(shù)據(jù)庫的資源。
    1偏序、EBI( European Bioinformatics Institute):歐洲生物信息學(xué)研究所(EMBL-EBI)是歐洲生命科學(xué)旗艦實驗室EMBL的一部分页畦。位于英國劍橋欣克斯頓的惠康基因組校園內(nèi),是世界上基因組學(xué)領(lǐng)域最強的地帶之一研儒。
    2豫缨、SIB(the Swiss Institute of Bioinformatics):瑞士日內(nèi)瓦的SIB維護著ExPASy(專家蛋白質(zhì)分析系統(tǒng))服務(wù)器,這里包含有蛋白質(zhì)組學(xué)工具和數(shù)據(jù)庫的主要資源端朵。
    3好芭、PIR(Protein Information Resource):PIR由美國國家生物醫(yī)學(xué)研究基金會(NBRF)于1984年成立,旨在協(xié)助研究人員識別和解釋蛋白質(zhì)序列信息冲呢。

(二)Uniprot子庫

1舍败、UniProtKB/Swiss-Prot(Protein knowledgebas (review)):高質(zhì)量的、手工注釋的敬拓、非冗余的數(shù)據(jù)庫
2邻薯、UniProtKB/TrEMBL(Protein knowledgebase (unreview)):自動翻譯蛋白質(zhì)序列,預(yù)測序列乘凸,未驗證的數(shù)據(jù)庫
3厕诡、UniParc Sequence:非冗余蛋白質(zhì)序列數(shù)據(jù)庫
4、UniRef Sequence clusters:聚類序列減小數(shù)據(jù)庫营勤,加快搜索的速度
5灵嫌、Proteomes Protein sets from fully sequenced genomes:為全測序基因組物種提供蛋白質(zhì)組信息

  • 通過EMBL,GenBank葛作,DDBJ等公共數(shù)據(jù)庫得到原始數(shù)據(jù)寿羞,處理后存入UniParc的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。UniProt作為數(shù)據(jù)倉庫赂蠢,再分別給UniProtKB绪穆,Proteomes,UNIRef提供可靠的數(shù)據(jù)集客年。其中在UniProtKB數(shù)據(jù)庫中Swiss-Prot是由TrEMBL經(jīng)過手動注釋后得到的高質(zhì)量非冗余數(shù)據(jù)庫霞幅,也是我們今后常用的蛋白質(zhì)數(shù)據(jù)庫之一漠吻。
  • Swiss-Prot旨在提供與高水平注釋(例如量瓜,蛋白質(zhì)功能,其域結(jié)構(gòu)途乃,翻譯后修飾绍傲,變體等的描述)相關(guān)的可靠蛋白質(zhì)序列,最小程度的冗余和高水平與其他數(shù)據(jù)庫的集成級別。注釋主要來自文獻中的研究成果和E-value校驗過計算分析結(jié)果烫饼,有質(zhì)量保證的數(shù)據(jù)才被加入該數(shù)據(jù)庫 猎塞。

二、Swiss-Prot數(shù)據(jù)庫本地化

(一)uniprot_sprot.fasta的序列信息解讀:

sp|Q6GZX4|001R_FRG3G Putative transcription factor 001R OS=Frog virus 3 (isolate Goorha) OX=654924 GN=FV3-001R PE=4 SV=1
>MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYKEWSPPRVQVECPKAPVEWNNPPS.......
  • sp:Swiss-Prot數(shù)據(jù)庫的簡稱
  • Q6GZX4:UniProt ID號
  • 001R_FRG3G:UniProt 的登錄號
  • Putative transcription factor 001R:蛋白質(zhì)名稱
  • OS=Frog virus 3 (isolate Goorha) :OS是Organism簡稱杠纵,F(xiàn)rog virus 3 為蛙病毒3型的拉丁文分類命名
  • OX=654924:Organism Taxonomy荠耽,也就是物種分類數(shù)據(jù)庫Taxonomy ID
  • GN=FV3-001R:Gene name,基因名為FV3-001R
  • PE=4:Protein Existence比藻,蛋白質(zhì)可靠性铝量,對應(yīng)5個數(shù)字,數(shù)字越小越可靠:
    1:Experimental evidence at protein level
    2:Experimental evidence at tranlevel
    3:Protein inferred from homology
    4:Protein predicted
    5:Protein uncertain
  • SV=1:Sequence Version银亲,序列版本號

(二)本地化

1慢叨、下載和比對數(shù)據(jù)庫

##下載數(shù)據(jù)庫##
wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
gunzip uniprot_sprot.fasta.gz

##diamond比對##
diamond makedb --in uniprot_sprot.fasta --db uniprot_sprot  #建庫
diamond blastx -q fasta_file -d uniprot_sprot -o diamond_output --evalue 1e-05  -p 10 --max-target-seqs 1  #比對

2、輸出結(jié)果解讀:

TRINITY_DN21482_c0_g3_i1    sp|Q09818|YAC4_SCHPO    43.2    88  43  2   85  342 12  94  1.32e-19    86.3
TRINITY_DN21482_c1_g1_i1    sp|O95628|CNOT4_HUMAN   53.7    67  31  0   202 2   160 226 4.97e-19    82.0
TRINITY_DN21433_c0_g1_i17   sp|P47927|AP2_ARATH 52.5    345 86  10  1209    208 155 432 8.31e-87    276
TRINITY_DN21433_c0_g1_i5    sp|P47927|AP2_ARATH 53.1    341 83  11  1164    175 158 432 1.14e-88    278
  • 默認(rèn)輸出為outfmt6务蝠,其格式為:
    1拍谐、qseqid means Query Seq - id ,qseqid指的是要查詢/比對的序列
    2馏段、sseqid means Subject Seq - id轩拨,sseqid指的是目標(biāo)序列。
    3毅弧、pident means Percentage of identical matches气嫁,pident指的是完全匹配的比例
    4、length means Alignment length够坐,length指的是比對長度
    5寸宵、mismatch means Number of mismatches, mismatch指的是沒有匹配上的數(shù)量
    6元咙、gapopen means Number of gap openings梯影, gapopen指的是 空位開放的數(shù)量
    7、qstart means Start of alignment in query庶香,qstart指的是查詢比對的起始
    8甲棍、qend means End of alignment in query,qend指的是查詢比對的終止
    9赶掖、sstart means Start of alignment in subject感猛,sstart指的是比對在目標(biāo)中的開始
    10、send means End of alignment in subject奢赂,send指的是比對在目標(biāo)中的結(jié)束
    11陪白、evalue means Expect value,evalue指的是閾值
    12膳灶、bitscore means Bit score咱士,bitscore指的是片段的分?jǐn)?shù)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末立由,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子序厉,更是在濱河造成了極大的恐慌锐膜,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弛房,死亡現(xiàn)場離奇詭異道盏,居然都是意外死亡,警方通過查閱死者的電腦和手機文捶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門捞奕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人拄轻,你說我怎么就攤上這事颅围。” “怎么了恨搓?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵院促,是天一觀的道長。 經(jīng)常有香客問我斧抱,道長常拓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任辉浦,我火速辦了婚禮弄抬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘宪郊。我一直安慰自己掂恕,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布弛槐。 她就那樣靜靜地躺著懊亡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪乎串。 梳的紋絲不亂的頭發(fā)上店枣,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天,我揣著相機與錄音叹誉,去河邊找鬼鸯两。 笑死,一個胖子當(dāng)著我的面吹牛长豁,可吹牛的內(nèi)容都是我干的钧唐。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼蕉斜,長吁一口氣:“原來是場噩夢啊……” “哼逾柿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起宅此,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤机错,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后父腕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弱匪,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年璧亮,在試婚紗的時候發(fā)現(xiàn)自己被綠了萧诫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡枝嘶,死狀恐怖帘饶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情群扶,我是刑警寧澤及刻,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站竞阐,受9級特大地震影響缴饭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜骆莹,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一颗搂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧幕垦,春花似錦丢氢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至盏道,卻和暖如春稍浆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背猜嘱。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工衅枫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人朗伶。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓弦撩,卻偏偏與公主長得像,于是被迫代替她去往敵國和親论皆。 傳聞我的和親對象是個殘疾皇子益楼,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容