文章僅是記錄自己的學(xué)習(xí)使用,有錯誤請指出,我立刻改正!
更多說明:
http://www.reibang.com/p/f80398cb9c97
https://zhuanlan.zhihu.com/p/108602863
https://www.liaochenlanruo.fun/post/e922.html
https://xuzhougeng.top/archives/Function-anotation-with-swiss-prot-database
https://github.com/xuzhougeng/myscripts/blob/master/annotation/add_annotation_from_dat.py
一、Swiss-Prot
(一)Uniprot簡介
- Uniprot (Universal Protein )是包含蛋白質(zhì)序列荐糜,功能信息,研究論文索引的蛋白質(zhì)數(shù)據(jù)庫,整合了包括EBI( European Bioinformatics Institute)狞尔,SIB(the Swiss Institute of Bioinformatics)丛版,PIR(Protein Information Resource)三大數(shù)據(jù)庫的資源。
1偏序、EBI( European Bioinformatics Institute):歐洲生物信息學(xué)研究所(EMBL-EBI)是歐洲生命科學(xué)旗艦實驗室EMBL的一部分页畦。位于英國劍橋欣克斯頓的惠康基因組校園內(nèi),是世界上基因組學(xué)領(lǐng)域最強的地帶之一研儒。
2豫缨、SIB(the Swiss Institute of Bioinformatics):瑞士日內(nèi)瓦的SIB維護著ExPASy(專家蛋白質(zhì)分析系統(tǒng))服務(wù)器,這里包含有蛋白質(zhì)組學(xué)工具和數(shù)據(jù)庫的主要資源端朵。
3好芭、PIR(Protein Information Resource):PIR由美國國家生物醫(yī)學(xué)研究基金會(NBRF)于1984年成立,旨在協(xié)助研究人員識別和解釋蛋白質(zhì)序列信息冲呢。
(二)Uniprot子庫
1舍败、UniProtKB/Swiss-Prot(Protein knowledgebas (review)):高質(zhì)量的、手工注釋的敬拓、非冗余的數(shù)據(jù)庫
2邻薯、UniProtKB/TrEMBL(Protein knowledgebase (unreview)):自動翻譯蛋白質(zhì)序列,預(yù)測序列乘凸,未驗證的數(shù)據(jù)庫
3厕诡、UniParc Sequence:非冗余蛋白質(zhì)序列數(shù)據(jù)庫
4、UniRef Sequence clusters:聚類序列減小數(shù)據(jù)庫营勤,加快搜索的速度
5灵嫌、Proteomes Protein sets from fully sequenced genomes:為全測序基因組物種提供蛋白質(zhì)組信息
- 通過EMBL,GenBank葛作,DDBJ等公共數(shù)據(jù)庫得到原始數(shù)據(jù)寿羞,處理后存入UniParc的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。UniProt作為數(shù)據(jù)倉庫赂蠢,再分別給UniProtKB绪穆,Proteomes,UNIRef提供可靠的數(shù)據(jù)集客年。其中在UniProtKB數(shù)據(jù)庫中Swiss-Prot是由TrEMBL經(jīng)過手動注釋后得到的高質(zhì)量非冗余數(shù)據(jù)庫霞幅,也是我們今后常用的蛋白質(zhì)數(shù)據(jù)庫之一漠吻。
- Swiss-Prot旨在提供與高水平注釋(例如量瓜,蛋白質(zhì)功能,其域結(jié)構(gòu)途乃,翻譯后修飾绍傲,變體等的描述)相關(guān)的可靠蛋白質(zhì)序列,最小程度的冗余和高水平與其他數(shù)據(jù)庫的集成級別。注釋主要來自文獻中的研究成果和E-value校驗過計算分析結(jié)果烫饼,有質(zhì)量保證的數(shù)據(jù)才被加入該數(shù)據(jù)庫 猎塞。
二、Swiss-Prot數(shù)據(jù)庫本地化
(一)uniprot_sprot.fasta的序列信息解讀:
sp|Q6GZX4|001R_FRG3G Putative transcription factor 001R OS=Frog virus 3 (isolate Goorha) OX=654924 GN=FV3-001R PE=4 SV=1
>MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYKEWSPPRVQVECPKAPVEWNNPPS.......
- sp:Swiss-Prot數(shù)據(jù)庫的簡稱
- Q6GZX4:UniProt ID號
- 001R_FRG3G:UniProt 的登錄號
- Putative transcription factor 001R:蛋白質(zhì)名稱
- OS=Frog virus 3 (isolate Goorha) :OS是Organism簡稱杠纵,F(xiàn)rog virus 3 為蛙病毒3型的拉丁文分類命名
- OX=654924:Organism Taxonomy荠耽,也就是物種分類數(shù)據(jù)庫Taxonomy ID
- GN=FV3-001R:Gene name,基因名為FV3-001R
- PE=4:Protein Existence比藻,蛋白質(zhì)可靠性铝量,對應(yīng)5個數(shù)字,數(shù)字越小越可靠:
1:Experimental evidence at protein level
2:Experimental evidence at tranlevel
3:Protein inferred from homology
4:Protein predicted
5:Protein uncertain - SV=1:Sequence Version银亲,序列版本號
(二)本地化
1慢叨、下載和比對數(shù)據(jù)庫
##下載數(shù)據(jù)庫##
wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
gunzip uniprot_sprot.fasta.gz
##diamond比對##
diamond makedb --in uniprot_sprot.fasta --db uniprot_sprot #建庫
diamond blastx -q fasta_file -d uniprot_sprot -o diamond_output --evalue 1e-05 -p 10 --max-target-seqs 1 #比對
2、輸出結(jié)果解讀:
TRINITY_DN21482_c0_g3_i1 sp|Q09818|YAC4_SCHPO 43.2 88 43 2 85 342 12 94 1.32e-19 86.3
TRINITY_DN21482_c1_g1_i1 sp|O95628|CNOT4_HUMAN 53.7 67 31 0 202 2 160 226 4.97e-19 82.0
TRINITY_DN21433_c0_g1_i17 sp|P47927|AP2_ARATH 52.5 345 86 10 1209 208 155 432 8.31e-87 276
TRINITY_DN21433_c0_g1_i5 sp|P47927|AP2_ARATH 53.1 341 83 11 1164 175 158 432 1.14e-88 278
- 默認(rèn)輸出為outfmt6务蝠,其格式為:
1拍谐、qseqid means Query Seq - id ,qseqid指的是要查詢/比對的序列
2馏段、sseqid means Subject Seq - id轩拨,sseqid指的是目標(biāo)序列。
3毅弧、pident means Percentage of identical matches气嫁,pident指的是完全匹配的比例
4、length means Alignment length够坐,length指的是比對長度
5寸宵、mismatch means Number of mismatches, mismatch指的是沒有匹配上的數(shù)量
6元咙、gapopen means Number of gap openings梯影, gapopen指的是 空位開放的數(shù)量
7、qstart means Start of alignment in query庶香,qstart指的是查詢比對的起始
8甲棍、qend means End of alignment in query,qend指的是查詢比對的終止
9赶掖、sstart means Start of alignment in subject感猛,sstart指的是比對在目標(biāo)中的開始
10、send means End of alignment in subject奢赂,send指的是比對在目標(biāo)中的結(jié)束
11陪白、evalue means Expect value,evalue指的是閾值
12膳灶、bitscore means Bit score咱士,bitscore指的是片段的分?jǐn)?shù)