目前GO注釋主要分為兩種方法,其一,序列相似性即blast德玫,其二,結構域相似性比對(InterProsScan)椎麦,該方法在前面也提及過宰僧,本文就blast進行簡要概述
所需文件
- query 蛋白序列
- swiss-prot 蛋白數據庫
- idmapping.tb.gz, 即GO和swiss-prot的對應關系观挎,也包括GO與其他數據庫的對應關系
簡單操作
1. blast比對
對swiss-prot建庫后琴儿,進行比對
blastp -outfmt 6 -query query_sequences_AA.fasta -db uniprot_swissprot.fasta -out query_vs_swissprot.txt
得到如下結果
YY_000250.1 Q8RXX9 38.728 173 75 5 24 178 14 173 1.29e-23 101 E3 ubiquitin-protein ligase ATL
YY_000260.1 Q9SK92 36.364 132 70 6 12 140 40 160 9.82e-12 69.3 E3 ubiquitin-protein ligase ATL
YY_000270.1 Q9SLC3 37.302 126 67 2 5 118 43 168 1.51e-23 98.6 E3 ubiquitin-protein ligase ATL
YY_000270.1 Q9SLC3 40.196 102 46 3 134 234 68 155 3.04e-14 73.2 E3 ubiquitin-protein ligase ATL
YY_000280.1 Q8W571 38.060 134 75 2 2 134 52 178 4.49e-23 95.5 RING-H2 finger protein ATL32 OS
其中第二列即為swiss-prot數據庫中的ID
2. 下載GO對應關系
從 ftp://ftp.pir.georgetown.edu/databases/idmapping 下載 idmapping.tb.gz,該文件較大嘁捷,也可選擇Filezilla 進行下載,或
wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz
該文件均為一些對應關系造成,具體如下:
Q6GZX4 001R_FRG3G 2947773 YP_031579.1 81941549; 49237298 PF04947 GO:0046782 UniRef100_Q6GZX4 UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4 654924 15165820 AY548484 AAT09660.1
Q6GZX3 002L_FRG3G 2947774 YP_031580.1 49237299; 81941548 PF03003 GO:0033644; GO:0016021 UniRef100_Q6GZX3 UniRef90_Q6GZX3 UniRef50_Q6GZX3 UPI00003B0FD5 654924 15165820 AY548484 AAT09661.1
Q197F8 002R_IIV3 4156251 YP_654574.1 109287880; 123808694; 106073503 UniRef100_Q197F8 UniRef90_Q197F8 UniRef50_Q197F8 UPI0000D83464 345201 16912294 DQ643392 ABF82032.1
(1) UniProtKB accession
(2) UniProtKB ID
(3) EntrezGene
(4) RefSeq
(5) NCBI GI number
(6) PDB
(7) Pfam
(8) GO
(9) PIRSF
(10) IPI
(11) UniRef100
(12) UniRef90
(13) UniRef50
(14) UniParc
(15) PIR-PSD accession
(16) NCBI taxonomy
(17) MIM
(18) UniGene
(19) Ensembl
(20) PubMed ID
(21) EMBL/GenBank/DDBJ
(22) EMBL protein_id
3. 對應關系轉換
根據blast結果,根據蛋白數據庫中的ID將其對應的GO 注釋到對應的基因上
python UniProt2GO_annotate.py idmapping.tb.gz blastoff output file
結果如下
c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1 GO:0006729,GO:0008124
c107639_g1_i1 GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
c106424_g1_i1 GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
c66585_g1_i1 GO:0005737,GO:0003746,GO:0003924,GO:0005525
c110618_g1_i8 GO:0015297,GO:0016021,GO:0015238
其中腳本UniProt2GO_annotate.py 下載
鏈接:http://pan.baidu.com/s/1kVjzJYv 密碼:vigu