基于blast進行GO功能注釋

目前GO注釋主要分為兩種方法,其一,序列相似性即blast德玫,其二,結構域相似性比對(InterProsScan)椎麦,該方法在前面也提及過宰僧,本文就blast進行簡要概述

所需文件

  • query 蛋白序列
  • swiss-prot 蛋白數據庫
  • idmapping.tb.gz, 即GO和swiss-prot的對應關系观挎,也包括GO與其他數據庫的對應關系

簡單操作

1. blast比對

對swiss-prot建庫后琴儿,進行比對

blastp -outfmt 6 -query query_sequences_AA.fasta -db uniprot_swissprot.fasta -out query_vs_swissprot.txt

得到如下結果

YY_000250.1     Q8RXX9  38.728  173     75      5       24      178     14      173     1.29e-23        101     E3 ubiquitin-protein ligase ATL
YY_000260.1     Q9SK92  36.364  132     70      6       12      140     40      160     9.82e-12        69.3    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  37.302  126     67      2       5       118     43      168     1.51e-23        98.6    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  40.196  102     46      3       134     234     68      155     3.04e-14        73.2    E3 ubiquitin-protein ligase ATL
YY_000280.1     Q8W571  38.060  134     75      2       2       134     52      178     4.49e-23        95.5    RING-H2 finger protein ATL32 OS

其中第二列即為swiss-prot數據庫中的ID

2. 下載GO對應關系

ftp://ftp.pir.georgetown.edu/databases/idmapping 下載 idmapping.tb.gz,該文件較大嘁捷,也可選擇Filezilla 進行下載,或

wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz

該文件均為一些對應關系造成,具體如下:

Q6GZX4  001R_FRG3G      2947773 YP_031579.1     81941549; 49237298              PF04947 GO:0046782                      UniRef100_Q6GZX4        UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4           654924                          15165820        AY548484        AAT09660.1
Q6GZX3  002L_FRG3G      2947774 YP_031580.1     49237299; 81941548              PF03003 GO:0033644; GO:0016021                  UniRef100_Q6GZX3        UniRef90_Q6GZX3 UniRef50_Q6GZX3 UPI00003B0FD5           654924                          15165820        AY548484        AAT09661.1
Q197F8  002R_IIV3       4156251 YP_654574.1     109287880; 123808694; 106073503                                         UniRef100_Q197F8        UniRef90_Q197F8 UniRef50_Q197F8 UPI0000D83464           345201                          16912294        DQ643392        ABF82032.1
  • (1) UniProtKB accession

  • (2) UniProtKB ID

  • (3) EntrezGene

  • (4) RefSeq

  • (5) NCBI GI number

  • (6) PDB

  • (7) Pfam

  • (8) GO

  • (9) PIRSF

  • (10) IPI

  • (11) UniRef100

  • (12) UniRef90

  • (13) UniRef50

  • (14) UniParc

  • (15) PIR-PSD accession

  • (16) NCBI taxonomy

  • (17) MIM

  • (18) UniGene

  • (19) Ensembl

  • (20) PubMed ID

  • (21) EMBL/GenBank/DDBJ

  • (22) EMBL protein_id

3. 對應關系轉換

根據blast結果,根據蛋白數據庫中的ID將其對應的GO 注釋到對應的基因上

python UniProt2GO_annotate.py idmapping.tb.gz  blastoff output file

結果如下

c93619_g2_i1    GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3    GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1    GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1    GO:0006729,GO:0008124
c107639_g1_i1   GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
c106424_g1_i1   GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
c66585_g1_i1    GO:0005737,GO:0003746,GO:0003924,GO:0005525
c110618_g1_i8   GO:0015297,GO:0016021,GO:0015238

其中腳本UniProt2GO_annotate.py 下載
鏈接:http://pan.baidu.com/s/1kVjzJYv 密碼:vigu

參考

歡迎掃碼交流

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末雄嚣,一起剝皮案震驚了整個濱河市晒屎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缓升,老刑警劉巖鼓鲁,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異仔沿,居然都是意外死亡坐桩,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門封锉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來绵跷,“玉大人,你說我怎么就攤上這事成福∧刖郑” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我符匾,道長,這世上最難降的妖魔是什么像啼? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮潭苞,結果婚禮上忽冻,老公的妹妹穿的比我還像新娘。我一直安慰自己此疹,他們只是感情好僧诚,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布遮婶。 她就那樣靜靜地躺著,像睡著了一般湖笨。 火紅的嫁衣襯著肌膚如雪旗扑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天慈省,我揣著相機與錄音臀防,去河邊找鬼。 笑死边败,一個胖子當著我的面吹牛清钥,可吹牛的內容都是我干的。 我是一名探鬼主播放闺,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼缕坎!你這毒婦竟也來了怖侦?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤谜叹,失蹤者是張志新(化名)和其女友劉穎匾寝,沒想到半個月后,有當地人在樹林里發(fā)現(xiàn)了一具尸體荷腊,經...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡艳悔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了女仰。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猜年。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖疾忍,靈堂內的尸體忽然破棺而出乔外,到底是詐尸還是另有隱情,我是刑警寧澤一罩,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布杨幼,位于F島的核電站,受9級特大地震影響聂渊,放射性物質發(fā)生泄漏差购。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一汉嗽、第九天 我趴在偏房一處隱蔽的房頂上張望欲逃。 院中可真熱鬧,春花似錦诊胞、人聲如沸暖夭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽迈着。三九已至竭望,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間裕菠,已是汗流浹背咬清。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留奴潘,地道東北人旧烧。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像画髓,于是被迫代替她去往敵國和親掘剪。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355