參考資料:
由于在GO數(shù)據(jù)庫中并沒有小麥的GO注釋信息所以需要自己整理獲得小麥中g(shù)ene與GO對應(yīng)關(guān)系恬偷。當(dāng)然也可以利用TGT數(shù)據(jù)庫網(wǎng)站的GOEnrichment項目進(jìn)行GO富集分析。
自制GO注釋文件過程具體如下:
1.下載小麥1.0版本基因注釋信息表
#此處選的是高可信基因版本
wget https://urgi.versailles.inra.fr/download/iwgsc/IWGSC_RefSeq_Annotations/v1.0/iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip
#解壓
unzip iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip
2. 編寫perl腳本實現(xiàn)GO注釋信息提取
Taes_GO_file_from_1.0HCTAB.pl內(nèi)容如下:
#!/usr/bin/perl -w
use strict;
"usage: perl $0 TAB.file |sort |uniq > GO_file.txt\n" unless @ARGV==1;
open TAB,"$ARGV[0]" or die $!;
print "gene\tGO\tprocess\tdesp\n";
while(<TAB>){
chomp;
my @line=split/\t/;
#將那些沒有注釋到任何GO通路的基因過濾掉
next if $line[7] !~/GO:/;
#僅使用基因id帘睦,而不用轉(zhuǎn)錄本id
my $gene=(split/\./,$line[0])[0];
#將那些有多個GO注釋過程的基因分割成多行袍患,每行僅含一個過程
$line[7]=~s/;/\n$gene\t/g;
$line[7]=~s/\sMF:\s/\tMF\t/g;
$line[7]=~s/\sCC:\s/\tCC\t/g;
$line[7]=~s/\sBP:\s/\tBP\t/g;
print $gene,"\t",$line[7],"\n";
}
close TAB;
運行腳本獲得GO_file.txt
#此處需要去除重復(fù)的行
perl Taes_GO_file_from_1.0HCTAB.pl iwgsc_refseqv1.0_FunctionalAnnotation_v1__HCgenes_v1.0.TAB |sort |uniq > GO_file.txt
GO_file.txt結(jié)果展示如下:
gene GO process desp
TraesCS1A01G001800 GO:0003735 MF structural constituent of ribosome
TraesCS1A01G001800 GO:0005622 CC intracellular
TraesCS1A01G001800 GO:0005840 CC ribosome
TraesCS1A01G001800 GO:0006412 BP translation
TraesCS1A01G002000 GO:0005515 MF protein binding
TraesCS1A01G002000 GO:0008270 MF zinc ion binding
TraesCS1A01G002400 GO:0005506 MF iron ion binding