從NCBI下載一個物種的基因組文件锤悄。假設我們要下載一個叫做Tetranychus urticae的物種桦锄,首先在NCBI上genome中搜索Tetranychus urticae。得到如下截圖:
image.png
然后復制genome和gff的下載地址
在xshell中下載,命令如下
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.fna.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.gff.gz
解壓:
gunzip GCF_000239435.1_ASM23943v1_genomic.fna.gz
gunzip GCF_000239435.1_ASM23943v1_genomic.gff.gz
查看gff文件
less -S GCF_000239435.1_ASM23943v1_genomic.gff
image.png
可以看出關于基因信息在第三列,統(tǒng)計該物種注釋出的基因數(shù)目:
cut -f3 GCF_000239435.1_ASM23943v1_genomic.gff|grep 'gene'|grep -v 'pseudogene'|wc -l
***pseudogene并不是我們想要的,因此冕杠,在上述命令中我把它去除了。