1. 介紹
- Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 數(shù)據(jù)的工具集合
- 一般常用于下載SRA文件,從SRA文件中提取fastq,sam文件膊毁,查看SRA文件信息等
2. 安裝
這里提供兩種方法,選擇一種安裝即可,強(qiáng)烈建議使用Conda方式安裝
2.1 Conda 安裝
conda install -y sra-tools
這里需要安裝Conda (一款用于安裝多數(shù)生物信息分析軟件的管理軟件惰帽,重要的是可以解決軟件的依賴問(wèn)題) : Conda 安裝使用圖文詳解
2.2 傳統(tǒng)安裝
下載
下載地址1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
下載地址2:https://github.com/ncbi/sra-tools/wiki/Downloads
在Linux系統(tǒng)(以CentOS為例)下將上述的鏈接下載到本地
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.6-1/sratoolkit.2.9.6-1-centos_linux64.tar.gz
解壓
gunzip -c sratoolkit.2.9.6-1-centos_linux64.tar.gz | tar xf -
設(shè)置環(huán)境變量
所有的可執(zhí)行文件均在
sratoolkit.2.9.6-1-centos_linux64/bin
目錄下環(huán)境變量添加的詳細(xì)方法:Linux 添加環(huán)境變量的五種方法
- 打開環(huán)境變量設(shè)置文件
sudo vim /etc/environment
- 添加軟件 bin 目錄的路徑,并用
:
隔開
- 執(zhí)行source命令父虑,使配置立即生效
sudo source /etc/enviroment
3. 使用
官方文檔:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
3.1 下載SRA
https://github.com/ncbi/sra-tools/wiki/HowTo:-Access-SRA-Data
下載單個(gè)文件
prefetch SRR390728
下載多個(gè)文件
prefetch cart_0.krt
3.2 抽取fastq文件
fastq-dump --split-3 SRR893046 -O fastq
注意:NCBI其實(shí)已經(jīng)更新了一個(gè)多線程抽取工具fasterq-dump
该酗,可以在sratools的bin目錄里找到,但是文檔沒(méi)有寫士嚎,沒(méi)有特殊需求的話垂涯,可以考慮直接用新工具替代。
這個(gè)fasterq-dump
與fastq-dump
相比航邢,就像動(dòng)車碾壓綠皮火車耕赘,用法如下:
fasterq-dump --split-3 SRR893046 -O fastq