fastq-dump轉(zhuǎn)換SRA文件到fastq文件很慢,并行版本成為趨勢(shì)设联;
無論怎么換捌年,先要打好基礎(chǔ)谴轮,使用并行版本的前提是要保證NCBI的fastq-dump可以在服務(wù)器上正常運(yùn)行。
首先安裝Sratoolkit的最新版(v.2.9.2):
mkdir -p?/path-to-Sratoolkit/ && cd?/path-to-Sratoolkit/
wget? https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz && \
tar zxfv sratoolkit.2.9.2-ubuntu64.tar.gz&& \
mv?sratoolkit.2.9.2-ubuntu64/* . && \ rm -rf?sratoolkit.2.9.2-ubuntu64.tar.gz?sratoolkit.2.9.2-ubuntu64
下載pfastq-dump:
git clone https://github.com/inutano/pfastq-dump && \
cd pfastq-dump && \
chmod a+x bin/pfastq-dump && \
ln -s bin/pfastq-dump? /path-to-Sratoolkit/bin
把安裝的路徑加入到賬號(hào)下的$PATH中:
echo 'PATH=/home/luna/Desktop/Software/Sratoolkit/bin:$PATH' >>?~/.bashrc && \
cp?~/.bashrc?~/.bash_profile && \
source?~/.bashrc?~/.bash_profile
使用pfastq_dump识窿,因?yàn)閜fastq_dump是基于fastq_dump寫的一個(gè)bash程序,所以參數(shù)是相同的:
對(duì)于單端數(shù)據(jù)轉(zhuǎn)換脑融,轉(zhuǎn)換后文件是fq.gz:
for id in *sra;????do pfastq-dump --threads 10 ./$id --gzip;????done?
對(duì)于雙端數(shù)據(jù)轉(zhuǎn)換喻频,轉(zhuǎn)換后文件是fq.gz:
for id in *sra;? ? ? ? do pfastq-dump? --threads 8 ./$id --split-3 --gzip;????done?
直接用sra號(hào)下載并解壓fastq文件,但是推薦下載好文件再使用fastq_dump轉(zhuǎn)換肘迎,且文件后綴是.sra(請(qǐng)注意):
單端數(shù)據(jù):
for id in SRR799545? SRR799544;????do pfastq-dump --threads 10 -s $id?--gzip;????done
雙端數(shù)據(jù):
for id in SRR799545??SRR799544;????do pfastq-dump --threads 10 -s $id?--split-3 --gzip;????done
經(jīng)過測(cè)試甥温,其實(shí)也不是那么的快啊<瞬肌姻蚓!很揪心!