? ? ? ? 利用NCBI數(shù)據(jù)進(jìn)行分析的時(shí)候佃蚜,遇到的第二個(gè)問題就是如何將SRA文件轉(zhuǎn)化為常用的fastq文件髓需。
? ? ? ? NCBI官方提供的SRAtoolkit里面有fastq-dump置吓,很簡單的一個(gè)命令裹粤,直接轉(zhuǎn)換出來就是壓縮好的fastq.gz文件颁褂,但是這個(gè)命令是單線程的仆潮,遇上大量的SRA數(shù)據(jù)就非常慢了故黑,所以后來開發(fā)了一個(gè)fasterq-dump儿咱,能夠多線程的轉(zhuǎn)換。
? ? ? ? 但是這個(gè)命令最大的問題是不能直接出壓縮好的fastq.gz文件场晶,對于非服務(wù)器用戶很不友好混埠,沒壓縮的fq文件通常十幾個(gè)G,文件一多硬盤就爆炸诗轻,所以還是希望能夠以壓縮好的gz文件存儲(chǔ)钳宪,通常只有原始文件的1/8左右,只有原始SRA文件的2倍左右扳炬。如果利用gzip命令吏颖,這玩意也是個(gè)單線程的,壓縮起來要了親命恨樟。所以通過尋找我發(fā)現(xiàn)pigz這個(gè)命令可以多線程的壓縮半醉,壓縮大小和gzip是差不多的,最后我寫了個(gè)簡單的shell腳本劝术,可以一次性完成這兩步工作缩多。
#!/bin/bash
# 本腳本可多線程的將SRA文件轉(zhuǎn)化為Fastq文件#
# 本腳本依賴于SRA-toolkit以及pigz兩個(gè)軟件,需要在PATH中存在#
# 使用方法:SRA2fq.sh 線程數(shù) 文件地址#
# 例如: SRA2fq.sh 48 /media/sata2/Bju_RNASeq/SRR8293215.sra #
mkdir fastq_files
cd ./fastq_files
fasterq-dump -3 -e $1 $2
pigz -p $1 ./*.fastq
? ? ? ? 把兩個(gè)分割線中間的命令用記事本保存為sh文件养晋,放在服務(wù)器上就能夠執(zhí)行了衬吆。多線程的轉(zhuǎn)換,多線程的壓縮绳泉,節(jié)約不少時(shí)間逊抡,對臺(tái)式機(jī)用戶比較友好。