fastq-dump是常用用來下載NCBI原始測序SRA數(shù)據(jù)的工具,但是它的參數(shù)也是比較雜亂,我根據(jù)查到的數(shù)據(jù)說下我的體會(huì)
--outdir ? ?<File_name> ? ? ? ? # 輸出文件夾名
--gzip ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# 使用gzip壓縮結(jié)果 (目的是減少占用硬盤大小)
--skip-technical ? ? ? ? ? ? ? ? ? ?# ?只輸出biological reads,不然會(huì)technical reads輸出,而technical reads不是我們想要的
--split-files ? ? ? ? ? ? ? ? ? ? ? ? ? ?# ?把pair-end測序分成兩個(gè)文件輸出
--fasta ? ? ?<interger> ? ? ? ? ? ?# 直接輸出fasta格式,且每行的字符數(shù)是<interger>
--readids ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# ?在每個(gè)reads的名字后面加上后綴 .1 和 .2漾肮,用于區(qū)分 pair-end 測序中的一對reads
--origfmt ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? # 顯示原始格式,便于追蹤來源茎毁,同時(shí)可以顯示長度信息
--dumpbase ? ? ? ? ? ? ? ? ? ? ? ?# 確保輸出的是A, T, C, G (對于SOLiD測序會(huì)輸出顏色克懊,其他這個(gè)參數(shù)是默認(rèn)的)
--offset ? ? ?<interger> ? ? ? ? # 對早期的數(shù)據(jù)進(jìn)行轉(zhuǎn)化 (默認(rèn)是33,不要亂改)
--minSpotId ? ? <interger> ? ? # 輸出從minSpotId到maxSpotId的reads七蜘,一個(gè)spot可能包含多個(gè)reads (多數(shù)情況會(huì)相等)
--maxSpotId? ? <interger> ? ? # 輸出從minSpotId到maxSpotId的reads谭溉,一個(gè)spot可能包含多個(gè)reads (多數(shù)情況會(huì)相等)
--minReadlen ?<interger> ? ?# 過濾短reads
--clip ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?#去除標(biāo)簽
--aligned ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #只輸出能align到human genome上的
--read-filter ? ? ?"pass" ? ? ? ? ? #去除全是N的reads
--stout ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #直接把結(jié)果輸出到屏幕上
別忘了加最后一個(gè)參數(shù),就是數(shù)據(jù)名稱 SRRxxxxxxxxxx
經(jīng)典的代碼是
fastq-dump ?--outdir file_name ?--gzip ?--skip-technical ? --readids ?--read-filter ?pass ?--dumpbase --split-files ?--clip ? SRR_ID