在進(jìn)行上游分析之前悬垃,我們需要進(jìn)行原始數(shù)據(jù)的獲取美莫,其中就包括去各大數(shù)據(jù)庫下載原始數(shù)據(jù)
1. 原始數(shù)據(jù)的下載
- wget
# 根據(jù)數(shù)據(jù)鏈接直接下載
wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR19187641/SRR19187641
# 可以根據(jù)鏈接進(jìn)行批量下載
wget -i sra.txt
- prefetch
# 更高效危纫、更快捷地下載
prefetch SRR19187641
prefetch --option-file sra.txt -O output_directory
prefetch命令下載SRA文件
SRA Toolkit - prefetch 快速下載NCBI SRA數(shù)據(jù)
sratoolkits軟件的安裝 cdb-config:command not found 解決方法 - 美洲豹2018 - 博客園
- Aspera
下載ENA數(shù)據(jù)庫當(dāng)中的原始數(shù)據(jù)而克,強(qiáng)烈推薦Aspera這個(gè)軟件
使用ebi數(shù)據(jù)庫直接下載fastq測(cè)序數(shù)據(jù)的改進(jìn)腳本 | 生信菜鳥團(tuán)
Aspera下載安裝使用
從NCBI-SRA和EBI-ENA數(shù)據(jù)庫下載數(shù)據(jù)
2021-02-14 ascp下載ENA數(shù)據(jù)庫文件
How to Download Data Files — ENA Training Modules 1 documentation (ena-docs.readthedocs.io)
2. 格式轉(zhuǎn)換(sra轉(zhuǎn)為fastq)
fastq-dump正在被淘汰溢吻,推薦使用fasterq-dump维费,如果多線程處理推薦使用pfastq-dump,但是都需要先配置好sratoolkit
sra轉(zhuǎn)fastq筆記(fastq-dump促王、fasterq-dump和parallel-fastq-dump)
HowTo: fasterq dump · ncbi/sra-tools Wiki · GitHub
[工具] pfastq-dump 并行版的fastq-dump
# 批量處理方法一
for i in $(ls rawdata/SRR*)
do
fastq-dump --split-files --gzip ${i##*/} -O rawdata/
done
# 批量處理方法二
cd rawdata/
for base in SRR*
do
echo $base
fastq-dump --split-files ${base}
done
cd ../
linux shell獲取文件名和路徑犀盟,basename/dirname/${}運(yùn)用_ksj367043706的博客-CSDN博客_shell 文件名稱