數(shù)據(jù)下載:
SRA:
第一步先看文件密鑰并激活環(huán)境
conda activate rna
ls? ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh
結(jié)果報(bào)出來是:/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh
第二??下載:進(jìn)入ENA數(shù)據(jù)庫下載:ENA(https://www.ebi.ac.uk/ena/browser/home)并傳輸?shù)轿募Asra下
第三步:
將目前文件轉(zhuǎn)換到要下載的文件下
cd /root/project/Human-16-Asthma-Trans/rawdate/sra
下載單個(gè)文件SRA格式
ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR103/000/SRR1039510 .后面@要換成自己下載的文件
下載gz格式
ascp? -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz .后面@要換成自己下載的文件格式
批量下載:
先將批量下載模式轉(zhuǎn)換到.sh文件中
第一步:先得到sra.url文件承绸,如果行尾存在特殊字符,運(yùn)行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符
cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $NF}' >sra.url其中文件名應(yīng)該替換
第二步:將批量下載的命令轉(zhuǎn)到.sh
1outputdir=/project/Human-16-Asthma-Trans/rawdata/sra
2cat? sra.url |while read id do echo "ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}" done >sra.download.sh
第三步查看
less -s sra.sra.download.sh
第四步運(yùn)行
nohup bash sra.download.sh >sra.download.log &
第五步:查看進(jìn)度
jobs或ps aux 或top或ps -p <PID>
下載完成后數(shù)據(jù)檢驗(yàn)
awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt,其中md5的數(shù)據(jù)需要看一下是多少行
d5sum -c md5.txt
最后一步是轉(zhuǎn)換
首先需要新建一個(gè)fastq文件:要在/project/Human-16-Asthma-Trans/rawdata下新建花沉,與sra是一個(gè)等級(jí)
mkdir fastq
fqdir=/project/Human-16-Asthma-Trans/rawdata/fastq
第三步單個(gè)轉(zhuǎn)換
fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510
或批量轉(zhuǎn)換
將樣本名寫成一個(gè)文件:命名為sample.TD.
cat sample.ID | while read id
do
echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}
done >sra2fq.sh實(shí)際上自己要分析就不要-x 25000
提交到后臺(tái)運(yùn)行
nohup sh sra2fq.sh>sra2fq.log &
最后查看:zless -S SRR1039510_1.fastq.gz
查看sra文件:ls *.sra
殺死運(yùn)行的進(jìn)程:
查看進(jìn)程:jobs, top, /ps fx