一夭咬、安裝entrez-direct
直接使用命令$ conda install entrez-direct
啃炸,可能會報錯:
可以使用如下方式進(jìn)行安裝:
1.進(jìn)入網(wǎng)站https://anaconda.org/
2.搜索需要安裝的包
3.選擇合適的安裝包
4.安裝所示命令進(jìn)行下載
二、批量獲取數(shù)據(jù)的SRR號
#下載runinfo
esearch -db sra -query PRJNA944177 | efetch -format runinfo > runinfo.csv
#提取其中的SRR
cat runinfo.csv | cut -d, -f1 | grep SRR > ranids.txt
#查看獲得的SRR號
cat ranids.txt
#可以查看更多信息皱埠,比如數(shù)據(jù)大小肮帐,類型,單端還是雙端測序等
cat runinfo.csv | cut -d, -f1,8,13,16
#runinfo中并沒有樣本名稱和SRR的對應(yīng)關(guān)系,可以輸入以下命令獲得GSM編號與樣本的對應(yīng)關(guān)系边器。
esearch -db sra -query PRJNA944177 | efetch -format docsum > docsum.txt
cat docsum.txt | xtract -pattern DocumentSummary -element Title,Bioproject,Biosample,Run@acc
三训枢、下載SRA序列
我寫了一個腳本,首先創(chuàng)建腳本:
touch SRR.sh
腳本內(nèi)容:
#!/bin/bash
for i in SRR23891522 SRR23891523 SRR23891520 SRR23891519 SRR23891521 SRR23891518
do
prefetch ${i}
done
運行腳本:
bash SRR.sh
四忘巧、解壓SRA文件為fastq格式
我還是寫腳本恒界,首先創(chuàng)建腳本:
touch fastq_dump.sh
腳本內(nèi)容:
#!/bin/bash
for i in SRR23891522 SRR23891523 SRR23891520 SRR23891519 SRR23891521 SRR23891518
do
fastq-dump --gzip --split-files ${i}
done
運行腳本:
bash fastq_dump.sh