因?yàn)镋NA跟NCBI的SRA數(shù)據(jù)是互通的右锨,所以根據(jù)NCBI的SRP號(hào)就可以在ENA搜到相應(yīng)的數(shù)據(jù)。目前好像無(wú)法由于存儲(chǔ)位置的改變,無(wú)法直接用ASCP下載SRA數(shù)據(jù)庫(kù)孵坚,因此直接從ENA數(shù)據(jù)庫(kù)下載便是一個(gè)非常好的選擇徐矩。
1 aspera 下載
下載地址:https://www.ibm.com/aspera/connect/ 選擇linux版本
或者直接通過(guò)命令行下載
# 通過(guò)wget命令下載
wget https://d3gcli72yxqn2z.cloudfront.net/connect_latest/v4/bin/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
#解壓縮
tar xzvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
#install aspera in server:
sh ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
#查看是否有.aspera文件夾
cd # 去家目錄
ls -a # 如果看到.aspera文件夾滞时,代表安裝成功
# 永久添加環(huán)境變量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc && cp ~/.bashrc~/.bash_profile
source ~/.bashrc ~/.bash_profile
ascp的用法([在線(xiàn)文檔](https://www.ibm.com/support/knowledgecenter/SSXMX3_3.11/connect_user_linux/guide.html):
ascp [參數(shù)] 目標(biāo)文件 目標(biāo)地址
2. 獲得下載地址
ENA主頁(yè)ENA
搜索SRR號(hào),SRR1805951
點(diǎn)擊PRJNA275632
選擇自己要下載的runs滤灯,然后download report TSV坪稽,其中包含了fastq文件以及srr文件的下載地址
3. Aspera單個(gè)文件下載
linux中下載ENA數(shù)據(jù)方式如下:
ascp -QT -l 300m -P33001 -i path/to/aspera/installation/etc/asperaweb_id_dsa.openssh
era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/ERR164/ERR164407/ERR164407.fastq.gz
local/target/directory
所以我們獲得下載鏈接要改成相應(yīng)的形式;
一般Aspera安裝在家目錄鳞骤,則下載方式為
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz .
注意最后面的.為下載至的目錄窒百。常用的參數(shù)包括:
-v verbose mode 嘮叨模式,能讓你實(shí)時(shí)知道程序在干啥弟孟,方便查錯(cuò)贝咙。
-T 取消加密,否則有時(shí)候數(shù)據(jù)下載不了
-i 提供私鑰文件的地址拂募,免密從SRA和ENA下載庭猩,不能少,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件
-l 設(shè)置最大傳輸速度陈症,一般200m到500m蔼水,如果不設(shè)置,反而速度會(huì)比較低录肯,可能有個(gè)較低的默認(rèn)值
-k 斷點(diǎn)續(xù)傳趴腋,一般設(shè)置為值1
-Q 用于自適應(yīng)流量控制,磁盤(pán)限制所需
-P 用于SSH身份驗(yàn)證的TCP端口论咏,一般是33001
4.批量下載(參考生新技能樹(shù)jimmy老師)使用ebi數(shù)據(jù)庫(kù)直接下載fastq測(cè)序數(shù)據(jù)的改進(jìn)腳本
獲取下載鏈接侯优炬,我們建立如下fq.txt文件
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/009/SRR1039509/SRR1039509_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/009/SRR1039509/SRR1039509_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/004/SRR1039514/SRR1039514_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/004/SRR1039514/SRR1039514_2.fastq.gz
然后應(yīng)用如下的腳本
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@$id .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &