本來下載數(shù)據(jù)用的是NCBI官方指定的sratool-kit里面帶的prefetch僧叉,本來實驗室網(wǎng)速快還沒啥問題,但是這次碰到了一個硬茬括眠,壓縮后數(shù)據(jù)15G彪标,下載數(shù)次中斷,后來轉(zhuǎn)為使用aspera進行下載掷豺,快速入手記錄捞烟。
該教程基于Linux環(huán)境
安裝
conda熟練手都懂的
conda install -c hcc aspera-cli
配置參數(shù)
-v verbose mode 嘮叨模式,能讓你實時知道程序在干啥当船,方便查錯题画。有些作者的程序缺乏人性化,運行之后德频,只見光標(biāo)閃苍息,壓根不知道運行到哪了
-T 取消加密,否則有時候數(shù)據(jù)下載不了
-i 提供私鑰文件的地址,我也不知道干嘛的竞思,反正不能少表谊,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件
-l 設(shè)置最大傳輸速度,一般200m到500m盖喷,如果不設(shè)置爆办,反而速度會比較低,可能有個較低的默認(rèn)值
-k 斷點續(xù)傳课梳,一般設(shè)置為值1
-Q 不懂距辆,一般加上它
-P 提供SSH port,一般是33001暮刃,反正我不懂
參考:https://blog.csdn.net/herokoking/article/details/78890567
簡單使用
-
NCBI 下載數(shù)據(jù)
先在GEO里面找打你的目的數(shù)據(jù)跨算,及其SRR號(舉例):SRR653396
在FTP位置ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/找到該文件:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR653/SRR653396/SRR653396.sra
-
替換以下代碼
~/biosoft/anaconda/etc/asperaweb_id_dsa.openssh
為你自己安裝后的openssh位置
/sra/sra-instant/reads/ByRun/sra/SRR/SRR653/SRR653396/SRR653396.sra
為文件ftp地址的路徑,去掉開頭的地址然后使用公用賬號anonftp進行下載椭懊,最后成型的下載代碼為:ascp -v -k 1 -T -l 200m -i ~/biosoft/anaconda/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR653/SRR653396/SRR653396.sra ./
NOTE !
洲更給了額外信息诸蚕,當(dāng)安裝了aspera以后,prefetch會優(yōu)先調(diào)用aspera灾搏,下載代碼為:
prefetch SRR653396
# 會報錯
2018-11-08 更新挫望,prefetch下載方式從prefetch SRR653396
更新為prefetch --ascp-path '$HOME/.aspera/connect/bin/ascp|$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh' SRR653396
,不然會報錯:
2018-11-08T12:34:14 prefetch.2.8.1: 1) Downloading 'SRR653396'...
2018-11-08T12:34:14 prefetch.2.8.1: Downloading via fasp...
2018-11-08T12:34:15 prefetch.2.8.1 err: process failed while waiting process - ascp failed with 1
2018-11-08T12:34:16 prefetch.2.8.1 err: process failed while waiting process - ascp failed with 1
2018-11-08T12:34:16 prefetch.2.8.1: fasp download failed
2018-11-08T12:34:16 prefetch.2.8.1: 1) failed to download SRR653396
-
ENA 下載數(shù)據(jù)
一樣的步驟狂窑,不過是去ENA直接搜索,復(fù)制fastq.gz文件的地址桑腮,進行依葫蘆畫瓢式的替換后進行下載
-
成型下載代碼為:
ascp -v -k 1 -T -l 200m -P 33001 -i ~/biosoft/anaconda/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ./
結(jié)語
透泉哈,下載速度是真滴快。
另外破讨,洲更也在簡書以及生信媛公眾號上發(fā)過如何上傳數(shù)據(jù)丛晦,本篇和其組成UP/DOWN LOAD姐妹篇。
文首圖片來自《海街日記》