SRA數(shù)據(jù)庫(kù): Sequence Read Archive:隸屬NCBI (National Center for Biotechnology Information)僵井,它是一個(gè)保存高通量測(cè)序原始數(shù)據(jù)以及比對(duì)信息和元數(shù)據(jù) (metadata) 的數(shù)據(jù)庫(kù),所有已發(fā)表的文獻(xiàn)中高通量測(cè)序數(shù)據(jù)基本都上傳至此,方便其他研究者下載及再研究手趣。其中的數(shù)據(jù)則是通過壓縮后以.sra文件格式來保存的。
ENA數(shù)據(jù)庫(kù):European Nucleotide Archive:隸屬EBI (European Bioinformatics Institute)雷逆,功能同SRA尾组,并且對(duì)數(shù)據(jù)做了注釋,界面更友好磕道,當(dāng)然對(duì)于我們來說供屉,最誘人的當(dāng)屬可直接下載fastq (.gz)文件這一項(xiàng)了。
sra文件下載方式
多數(shù)情況下,我們下載sra文件是為了獲取相應(yīng)的fastq或者sam文件伶丐,這樣可以和自己的pipeline對(duì)接上悼做,直接分析,所以
找地方:用手頭上的SRR (SRA Run)序列號(hào)去ENA搜索哗魂,如果有肛走,就在這兒下;如果沒有录别,就去SRA數(shù)據(jù)庫(kù)下載
-
選方法:
首選Aspera Connect軟件朽色,這是IBM旗下的商業(yè)高速文件傳輸軟件,與NCBI和EBI有協(xié)作合同组题,我們可以免費(fèi)使用它下載高通量測(cè)序文件葫男,體驗(yàn)飛一般的感覺,速度可飚至300-500M/s崔列。下載完成后梢褐,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件赵讯。
其次盈咳,如果上述方法不奏效,優(yōu)先使用sratoolkit中的prefetch命令瘦癌。
最后猪贪,使用sratoolkit中的fastq-dump和sam-dump命令下載,如果fastq-dump不穩(wěn)定讯私,推薦大家嘗試Biostar Handbook中的wonderdump腳本热押。
注意:不要用wget或curl去下載sra文件,這會(huì)導(dǎo)致下載的文件不完整斤寇!
Aspera Connect命令行工具ascp的安裝
首先桶癣,進(jìn)入Aspera Connect的下載頁(yè)面,選擇linux版本娘锁,復(fù)制下載地址
wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
tar zxvf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
# 安裝
bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
# 查看是否有.aspera文件夾
cd # 去根目錄
ls -a # 如果看到.aspera文件夾牙寞,代表安裝成功
# 永久添加環(huán)境變量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 查看幫助文檔
ascp --help
至此,安裝完成莫秆。
下面介紹如何利用ascp
在SRA和ENA中下載數(shù)據(jù)
ascp
的用法:ascp [參數(shù)] 目標(biāo)文件 目標(biāo)地址间雀,在線文檔
先了解幾個(gè)
ascp
命令的常用參數(shù)
-v
verbose mode 嘮叨模式,能讓你實(shí)時(shí)知道程序在干啥镊屎,方便查錯(cuò)惹挟。有些作者的程序缺乏人性化,運(yùn)行之后缝驳,只見光標(biāo)閃连锯,壓根不知道運(yùn)行到哪了
-T
取消加密归苍,否則有時(shí)候數(shù)據(jù)下載不了
-i
提供私鑰文件的地址,我也不知道干嘛的运怖,反正不能少拼弃,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件
-l
設(shè)置最大傳輸速度,一般200m到500m摇展,如果不設(shè)置吻氧,反而速度會(huì)比較低,可能有個(gè)較低的默認(rèn)值
-k
斷點(diǎn)續(xù)傳吗购,一般設(shè)置為值1
-Q
不懂医男,一般加上它
-P
提供SSH port,一般是33001
ascp
使用舉例
-
SRA數(shù)據(jù)庫(kù)下載:首先記住捻勉,數(shù)據(jù)的存放地址是
ftp.ncbi.nlm.nih.gov
,SRA在Aspera的用戶名是anonftp
刀森,下載舉例:- 如果我想下載
SRR949627.sra
文件踱启,首先我需要找到地址,去ncbi faspftp研底,一層層尋找埠偿,直至找到,然后復(fù)制鏈接地址榜晦,就可以開始下載了:
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l 200m anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/data/
注意:
anonftp@ftp-private.ncbi.nlm.nih.gov
后面是:號(hào)冠蒋,不是路徑/!一般來說乾胶,NCBI的sra文件前面的地址都是一樣的
/sra/sra-instant/reads/ByRun/sra/SRR/...
抖剿,那么寫腳本批量下載也就不難了!
- 如果我想下載
-
ENA數(shù)據(jù)庫(kù)下載:這里和上面有點(diǎn)不同识窿,數(shù)據(jù)的存放地址是
fasp.sra.ebi.ac.uk
斩郎,ENA在Aspera的用戶名是era-fasp
,下載舉例:- 比如喻频,要下載
PRJEB21270
下的幾個(gè)數(shù)據(jù)文件缩宜,方便的是ENA中可以直接下載fastq.gz
文件,不用再?gòu)膕ra文件轉(zhuǎn)換了甥温,那么地址呢锻煌,可以去ENA搜索,再?gòu)?fù)制下fastq.gz文件的地址姻蚓,或者可以去ENA的ftp地址ftp.sra.ebi.ac.uk
搜索宋梧,注意,是ftp史简,不是fasp乃秀!復(fù)制鏈接地址肛著,就可以下載了:
ascp -QT -l 300m -P 33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/run/ERR217/ERR2173371/pb.bam ~/data/
注意:
era-fasp@fasp.sra.ebi.ac.uk
后面是:號(hào),不是路徑/跺讯!一般來說枢贿,EBI的sra文件前面的地址也都是一樣的
vol1/run/...
,那么寫腳本批量下載也就不難了刀脏!
- 比如喻频,要下載
參考