1.下載安裝ascp丸边;
win10現(xiàn)在可以安裝wsl塘辅,下載數(shù)據(jù)到本地非常方便嚣艇。我使用的是Ubuntu 18.04.在特定目錄下載安裝ascp
wget http://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
tar -xvf aspera-connect-3.6.2.117442-linux-64.tar.gz
sh aspera-connect-3.6.2.117442-linux-64.sh
將ascp添加至當(dāng)前用戶的環(huán)境變量
vim ~/.bashrcexport PATH=/mnt/inspurfs/home/zhaoct/biosource/miniconda3/envs/fastqc/bin:$PATH
export PATH="/home/andy/.aspera/connect/bin:$PATH"
source ~/.bashrc
2.得到目標(biāo)文件的下載地址讽坏;
2.1.通過文章鏈接GSEXXX...或者直接在NCBI搜索關(guān)鍵字得到PRJNA 編號目木。
理解一下幾個(gè)前綴溃列,以下是引用內(nèi)容:SRP(項(xiàng)目)—>SRS(樣本)—>SRX(數(shù)據(jù)產(chǎn)生)—>SRR(數(shù)據(jù)本身)
SRA(Sequence ReadArchive)數(shù)據(jù)庫是用于存儲二代測序的原始數(shù)據(jù)劲厌,包括 454,Illumina听隐,SOLiD补鼻,IonTorrent,Helicos 和 CompleteGenomics雅任。除了原始序列數(shù)據(jù)外风范,SRA現(xiàn)在也存在raw reads在參考基因的比對信息。
根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點(diǎn)沪么,將SRA數(shù)據(jù)分為四類:
Studies-- 研究課題
Experiments-- 實(shí)驗(yàn)設(shè)計(jì)
Runs-- 測序結(jié)果集
Samples-- 樣品信息
SRA中數(shù)據(jù)結(jié)構(gòu)的層次關(guān)系為:Studies->Experiments->Samples->Runs.
Studies是就實(shí)驗(yàn)?zāi)繕?biāo)而言的硼婿,一個(gè)study 可能包含多個(gè)Experiment。
Experiments包含了Sample成玫、DNA source加酵、測序平臺、數(shù)據(jù)處理等信息哭当。
一個(gè)Experiment可能包含一個(gè)或多個(gè)runs猪腕。
Runs 表示測序儀運(yùn)行所產(chǎn)生的reads。
SRA數(shù)據(jù)庫用不同的前綴加以區(qū)分:
ERP或SRP表示Studies钦勘;
SRS 表示 Samples陋葡;
SRX 表示 Experiments;
SRR 表示 Runs彻采;
2.2得到ascp可以識別的下載地址
在
https://www.ebi.ac.uk/ena/browser/view/PRJNA428970
搜索腐缤,勾選需要的SRA,下載tsv格式肛响。包含sample_accession experiment_accession run_accession fastq_md5 fastq_aspera岭粤。當(dāng)然也可以得到.fq的地址,直接下載之特笋,便無需使用fastq-dump拆分剃浇。(之后都直接下載.fq這樣就免得再做拆分。)
比如:
experiment_accession run_accession sra_ftp
SRX3540809 SRR6449842 ftp.sra.ebi.ac.uk/vol1/srr/SRR644/002/SRR6449842
修改ascp命令行,只需要修改vol1之后即可虎囚。
如果是下載fq
ascp -QT -l 500m -P 33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR205/005/SRR2050895/SRR2050895.fastq.gz .
ascp -QT -l 500m -P 33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR205/004/SRR2050904 .
這是下載sra角塑。
3.開始下載;
輸入命令開始下載淘讥,默認(rèn)的下載路徑是當(dāng)前的工作目錄圃伶。