linux025 SRA數(shù)據(jù)下載工具ascp的安裝及使用

參考鏈接

http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/

1 NCBI-SRA和EBI-ENA數(shù)據(jù)庫

SRA數(shù)據(jù)庫: Sequence Read Archive:隸屬NCBI (National Center for Biotechnology Information)硫豆,它是一個保存高通量測序原始數(shù)據(jù)以及比對信息和元數(shù)據(jù) (metadata) 的數(shù)據(jù)庫,所有已發(fā)表的文獻中高通量測序數(shù)據(jù)基本都上傳至此研底,方便其他研究者下載及再研究占拍。其中的數(shù)據(jù)則是通過壓縮后以.sra文件格式來保存的睛榄。
ENA數(shù)據(jù)庫:European Nucleotide Archive:隸屬EBI (European Bioinformatics Institute),功能同SRA统翩,并且對數(shù)據(jù)做了注釋娇豫,界面更友好锣杂,當然對于我們來說脂倦,最誘人的當屬可直接下載fastq (.gz)文件這一項了。

2 sra文件下載方式

詳見 Linux011 Sra toolkit安裝及使用

多數(shù)情況下元莫,我們下載sra文件是為了獲取相應的fastq或者sam文件赖阻,這樣可以和自己的pipeline對接上,直接分析踱蠢,所以

  • 找地方:用手頭上的SRR (SRA Run)序列號去ENA搜索火欧,如果有棋电,就在這兒下;如果沒有苇侵,就去SRA數(shù)據(jù)庫下載
  • 選方法
    首選Aspera Connect軟件赶盔,這是IBM旗下的商業(yè)高速文件傳輸軟件,與NCBI和EBI有協(xié)作合同榆浓,我們可以免費使用它下載高通量測序文件于未,體驗飛一般的感覺,速度可飚至300-500M/s陡鹃。下載完成后烘浦,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件萍鲸。
    其次闷叉,如果上述方法不奏效,優(yōu)先使用sratoolkit中的prefetch命令脊阴。
    最后握侧,使用sratoolkit中的fastq-dumpsam-dump命令下載,如果fastq-dump不穩(wěn)定蹬叭,推薦大家嘗試Biostar Handbook中的wonderdump腳本藕咏。

警告:盡量不要用wgetcurl去下載sra文件状知,某些情況下會導致下載的文件不完整

3 安裝方法

3.1 進入Aspera Connect的下載頁面秽五,選擇linux版本,復制下載地址
# 下載軟件饥悴,網速會比較慢坦喘,解壓后bash運行
wget https://download.asperasoft.com/download/sw/connect/3.10.0/ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz
tar zxvf ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.sh
# 去根目錄查看是否有.aspera文件夾,如果看到.aspera文件夾西设,代表安裝成功
cd ~ 
ls -a 
# 永久添加環(huán)境變量瓣铣,$需要轉義一下,否則bashrc文件會有一長串的路徑贷揽,但是不加也不影響
echo "export PATH=\$PATH:/home/caoqiansheng/.aspera/connect/bin" >> ~/.bashrc
source ~/.bashrc
# 查看幫助文檔
ascp --help
3.2 進入Aspera Connect的下載頁面棠笑,選擇linux版本,直接下載安裝文件禽绪,并將其移動至home目錄蓖救,然后解壓,bash運行

4 ascp用法

ascp [參數(shù)] 目標文件 目標地址
在線文檔

先了解幾個ascp命令的常用參數(shù)
-v verbose mode 嘮叨模式印屁,能讓你實時知道程序在干啥循捺,方便查錯。有些作者的程序缺乏人性化雄人,運行之后从橘,只見光標閃,壓根不知道運行到哪了
-T 取消加密,否則有時候數(shù)據(jù)下載不了
-i 提供私鑰文件的地址恰力,我也不知道干嘛的叉谜,反正不能少,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件
-l 設置最大傳輸速度踩萎,一般200m到500m正罢,如果不設置,反而速度會比較低驻民,可能有個較低的默認值
-k 斷點續(xù)傳翻具,一般設置為值1
-Q 不懂,一般加上它
-P 提供SSH port回还,一般是33001裆泳,反正我不懂

4.1 SRA數(shù)據(jù)庫下載

首先記住,數(shù)據(jù)的存放地址是ftp-private.ncbi.nlm.nih.gov柠硕,SRA在Aspera的用戶名是anonftp工禾,下載舉例:
如果我想下載SRR949627.sra文件,首先我需要找到地址蝗柔,去ncbi ftp-private或者ncbi faspftp闻葵,一層層尋找,直至找到癣丧,然后記下鏈接地址槽畔,就可以開始下載了:
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/
* 注意:anonftp@ftp-private.ncbi.nlm.nih.gov后面是:號,不是路徑/胁编!
* 一般來說厢钧,NCBI的sra文件前面的地址都是一樣的/sra/sra-instant/reads/ByRun/sra/SRR/...,那么寫腳本批量下載也就不難了嬉橙!

4.2 ENA數(shù)據(jù)庫下載

這里和上面不同早直,數(shù)據(jù)的存放地址是fasp.sra.ebi.ac.uk,ENA在Aspera的用戶名是era-fasp市框,下載舉例:
同樣霞扬,我還是下載SRR949627,方便的是ENA中可以直接下載fastq.gz文件枫振,不用再從sra文件慢吞吞的轉換了喻圃,那么地址呢,可以去ENA搜索蒋得,再復制下fastq.gz文件的地址级及,或者可以去ENA的ftp地址ftp.sra.ebi.ac.uk搜索,注意额衙,是ftp饮焦,不是fasp怕吴!記下鏈接地址,就可以下載了:

ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ~/biostar/aspera/

注意:era-fasp@fasp.sra.ebi.ac.uk后面是:號县踢,不是路徑/转绷!
一般來說,EBI的sra文件前面的地址也都是一樣的vol1/fastq/...硼啤,那么寫腳本批量下載也就不難了议经!

批量下載腳本

#!/bin/bash
# title: EMBL data download
# author: qiansheng cao

start_time=`date "+%Y-%m-%d %H:%M:%S"`
logfile=$PWD/ascp_$(date +"%Y%m%d%H%M").log
exec >$logfile 2>&1

## download,ascp必須使用絕對路徑
## 下載路徑的格式為 era-fasp@ftp.sra.ebi.ac.uk:vol1/fastq/SRR318/001/SRR3182431/SRR3182431_2.fastq.gz
## filereport_read_run_PRJNA310728_tsv.txt為EMBL數(shù)據(jù)庫下載的含每個測序數(shù)據(jù)的下載地址的文件
## 首先找到以ftp開頭的地址列谴返,然后以";"分割煞肾,檢索以_1.fastq.gz/_2.fastq.gz結尾的ftp地址,最后將ftp地址的第一個"/"替換為":"
ascp=/home/caoqiansheng/.aspera/connect/bin/ascp
cat filereport_read_run_PRJNA*_tsv.txt \
| awk '{for(i=1;i<=NF;i++) if($i~/^ftp/)print $i}' \
| awk 'BEGIN{FS=";"}{for(j=1;j<=NF;j++) if($j~/_[12].fastq.gz$/)print $j}' | sed 's#/#:#' | | while read id
do
    $ascp -QT -l 300m -P33001 -i \
    ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
    era-fasp@${id} .
done

## duration time
end_time=`date "+%Y-%m-%d %H:%M:%S"`
duration=`echo $(($(date +%s -d "${end_time}") - $(date +%s -d "${start_time}"))) \
| awk '{t=split("60 s 60 m 24 h 999 d",a);for(n=1;n<t;n+=2){if($1==0)break;s=$1%a[n]a[n+1]s;$1=int($1/a[n])}print s}'`
echo "duration time is: $duration"
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末嗓袱,一起剝皮案震驚了整個濱河市籍救,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌渠抹,老刑警劉巖蝙昙,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異梧却,居然都是意外死亡奇颠,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門放航,熙熙樓的掌柜王于貴愁眉苦臉地迎上來烈拒,“玉大人,你說我怎么就攤上這事三椿∪本” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵搜锰,是天一觀的道長。 經常有香客問我耿战,道長蛋叼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任剂陡,我火速辦了婚禮狈涮,結果婚禮上,老公的妹妹穿的比我還像新娘鸭栖。我一直安慰自己歌馍,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布晕鹊。 她就那樣靜靜地躺著松却,像睡著了一般暴浦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上晓锻,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天歌焦,我揣著相機與錄音,去河邊找鬼砚哆。 笑死独撇,一個胖子當著我的面吹牛,可吹牛的內容都是我干的躁锁。 我是一名探鬼主播纷铣,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼战转!你這毒婦竟也來了关炼?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤匣吊,失蹤者是張志新(化名)和其女友劉穎儒拂,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體色鸳,經...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡社痛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了命雀。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蒜哀。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吏砂,靈堂內的尸體忽然破棺而出撵儿,到底是詐尸還是另有隱情,我是刑警寧澤狐血,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布淀歇,位于F島的核電站,受9級特大地震影響匈织,放射性物質發(fā)生泄漏浪默。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一缀匕、第九天 我趴在偏房一處隱蔽的房頂上張望纳决。 院中可真熱鬧,春花似錦乡小、人聲如沸阔加。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽胜榔。三九已至胳喷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間苗分,已是汗流浹背厌蔽。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工奴饮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留戴卜,地道東北人投剥。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓糕篇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拌消。 傳聞我的和親對象是個殘疾皇子墩崩,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355