aspera: 如何快速下載測序原始數(shù)據(jù)(raw data)

作者:木同、毛毛

更多精彩內(nèi)容請 微-信 搜索 “生信學(xué)社” 公·眾·號乳附,點擊關(guān)·注内地「吵回復(fù)“ngs201207”,獲取該文所用到的文件举农、代碼荆针、高清圖片等內(nèi)容。


如何快速學(xué)會芯片或高通量分析的流程呢航背?實踐!拿一套原始數(shù)據(jù)沃粗,從頭開始認真的學(xué)習(xí)一遍。從原始數(shù)據(jù)出發(fā)最盅,一步步探索,由淺入深起惕,由表及里是非常有必要的。這樣不僅能在學(xué)習(xí)的過程中掌握較多的生信知識惹想,還可以深入理解測序數(shù)據(jù)分析并對此有一個全面的認識问词。

對于處在金字塔底層的我們嘀粱,在剛邁入測序數(shù)據(jù)分析領(lǐng)域時,大多數(shù)人手里都沒有原始測序數(shù)據(jù)锋叨。但這不影響我們對測序數(shù)據(jù)分析的學(xué)習(xí)與熱愛垄分。鑒于各種數(shù)據(jù)庫和一批偉(you)大(qian)人的存在娃磺,我們可以輕松的獲取豐富的原始測序數(shù)據(jù)。例如:GEO數(shù)據(jù)庫中大量的測序數(shù)據(jù)偷卧,有芯片數(shù)據(jù)豺瘤,有二代數(shù)據(jù)听诸。

然而坐求,原始數(shù)據(jù)動輒以G為單位蛇更,讓人望而生畏。再加上蝸牛般的網(wǎng)速派任,沒倆星期都不好意思把這些數(shù)據(jù)收入囊中砸逊。但是掌逛,這不能阻擋我們好好學(xué)習(xí)天天向上的熱情,如何快速的下載到這些測序數(shù)據(jù)的原始數(shù)據(jù)呢豆混?

毛毛說:如果下載有段位:
塑料:網(wǎng)頁直接下載篓像,陷入漫長的等待,隨時面臨下載失敗的結(jié)局员辩,下載完成卻發(fā)現(xiàn)解壓失敗盒粮,文件不完整奠滑〉ぶ澹或者不情愿的買個迅雷VIP宋税,然后就覺得被坑了。
白銀: wget -c杰赛,此命令使用者基本上對Linux系統(tǒng)有一定的了解呢簸,該命令在大多數(shù)的時候都是很好的一個下載工具乏屯。
面對不同的網(wǎng)站、網(wǎng)絡(luò)辰晕、文件選擇適當(dāng)?shù)南螺d方式才是真正的老司機啸箫。

今天在這里給大家安利一個超NB的鉆石段位下載神器 —— aspera伞芹,對于動輒幾十上百G的測序數(shù)據(jù),此工具尤其適用于ftp文件下載唱较。Aspera是IBM的高速文件傳輸軟件扎唾,具有遠距離高速傳輸大數(shù)據(jù)的優(yōu)點南缓。用了都說好胸遇。接下來我們通過一個例子讓大家快速學(xué)會使用aspera快速下載原始測序數(shù)據(jù)汉形。


STEP 1: 下載 & 安裝


aspera linux 最新版下載鏈接
aspera linux 舊版下載鏈接

#https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09ff1/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz 
#下載aspera工具(36M,耗時約40s):
wget -c https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09ff1/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz 
tar -zxvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz #解壓

#安裝aspera,直接在軟件所在目錄運行.sh文件
bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
#Installing IBM Aspera Connect

#Deploying IBM Aspera Connect (/home/gaoh/.aspera/connect) for the current user only.
#Unable to register protocol handler, IBM Aspera Connect won't be able to auto-launch
#Unable to update desktop database, IBM Aspera Connect may not be able to auto-launch

#Install complete.

#顯示以上說明安裝成功。安裝的位置為“/home/tong/.aspera/connect”
#添加路徑概疆,使得在當(dāng)前賬戶任何目錄下運行此工具
vi ~/.bashrc
export PATH="$PATH:/home/tong/.aspera/connect/bin"
#保存退出后(Esc,Ctrl+:,wq)更新:
source ~/.bashrc
#運行:
ascp
#Usage: ascp [OPTION] SRC... DEST
#          SRC to DEST, or multiple SRC to DEST dir
#          SRC, DEST format: [[user@]host:]PATH
#Display full usage: -h,--help
#顯示以上內(nèi)容表示安裝成功


原始測序數(shù)據(jù)存放在哪里逗威?

我們常用的測序原始數(shù)據(jù)一般存放在NCBI下的GEO(https://www.ncbi.nlm.nih.gov/gds)數(shù)據(jù)庫和EMBL下的EBI(https://www.ebi.ac.uk/)數(shù)據(jù)庫岔冀。

這兩個數(shù)據(jù)庫中的原始測序數(shù)據(jù)均可以使用aspera下載。注意:由于NCBI下的原始測序數(shù)據(jù)與2020年遷移至云上,以前ftp站點下存放原始數(shù)據(jù)的“/sra/sra-instant/”目錄已經(jīng)被移除罐呼,導(dǎo)致現(xiàn)在不能直接使用aspera進行下載。當(dāng)然嫉柴,我們還是可以通過其他方法從NCBI快速下載原始數(shù)據(jù)厌杜。所以當(dāng)你再看到網(wǎng)上關(guān)于使用aspera從NCBI下載原始數(shù)據(jù)下載命令中包含anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/的教程计螺,請毫不猶豫的跳過。

為了方便起見危尿,建議大家從EMBL-EBI數(shù)據(jù)庫下載原始數(shù)據(jù)。EMBL-EBI還專門提供了使用aspera下載數(shù)據(jù)的教程How do I download data using Aspera?馁痴,有興趣的同學(xué)可以學(xué)習(xí)一下。

本教程將以從EMBL-EBI數(shù)據(jù)庫下載文件為例罗晕,為大家展示下載過程济欢。


STEP 2: 以GSE102741為例下載文件


2.1小渊、查找文件

在閱讀文獻時,我們經(jīng)常會看到測序數(shù)據(jù)可以從GSE*****獲取的描述酬屉。此ID為GEO數(shù)據(jù)庫中某一數(shù)據(jù)集的唯一標(biāo)識碼半等,因此我們可以GEO數(shù)據(jù)庫中獲得該數(shù)據(jù)集的描述呐萨。例如GSE102741:

打開GSE102741杀饵,我們可以看到該數(shù)據(jù)為Illumina HiSeq 2000 (Homo sapiens)平臺自閉癥腦RNA-seq數(shù)據(jù)谬擦,共52個樣本。如果目標(biāo)數(shù)據(jù)集提供了原始數(shù)據(jù)惨远,則你可以在網(wǎng)頁底部看到有“Raw data are available in SRA”標(biāo)注谜悟。點擊SRA Run Selector可以看到該數(shù)據(jù)集的具體文件和具體信息北秽,見Fig. 1B葡幸。我們可以看到該數(shù)據(jù)是基于Illumina HiSeq 2000平臺的轉(zhuǎn)錄組雙端測序數(shù)據(jù)贺氓,上傳日期為2017年,測序組織來源為腦組織,所有52個樣本共392Gb, Fig. 1C缅叠。如此大量的數(shù)據(jù)很難想象使用一般的下載方法需要多久才能下載完畢。

Figure 1

如何在EMBL-EBI數(shù)據(jù)庫中找到該數(shù)據(jù)呢肤粱?我們需要該研究項目的唯一標(biāo)識碼或SRA ID弹囚,即Fig.1B中BioProject: PRJNA398545领曼,SRA: SRP115571

接下來我們打開EMBL-EBI數(shù)據(jù)庫鸥鹉,按Fig. 2操作找到需要下載的文件:點擊Services庶骄,在搜索框中輸入“ENA”,在搜索結(jié)果中打開ENA數(shù)據(jù)庫单刁。在搜索框中輸入前文提到的PRJNA398545SRP115571 編碼灸异,點擊View均可查到該數(shù)據(jù)集羔飞。或直接打開(https://www.ebi.ac.uk/ena/browser/home)網(wǎng)址逻淌,直接進入數(shù)據(jù)搜索頁么伯。

Figure 2

同樣卡儒,我們可以看到關(guān)于該數(shù)據(jù)集的描述田柔,見Fig. 3A骨望。接下來我們需要下載關(guān)于該數(shù)據(jù)集的tsv格式的Download report文件,以供批量下載使用锦募。在下載之前我們點開“Show Column Selection”摆屯,在下拉框中勾選fastq_aspera和sra_aspera糠亩,這樣在下載的tsv文件中就會包含兩列下載地址信息虐骑, Fig. 3B-D赎线。此數(shù)據(jù)庫提供兩種格式的原始文件下載,分別為fastq格式和sra格式垂寥,我們推薦大家下載fastq格式以供下游直接分析颠黎,這樣就可以省去將sra格式轉(zhuǎn)換為fastq格式的步驟。

Figure 3

2.2狭归、文件處理

我們打開上一步下載的tsv文件(filereport_read_run_PRJNA398545_tsv.txt)夭坪,可以看到這個文件里有該數(shù)據(jù)集中所有文件的信息过椎,尤其是原始數(shù)據(jù)在服務(wù)器中的地址室梅。進一步處理該文件fastq_ftp疚宇、sra_ftp兩列,為下一步批量下載做準(zhǔn)備敷待。

#獲得所有樣本的fastq格式文件下載地址
awk 'NR == 1 {next} {print $8}' filereport_read_run_PRJNA398545_tsv.txt | awk -F ";" '{print $1}' | sed 's/uk/uk:/g'> fastq_1.txt
awk 'NR == 1 {next} {print $8}' filereport_read_run_PRJNA398545_tsv.txt | awk -F ";" '{print $2}' | sed 's/uk/uk:/g'> fastq_2.txt
#獲取所有樣本的sra格式文件的下載地址
awk 'NR == 1 {next} {print $9}' filereport_read_run_PRJNA398545_tsv.txt | sed 's/uk/uk:/g' > sra.txt

STEP 3: 下載


3.1 僅下載一個文件

#以SRR5938419樣本為例间涵,單獨下載一個文件
#運行以下命令榜揖,將fastq格式文件下載到當(dāng)前目錄
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR593/009/SRR5938419/SRR5938419_1.fastq.gz ./
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR593/009/SRR5938419/SRR5938419_2.fastq.gz ./

#該數(shù)據(jù)集為雙端測序,一個樣本有兩個fastq文件根盒。
#若下載sra格式文件,每個樣本只有1個sra文件物蝙,只需將下載地址替換:
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR593/009/SRR5938419 ./

ascp 參數(shù)說明:
-k: 斷點續(xù)傳,一般設(shè)置為1
-v: 實時查看程序運行步驟
-Q: for adaptive flow control) – needed for disk throttling
-T: 不進行加密诬乞,若不添加此參數(shù)可能會下載不了
-i: string 輸入私鑰册赛,安裝aspera后在目錄~/.aspera/connect/ect/下有私鑰震嫉,linux服務(wù)器一般使用 asperaweb_id_dsa.openssh
-l: string 設(shè)置最大傳輸速度,如設(shè)置為200M表示最大傳輸速度為200M/s票堵。不設(shè)置則一般可達10M/s
-P: 提供SSH port扼睬,一般是33001
--host=string: ftp的host名,NCBI為ftp-private.ncbi.nlm.nih.gov;EBI為fasp.sra.ebi.ac.uk
--user=stri: ng用戶名窗宇,NCBI為anonftp,EBI為era-fasp
--mode=string: 選擇模式特纤,上傳為send,下載為recv

3.1 批量下載

如何批量下載該數(shù)據(jù)集全部數(shù)據(jù)呢捧存?我們利用提取的數(shù)據(jù)下載地址文件fastq_1.txt生成該文件中所有樣本的下載命令的腳本

perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' fastq_1.txt > fastq_1.sh
sh fastq_1.sh #批量下載fastq_1

同樣的粪躬,對fastq_2.txt文件執(zhí)行以上操作,獲取fastq2文件的批量下載腳本镰官。對sra.txt文件執(zhí)行以上操作提前,獲取sra格式文件批量下載腳本。

perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' fastq_2.txt > fastq_2.sh
sh fastq_2.sh #批量下載fastq_2
perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' sra.txt > sra.sh
sh sra.sh #批量下載sra文件

總結(jié)


原始測序數(shù)據(jù)文件一般較大岖研,通常是幾到十幾G不等。使用aspera工具能顯著提升數(shù)據(jù)的下載速度警检,毛毛實測過程中有時下載峰值可以到達70Mb/s,網(wǎng)速快慢會影響下載速度扇雕。無論怎樣該工具的下載速度仍舊是網(wǎng)頁直接下載等下載方式望塵莫及的拓售。
(id:ngs201207)


****禁止轉(zhuǎn)載****

****搜索微信GZH:“生信學(xué)社”或掃碼關(guān)注,回復(fù)“ngs201207”础淤,獲取該文所用到的文件、代碼哨苛、高清圖片等內(nèi)容****

image
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者建峭。
  • 序言:七十年代末玻侥,一起剝皮案震驚了整個濱河市亿蒸,隨后出現(xiàn)的幾起案子凑兰,更是在濱河造成了極大的恐慌边锁,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件茅坛,死亡現(xiàn)場離奇詭異音半,居然都是意外死亡贡蓖,警方通過查閱死者的電腦和手機祟剔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門摩梧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人仅父,你說我怎么就攤上這事叛薯。” “怎么了耗溜?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵组力,是天一觀的道長抖拴。 經(jīng)常有香客問我燎字,道長阿宅,這世上最難降的妖魔是什么候衍? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任洒放,我火速辦了婚禮,結(jié)果婚禮上往湿,老公的妹妹穿的比我還像新娘妖异。我一直安慰自己领追,他們只是感情好他膳,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布绒窑。 她就那樣靜靜地躺著,像睡著了一般回论。 火紅的嫁衣襯著肌膚如雪散罕。 梳的紋絲不亂的頭發(fā)上分歇,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音职抡,去河邊找鬼葬燎。 笑死缚甩,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的擅威。 我是一名探鬼主播壕探,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼李请!你這毒婦竟也來了瞧筛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤较幌,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后白翻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乍炉,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡滤馍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了纪蜒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衷恭。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡纯续,死狀恐怖随珠,靈堂內(nèi)的尸體忽然破棺而出猬错,到底是詐尸還是另有隱情,我是刑警寧澤倦炒,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布显沈,位于F島的核電站,受9級特大地震影響拉讯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鳖藕,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一魔慷、第九天 我趴在偏房一處隱蔽的房頂上張望著恩。 院中可真熱鬧,春花似錦喉誊、人聲如沸邀摆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至敷矫,卻和暖如春例获,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背躏敢。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工闷愤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人讥脐。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像啼器,于是被迫代替她去往敵國和親旬渠。 傳聞我的和親對象是個殘疾皇子端壳,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容