作者:木同、毛毛
更多精彩內(nèi)容請 微-信 搜索 “生信學(xué)社” 公·眾·號乳附,點擊關(guān)·注内地「吵回復(fù)“ngs201207”,獲取該文所用到的文件举农、代碼荆针、高清圖片等內(nèi)容。
如何快速學(xué)會芯片或高通量分析的流程呢航背?實踐!拿一套原始數(shù)據(jù)沃粗,從頭開始認真的學(xué)習(xí)一遍。從原始數(shù)據(jù)出發(fā)最盅,一步步探索,由淺入深起惕,由表及里是非常有必要的。這樣不僅能在學(xué)習(xí)的過程中掌握較多的生信知識惹想,還可以深入理解測序數(shù)據(jù)分析并對此有一個全面的認識问词。
對于處在金字塔底層的我們嘀粱,在剛邁入測序數(shù)據(jù)分析領(lǐng)域時,大多數(shù)人手里都沒有原始測序數(shù)據(jù)锋叨。但這不影響我們對測序數(shù)據(jù)分析的學(xué)習(xí)與熱愛垄分。鑒于各種數(shù)據(jù)庫和一批偉(you)大(qian)人的存在娃磺,我們可以輕松的獲取豐富的原始測序數(shù)據(jù)。例如:GEO數(shù)據(jù)庫中大量的測序數(shù)據(jù)偷卧,有芯片數(shù)據(jù)豺瘤,有二代數(shù)據(jù)听诸。
然而坐求,原始數(shù)據(jù)動輒以G為單位蛇更,讓人望而生畏。再加上蝸牛般的網(wǎng)速派任,沒倆星期都不好意思把這些數(shù)據(jù)收入囊中砸逊。但是掌逛,這不能阻擋我們好好學(xué)習(xí)天天向上的熱情,如何快速的下載到這些測序數(shù)據(jù)的原始數(shù)據(jù)呢豆混?
毛毛說:如果下載有段位:
塑料:網(wǎng)頁直接下載篓像,陷入漫長的等待,隨時面臨下載失敗的結(jié)局员辩,下載完成卻發(fā)現(xiàn)解壓失敗盒粮,文件不完整奠滑〉ぶ澹或者不情愿的買個迅雷VIP宋税,然后就覺得被坑了。
白銀: wget -c杰赛,此命令使用者基本上對Linux系統(tǒng)有一定的了解呢簸,該命令在大多數(shù)的時候都是很好的一個下載工具乏屯。
面對不同的網(wǎng)站、網(wǎng)絡(luò)辰晕、文件選擇適當(dāng)?shù)南螺d方式才是真正的老司機啸箫。
今天在這里給大家安利一個超NB的鉆石段位下載神器 —— aspera伞芹,對于動輒幾十上百G的測序數(shù)據(jù),此工具尤其適用于ftp文件下載唱较。Aspera是IBM的高速文件傳輸軟件扎唾,具有遠距離高速傳輸大數(shù)據(jù)的優(yōu)點南缓。用了都說好胸遇。接下來我們通過一個例子讓大家快速學(xué)會使用aspera快速下載原始測序數(shù)據(jù)汉形。
STEP 1: 下載 & 安裝
aspera linux 最新版下載鏈接
aspera linux 舊版下載鏈接
#https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09ff1/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
#下載aspera工具(36M,耗時約40s):
wget -c https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09ff1/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
tar -zxvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz #解壓
#安裝aspera,直接在軟件所在目錄運行.sh文件
bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
#Installing IBM Aspera Connect
#Deploying IBM Aspera Connect (/home/gaoh/.aspera/connect) for the current user only.
#Unable to register protocol handler, IBM Aspera Connect won't be able to auto-launch
#Unable to update desktop database, IBM Aspera Connect may not be able to auto-launch
#Install complete.
#顯示以上說明安裝成功。安裝的位置為“/home/tong/.aspera/connect”
#添加路徑概疆,使得在當(dāng)前賬戶任何目錄下運行此工具
vi ~/.bashrc
export PATH="$PATH:/home/tong/.aspera/connect/bin"
#保存退出后(Esc,Ctrl+:,wq)更新:
source ~/.bashrc
#運行:
ascp
#Usage: ascp [OPTION] SRC... DEST
# SRC to DEST, or multiple SRC to DEST dir
# SRC, DEST format: [[user@]host:]PATH
#Display full usage: -h,--help
#顯示以上內(nèi)容表示安裝成功
原始測序數(shù)據(jù)存放在哪里逗威?
我們常用的測序原始數(shù)據(jù)一般存放在NCBI下的GEO(https://www.ncbi.nlm.nih.gov/gds)數(shù)據(jù)庫和EMBL下的EBI(https://www.ebi.ac.uk/)數(shù)據(jù)庫岔冀。
這兩個數(shù)據(jù)庫中的原始測序數(shù)據(jù)均可以使用aspera下載。注意:由于NCBI下的原始測序數(shù)據(jù)與2020年遷移至云上,以前ftp站點下存放原始數(shù)據(jù)的“/sra/sra-instant/”目錄已經(jīng)被移除罐呼,導(dǎo)致現(xiàn)在不能直接使用aspera進行下載。當(dāng)然嫉柴,我們還是可以通過其他方法從NCBI快速下載原始數(shù)據(jù)厌杜。所以當(dāng)你再看到網(wǎng)上關(guān)于使用aspera從NCBI下載原始數(shù)據(jù)下載命令中包含anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/
的教程计螺,請毫不猶豫的跳過。
為了方便起見危尿,建議大家從EMBL-EBI數(shù)據(jù)庫下載原始數(shù)據(jù)。EMBL-EBI還專門提供了使用aspera下載數(shù)據(jù)的教程How do I download data using Aspera?馁痴,有興趣的同學(xué)可以學(xué)習(xí)一下。
本教程將以從EMBL-EBI數(shù)據(jù)庫下載文件為例罗晕,為大家展示下載過程济欢。
STEP 2: 以GSE102741為例下載文件
2.1小渊、查找文件
在閱讀文獻時,我們經(jīng)常會看到測序數(shù)據(jù)可以從GSE*****獲取的描述酬屉。此ID為GEO數(shù)據(jù)庫中某一數(shù)據(jù)集的唯一標(biāo)識碼半等,因此我們可以GEO數(shù)據(jù)庫中獲得該數(shù)據(jù)集的描述呐萨。例如GSE102741:
打開GSE102741杀饵,我們可以看到該數(shù)據(jù)為Illumina HiSeq 2000 (Homo sapiens)平臺自閉癥腦RNA-seq數(shù)據(jù)谬擦,共52個樣本。如果目標(biāo)數(shù)據(jù)集提供了原始數(shù)據(jù)惨远,則你可以在網(wǎng)頁底部看到有“Raw data are available in SRA”標(biāo)注谜悟。點擊SRA Run Selector可以看到該數(shù)據(jù)集的具體文件和具體信息北秽,見Fig. 1B葡幸。我們可以看到該數(shù)據(jù)是基于Illumina HiSeq 2000平臺的轉(zhuǎn)錄組雙端測序數(shù)據(jù)贺氓,上傳日期為2017年,測序組織來源為腦組織,所有52個樣本共392Gb, Fig. 1C缅叠。如此大量的數(shù)據(jù)很難想象使用一般的下載方法需要多久才能下載完畢。
如何在EMBL-EBI數(shù)據(jù)庫中找到該數(shù)據(jù)呢肤粱?我們需要該研究項目的唯一標(biāo)識碼或SRA ID弹囚,即Fig.1B中BioProject: PRJNA398545领曼,SRA: SRP115571
接下來我們打開EMBL-EBI數(shù)據(jù)庫鸥鹉,按Fig. 2操作找到需要下載的文件:點擊Services庶骄,在搜索框中輸入“ENA”,在搜索結(jié)果中打開ENA數(shù)據(jù)庫单刁。在搜索框中輸入前文提到的PRJNA398545或SRP115571 編碼灸异,點擊View均可查到該數(shù)據(jù)集羔飞。或直接打開(https://www.ebi.ac.uk/ena/browser/home)網(wǎng)址逻淌,直接進入數(shù)據(jù)搜索頁么伯。
同樣卡儒,我們可以看到關(guān)于該數(shù)據(jù)集的描述田柔,見Fig. 3A骨望。接下來我們需要下載關(guān)于該數(shù)據(jù)集的tsv格式的Download report文件,以供批量下載使用锦募。在下載之前我們點開“Show Column Selection”摆屯,在下拉框中勾選fastq_aspera和sra_aspera糠亩,這樣在下載的tsv文件中就會包含兩列下載地址信息虐骑, Fig. 3B-D赎线。此數(shù)據(jù)庫提供兩種格式的原始文件下載,分別為fastq格式和sra格式垂寥,我們推薦大家下載fastq格式以供下游直接分析颠黎,這樣就可以省去將sra格式轉(zhuǎn)換為fastq格式的步驟。
2.2狭归、文件處理
我們打開上一步下載的tsv文件(filereport_read_run_PRJNA398545_tsv.txt)夭坪,可以看到這個文件里有該數(shù)據(jù)集中所有文件的信息过椎,尤其是原始數(shù)據(jù)在服務(wù)器中的地址室梅。進一步處理該文件fastq_ftp疚宇、sra_ftp兩列,為下一步批量下載做準(zhǔn)備敷待。
#獲得所有樣本的fastq格式文件下載地址
awk 'NR == 1 {next} {print $8}' filereport_read_run_PRJNA398545_tsv.txt | awk -F ";" '{print $1}' | sed 's/uk/uk:/g'> fastq_1.txt
awk 'NR == 1 {next} {print $8}' filereport_read_run_PRJNA398545_tsv.txt | awk -F ";" '{print $2}' | sed 's/uk/uk:/g'> fastq_2.txt
#獲取所有樣本的sra格式文件的下載地址
awk 'NR == 1 {next} {print $9}' filereport_read_run_PRJNA398545_tsv.txt | sed 's/uk/uk:/g' > sra.txt
STEP 3: 下載
3.1 僅下載一個文件
#以SRR5938419樣本為例间涵,單獨下載一個文件
#運行以下命令榜揖,將fastq格式文件下載到當(dāng)前目錄
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR593/009/SRR5938419/SRR5938419_1.fastq.gz ./
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR593/009/SRR5938419/SRR5938419_2.fastq.gz ./
#該數(shù)據(jù)集為雙端測序,一個樣本有兩個fastq文件根盒。
#若下載sra格式文件,每個樣本只有1個sra文件物蝙,只需將下載地址替換:
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR593/009/SRR5938419 ./
ascp 參數(shù)說明:
-k: 斷點續(xù)傳,一般設(shè)置為1
-v: 實時查看程序運行步驟
-Q: for adaptive flow control) – needed for disk throttling
-T: 不進行加密诬乞,若不添加此參數(shù)可能會下載不了
-i: string 輸入私鑰册赛,安裝aspera后在目錄~/.aspera/connect/ect/下有私鑰震嫉,linux服務(wù)器一般使用 asperaweb_id_dsa.openssh
-l: string 設(shè)置最大傳輸速度,如設(shè)置為200M表示最大傳輸速度為200M/s票堵。不設(shè)置則一般可達10M/s
-P: 提供SSH port扼睬,一般是33001
--host=string: ftp的host名,NCBI為ftp-private.ncbi.nlm.nih.gov;EBI為fasp.sra.ebi.ac.uk
--user=stri: ng用戶名窗宇,NCBI為anonftp,EBI為era-fasp
--mode=string: 選擇模式特纤,上傳為send,下載為recv
3.1 批量下載
如何批量下載該數(shù)據(jù)集全部數(shù)據(jù)呢捧存?我們利用提取的數(shù)據(jù)下載地址文件fastq_1.txt生成該文件中所有樣本的下載命令的腳本
perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' fastq_1.txt > fastq_1.sh
sh fastq_1.sh #批量下載fastq_1
同樣的粪躬,對fastq_2.txt文件執(zhí)行以上操作,獲取fastq2文件的批量下載腳本镰官。對sra.txt文件執(zhí)行以上操作提前,獲取sra格式文件批量下載腳本。
perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' fastq_2.txt > fastq_2.sh
sh fastq_2.sh #批量下載fastq_2
perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' sra.txt > sra.sh
sh sra.sh #批量下載sra文件
總結(jié)
原始測序數(shù)據(jù)文件一般較大岖研,通常是幾到十幾G不等。使用aspera工具能顯著提升數(shù)據(jù)的下載速度警检,毛毛實測過程中有時下載峰值可以到達70Mb/s,網(wǎng)速快慢會影響下載速度扇雕。無論怎樣該工具的下載速度仍舊是網(wǎng)頁直接下載等下載方式望塵莫及的拓售。
(id:ngs201207)