??作為生命科學(xué)的從事者念脯,不論是老師或者學(xué)生都應(yīng)該用過NCBI((National Center for Biotechnology Information Search database,一個(gè)綜合性的生命科學(xué)資源網(wǎng)站)翔曲。那么作為一個(gè)生命科學(xué)中的一員,如果你們沒用過NCBI網(wǎng)站色冀,這就好像是在說“知網(wǎng)是啥”河胎。希望提到這個(gè)網(wǎng)站的事情,你的表情不會(huì)是下面這個(gè)樣子波材,哈哈哈。身隐。廷区。
??不管你是否了解NCBI網(wǎng)站,這都不重要贾铝,重要的是如果哪一天你需要用到了(比如要從NCBI上面下載個(gè)原始數(shù)據(jù)隙轻,這個(gè)需求比較合理吧!)垢揩,你會(huì)不會(huì)呢玖绿?當(dāng)然不會(huì)也沒有關(guān)系了,因?yàn)檫@篇就是教你如何下載數(shù)據(jù)的叁巨!哈哈斑匪。。俘种。
下面言歸正傳,來說一說NCBI下載數(shù)據(jù)的幾種方式:
- NCBI官方的 SRA Toolkit 進(jìn)行下載
- wget, curl 命令直接下載
- aspera 工具下載
- grabseqs 工具下載
1绝淡、SRA Toolkit 下載數(shù)據(jù)
??第一種方法就是使用NCBI官方提供的軟件來下來宙刘,這個(gè)也是相當(dāng)?shù)姆奖憧尚校灰焦倬W(wǎng)下載SRA Toolkit軟件(該軟件是二進(jìn)制的格式牢酵,如下截圖悬包,選中對(duì)應(yīng)本版下載到本地解壓就可以使用,相當(dāng)方便)馍乙,然后就可以下載數(shù)據(jù)了布近。
軟件準(zhǔn)備好了垫释,下面就可以下載數(shù)據(jù)了:
prefetch SRR1482463 -O output #output替換為你想下載數(shù)據(jù)的路徑
??那么如果想批量下載一個(gè)項(xiàng)目的很多數(shù)據(jù)呢?首先得找到數(shù)據(jù)的SRR號(hào)撑瞧,隨便選中一個(gè)SRR號(hào)在“SRA”數(shù)據(jù)庫(kù)中搜索棵譬,會(huì)得到如下截圖:
然后點(diǎn)擊“All runs”,會(huì)得到如下截圖:
接著選中你想下載的數(shù)據(jù)预伺,點(diǎn)擊"Accession list"订咸,會(huì)下載一個(gè)包含選中數(shù)據(jù)SRR號(hào)的文件(SRR_Acc_List.txt),如下所示:
最后就可以批量下載了:
prefetch -O output --option-file SRR_Acc_List.txt
2酬诀、wget, curl 下載數(shù)據(jù)
??第二種下載方式脏嚷,wget, curl 命令直接下載。用這種方式下載數(shù)據(jù)需要知道數(shù)據(jù)的下載鏈接瞒御,如何獲取數(shù)據(jù)鏈接呢父叙?獲取數(shù)據(jù)鏈接也有兩種方式,一是通過NCBI網(wǎng)頁(yè)肴裙,二是通過SRA toolkit趾唱。
??先說通過網(wǎng)頁(yè)如何獲取,當(dāng)我們?cè)凇癝RA”數(shù)據(jù)庫(kù)中搜索SRR后践宴,點(diǎn)擊下面表格中的SRR號(hào)如“SRR1482463”鲸匿,會(huì)跳轉(zhuǎn)到頁(yè)面如下:
切換到‘Data access’界面,就找到數(shù)據(jù)鏈接了阻肩,如下截圖:
??通過SRA toolkit獲得數(shù)據(jù)鏈接就更省事了带欢,到SRA toolkit軟件的bin目錄下找到srapath軟件,一行命令就可以了:
srapath SRR1482463
#結(jié)果如下
https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
找到鏈接就可以用wget來下載數(shù)據(jù)了:
wget -c -t 0 -O path/SRR1482463.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
#-c -t 配合使用可以防止下載數(shù)據(jù)的過程中鏈接中斷的問題烤惊,-O則可以指定下載路徑和文件名乔煞。
3、aspera下載數(shù)據(jù)
第三種下載方式柒室,就是使用aspera軟件來下載數(shù)據(jù):
#軟件下載與安裝
$ wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ tar zxvf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
#數(shù)據(jù)下載
ascp -v -k 1 -T -l 200m -i <path>/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz
4渡贾、grabseqs下載數(shù)據(jù)
??第四種下載方式是使用grabseqs軟件來下載數(shù)據(jù),該軟件是比較新的軟件雄右,可以將下載的sra數(shù)據(jù)直接轉(zhuǎn)換為fastq文件空骚,相比于上面三種省略了sra -> fastq的轉(zhuǎn)換步驟,可謂是一步到位擂仍。因?yàn)樵撥浖?huì)調(diào)用fastq-dump直接將sra拆分成fastq囤屹,所以你得提前安裝好fastq-dump。該軟件是基于python3逢渔,可使用pip安裝相當(dāng)方便肋坚。安裝和使用方法如下:
#安裝
pip3 install grabseqs
#下載數(shù)據(jù)
grabseqs sra -t 6 SRR000000 SRP000000 PRJNA000000
sra轉(zhuǎn)化為fastq
??當(dāng)我們拿到了sra數(shù)據(jù)并不能直接使用,需要將其轉(zhuǎn)為fastq文件。數(shù)據(jù)都拿到了智厌,轉(zhuǎn)化格式當(dāng)然是很簡(jiǎn)單的事了诲泌,就是跑一行命令的事情。使用SRA Toolskit中的fastq-dump軟件即可铣鹏。值得注意地是如果數(shù)據(jù)是pair-end的格式最好加參數(shù)--split-3敷扫,這樣對(duì)于一方有而另一方?jīng)]有的reads就會(huì)單獨(dú)放在一個(gè)文件里。
#sra -> fastq
fastq-dump SRR1482463.sra --split-3 --gzip --defline-qual '+' -A filename -O outdir
四種方式你學(xué)會(huì)了吝沫,其實(shí)方式不重要呻澜,選擇一個(gè)適合自己的方式即可,重要是能夠獲取到自己想要的數(shù)據(jù)惨险,畢竟科研的本質(zhì)是要數(shù)據(jù)來支持自己的研究羹幸。
最后
??emm,今天就分享到這里辫愉,帖子純手打不容易啊栅受,小二哥我得去喝口水休息一下了。各位看官們幫忙點(diǎn)個(gè)贊吧9Ю省F聊鳌!