NCBI下載SRA數(shù)據(jù)的4種方法

??作為生命科學(xué)的從事者念脯,不論是老師或者學(xué)生都應(yīng)該用過NCBI((National Center for Biotechnology Information Search database,一個(gè)綜合性的生命科學(xué)資源網(wǎng)站)翔曲。那么作為一個(gè)生命科學(xué)中的一員,如果你們沒用過NCBI網(wǎng)站色冀,這就好像是在說“知網(wǎng)是啥”河胎。希望提到這個(gè)網(wǎng)站的事情,你的表情不會(huì)是下面這個(gè)樣子波材,哈哈哈。身隐。廷区。

??不管你是否了解NCBI網(wǎng)站,這都不重要贾铝,重要的是如果哪一天你需要用到了(比如要從NCBI上面下載個(gè)原始數(shù)據(jù)隙轻,這個(gè)需求比較合理吧!)垢揩,你會(huì)不會(huì)呢玖绿?當(dāng)然不會(huì)也沒有關(guān)系了,因?yàn)檫@篇就是教你如何下載數(shù)據(jù)的叁巨!哈哈斑匪。。俘种。

下面言歸正傳,來說一說NCBI下載數(shù)據(jù)的幾種方式:

  1. NCBI官方的 SRA Toolkit 進(jìn)行下載
  2. wget, curl 命令直接下載
  3. aspera 工具下載
  4. grabseqs 工具下載

1绝淡、SRA Toolkit 下載數(shù)據(jù)

??第一種方法就是使用NCBI官方提供的軟件來下來宙刘,這個(gè)也是相當(dāng)?shù)姆奖憧尚校灰焦倬W(wǎng)下載SRA Toolkit軟件(該軟件是二進(jìn)制的格式牢酵,如下截圖悬包,選中對(duì)應(yīng)本版下載到本地解壓就可以使用,相當(dāng)方便)馍乙,然后就可以下載數(shù)據(jù)了布近。


軟件準(zhǔn)備好了垫释,下面就可以下載數(shù)據(jù)了:

prefetch SRR1482463 -O output #output替換為你想下載數(shù)據(jù)的路徑

??那么如果想批量下載一個(gè)項(xiàng)目的很多數(shù)據(jù)呢?首先得找到數(shù)據(jù)的SRR號(hào)撑瞧,隨便選中一個(gè)SRR號(hào)在“SRA”數(shù)據(jù)庫(kù)中搜索棵譬,會(huì)得到如下截圖:

然后點(diǎn)擊“All runs”,會(huì)得到如下截圖:


接著選中你想下載的數(shù)據(jù)预伺,點(diǎn)擊"Accession list"订咸,會(huì)下載一個(gè)包含選中數(shù)據(jù)SRR號(hào)的文件(SRR_Acc_List.txt),如下所示:


最后就可以批量下載了:

prefetch -O output --option-file SRR_Acc_List.txt

2酬诀、wget, curl 下載數(shù)據(jù)

??第二種下載方式脏嚷,wget, curl 命令直接下載。用這種方式下載數(shù)據(jù)需要知道數(shù)據(jù)的下載鏈接瞒御,如何獲取數(shù)據(jù)鏈接呢父叙?獲取數(shù)據(jù)鏈接也有兩種方式,一是通過NCBI網(wǎng)頁(yè)肴裙,二是通過SRA toolkit趾唱。
??先說通過網(wǎng)頁(yè)如何獲取,當(dāng)我們?cè)凇癝RA”數(shù)據(jù)庫(kù)中搜索SRR后践宴,點(diǎn)擊下面表格中的SRR號(hào)如“SRR1482463”鲸匿,會(huì)跳轉(zhuǎn)到頁(yè)面如下:


切換到‘Data access’界面,就找到數(shù)據(jù)鏈接了阻肩,如下截圖:


??通過SRA toolkit獲得數(shù)據(jù)鏈接就更省事了带欢,到SRA toolkit軟件的bin目錄下找到srapath軟件,一行命令就可以了:

srapath SRR1482463
#結(jié)果如下
https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2

找到鏈接就可以用wget來下載數(shù)據(jù)了:

wget -c -t 0 -O path/SRR1482463.sra  https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
#-c -t 配合使用可以防止下載數(shù)據(jù)的過程中鏈接中斷的問題烤惊,-O則可以指定下載路徑和文件名乔煞。

3、aspera下載數(shù)據(jù)

第三種下載方式柒室,就是使用aspera軟件來下載數(shù)據(jù):

#軟件下載與安裝
$ wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ tar zxvf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh

#數(shù)據(jù)下載
ascp -v -k 1 -T -l 200m -i <path>/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz 

4渡贾、grabseqs下載數(shù)據(jù)

??第四種下載方式是使用grabseqs軟件來下載數(shù)據(jù),該軟件是比較新的軟件雄右,可以將下載的sra數(shù)據(jù)直接轉(zhuǎn)換為fastq文件空骚,相比于上面三種省略了sra -> fastq的轉(zhuǎn)換步驟,可謂是一步到位擂仍。因?yàn)樵撥浖?huì)調(diào)用fastq-dump直接將sra拆分成fastq囤屹,所以你得提前安裝好fastq-dump。該軟件是基于python3逢渔,可使用pip安裝相當(dāng)方便肋坚。安裝和使用方法如下:

#安裝
pip3 install grabseqs
#下載數(shù)據(jù)
grabseqs sra -t 6 SRR000000 SRP000000 PRJNA000000

sra轉(zhuǎn)化為fastq

??當(dāng)我們拿到了sra數(shù)據(jù)并不能直接使用,需要將其轉(zhuǎn)為fastq文件。數(shù)據(jù)都拿到了智厌,轉(zhuǎn)化格式當(dāng)然是很簡(jiǎn)單的事了诲泌,就是跑一行命令的事情。使用SRA Toolskit中的fastq-dump軟件即可铣鹏。值得注意地是如果數(shù)據(jù)是pair-end的格式最好加參數(shù)--split-3敷扫,這樣對(duì)于一方有而另一方?jīng)]有的reads就會(huì)單獨(dú)放在一個(gè)文件里。

#sra -> fastq
fastq-dump SRR1482463.sra --split-3 --gzip --defline-qual '+'  -A filename -O outdir

四種方式你學(xué)會(huì)了吝沫,其實(shí)方式不重要呻澜,選擇一個(gè)適合自己的方式即可,重要是能夠獲取到自己想要的數(shù)據(jù)惨险,畢竟科研的本質(zhì)是要數(shù)據(jù)來支持自己的研究羹幸。

最后

??emm,今天就分享到這里辫愉,帖子純手打不容易啊栅受,小二哥我得去喝口水休息一下了。各位看官們幫忙點(diǎn)個(gè)贊吧9Ю省F聊鳌!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末痰腮,一起剝皮案震驚了整個(gè)濱河市而芥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌膀值,老刑警劉巖棍丐,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異沧踏,居然都是意外死亡歌逢,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門翘狱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來秘案,“玉大人,你說我怎么就攤上這事潦匈≮甯撸” “怎么了?”我有些...
    開封第一講書人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵茬缩,是天一觀的道長(zhǎng)赤惊。 經(jīng)常有香客問我,道長(zhǎng)寒屯,這世上最難降的妖魔是什么荐捻? 我笑而不...
    開封第一講書人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮寡夹,結(jié)果婚禮上处面,老公的妹妹穿的比我還像新娘。我一直安慰自己菩掏,他們只是感情好魂角,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著智绸,像睡著了一般野揪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上瞧栗,一...
    開封第一講書人閱讀 51,115評(píng)論 1 296
  • 那天斯稳,我揣著相機(jī)與錄音,去河邊找鬼迹恐。 笑死挣惰,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的殴边。 我是一名探鬼主播憎茂,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼锤岸!你這毒婦竟也來了竖幔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤是偷,失蹤者是張志新(化名)和其女友劉穎拳氢,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體晓猛,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饿幅,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了戒职。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片栗恩。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖洪燥,靈堂內(nèi)的尸體忽然破棺而出磕秤,到底是詐尸還是另有隱情,我是刑警寧澤捧韵,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布市咆,位于F島的核電站,受9級(jí)特大地震影響再来,放射性物質(zhì)發(fā)生泄漏蒙兰。R本人自食惡果不足惜磷瘤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望搜变。 院中可真熱鬧采缚,春花似錦、人聲如沸挠他。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)殖侵。三九已至贸呢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間拢军,已是汗流浹背楞陷。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留茉唉,地道東北人猜谚。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像赌渣,于是被迫代替她去往敵國(guó)和親魏铅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353