NCBI批量下載SRA文件并用SRA Toolkit提取Fastq文件

準(zhǔn)備工作:先下載安裝IDM(百度:internet download manager匠襟,收費(fèi)軟件,有綠色漢化版),IDM支持?jǐn)帱c(diǎn)續(xù)傳和多線程望薄,并且可以自建下載隊(duì)列批量下載,非常適合高通量數(shù)據(jù)下載:

通過(guò)NCBI搜索關(guān)鍵詞查詢自己感興趣的bioproject
下載.png
打開感興趣的project選擇SRA鏈接打開
下載2.png
打開SRA的詳細(xì)信息呼畸,選擇sendto file 然后選run_info 下載csv格式的相關(guān)信息
下載3.png
下圖是CSV文件可以用excel打開痕支,選取里面的download path 一列復(fù)制
下載4.png
在IDM(internet download manager),點(diǎn)擊開始菜單==>從剪切板導(dǎo)入==>自動(dòng)打開如下窗口蛮原,紅框根據(jù)自己修改
下載5.png
可以專門自定義下載隊(duì)列卧须,點(diǎn)擊加號(hào)創(chuàng)建,點(diǎn)擊開始執(zhí)行隊(duì)列即可
下載6.png
可以在左側(cè)列表選擇隊(duì)列點(diǎn)擊右鍵開始或者點(diǎn)擊上面的菜單都可以儒陨。如果序列較多網(wǎng)速不夠快可以睡覺(jué)去了花嘶。
下載7.png
建議:帶寬有限的情況下不要同時(shí)下載太多SRA文件,一次下載一個(gè)就可以蹦漠。

SRA Toolkit提取Fastq

sra toolkit是ncbi上將 .sra文件轉(zhuǎn)換為 .fstaq.gz文件的工具椭员。
1.下載/調(diào)用 SRA Toolkit
可以直接在linux里在線下載,要根據(jù)自己的系統(tǒng)選擇合適的安裝版本津辩。我查看了一下主機(jī)的linux為redhat類型拆撼,沒(méi)找到這個(gè)類型的版本,又去服務(wù)器看了一下其他人的sratoolkit版本喘沿,都是centos_linux闸度,因而選擇這個(gè)版本應(yīng)該是合適的。

wget  https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz

下載好之后解壓:

 tar xzvf sratoolkit.2.9.2-centos_linux64.tar.gz
#注意設(shè)置環(huán)境變量

fastq-dump 為該toolkit的一個(gè)子程序
雖然[fastq-dump】參數(shù)很多蚜印,而且一直被吐槽參數(shù)說(shuō)明寫的太差莺禁,但是如果真的要用起來(lái)其實(shí)也就是一行代碼


fastq-dump  --gzip --split-3  --defline-qual '+'  --defline-seq '@$ac-$si/$ri' SRRXXXXX| SRRXXXX.sra

 ##### 加上--gzip后需要時(shí)間進(jìn)行文件壓縮

當(dāng)然除了參數(shù)問(wèn)題,還有一個(gè)讓人詬病的地方就是他只能單個(gè)線程窄赋,所以速度特別的慢哟冬。盡管相對(duì)于下游分析要分析好幾天而言楼熄,這點(diǎn)時(shí)間還能能等的。但是能快一點(diǎn)總是好的浩峡,所以在2018年的6月份可岂,sra-tools更新了一個(gè)新的sra解壓工具,[fasterq-dump] a faster fastq-dump翰灾,它能利用臨時(shí)文件和多線程加速?gòu)腟RA文件提取FASTQ缕粹。

fasterq-dump的用法和fastq-dump一樣,如下所示


fasterq-dump  --split-3 SRR5318040.sra -t /mnt/d/temp -e 24;
### -t 是臨時(shí)文件夾位置纸淮,-e 24 是24線程

此外還有建立了GitHub Wiki提供使用教程平斩,參見(jiàn)https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump

重點(diǎn)參數(shù)是-e|threads, 用于選擇使用多少線程進(jìn)行運(yùn)行咽块,默認(rèn)是6個(gè)線程绘面。 同時(shí)考慮到有些人容易著急,還提供了-p選項(xiàng)用于顯示當(dāng)前進(jìn)度侈沪。

我用一個(gè)9G大小的SRA文件揭璃,分別以fastq-dumpfasterq-dump進(jìn)行了測(cè)試。

fastq-dump  --split-3  -O test SRR5318040.sra 
# 558.76s user 41.36s system 101% cpu 9:51.82 total
fasterq-dump  --split-3 SRR5318040.sra -e 20  -o SRR5318040
# 582.70s user 121.06s system 1130% cpu 1:02.25 total

下載8.png

硬盤吞吐速度是多線程運(yùn)行時(shí)的限制因素亭罪,強(qiáng)烈建議使用兩塊SSD塘辅,將讀寫進(jìn)程分開可以極大提高速度。從運(yùn)行情況看皆撩,多線程應(yīng)該是將sra文件分成多塊讀入內(nèi)存利用多線程并行處理。
從用戶模式(user mode)來(lái)看, 兩者的總CPU使用時(shí)間都差不多是560秒哲银,從內(nèi)核模式來(lái)看(Kernel Mode)來(lái)看扛吞,fasterq-dump花了更多時(shí)間在調(diào)用底層硬件上,例如分配內(nèi)存地址荆责。fastq-dump基本上穩(wěn)定在一個(gè)線程滥比,而fasterq-dump盡管指定了20個(gè)線程,但平均只用了11.5個(gè)線程吧做院。

對(duì)于我們而言盲泛,我們只要看最后的total部分,也就是實(shí)際花了多少時(shí)間键耕。fastq-dump花了快10分鐘寺滚,而fasterq-dump只需要1分鐘,快了9倍多屈雄。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末村视,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子酒奶,更是在濱河造成了極大的恐慌蚁孔,老刑警劉巖奶赔,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異杠氢,居然都是意外死亡站刑,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門鼻百,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)绞旅,“玉大人,你說(shuō)我怎么就攤上這事愕宋〔C遥” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵中贝,是天一觀的道長(zhǎng)囤捻。 經(jīng)常有香客問(wèn)我,道長(zhǎng)邻寿,這世上最難降的妖魔是什么蝎土? 我笑而不...
    開封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮绣否,結(jié)果婚禮上誊涯,老公的妹妹穿的比我還像新娘。我一直安慰自己蒜撮,他們只是感情好暴构,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著段磨,像睡著了一般取逾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上苹支,一...
    開封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天砾隅,我揣著相機(jī)與錄音,去河邊找鬼债蜜。 笑死晴埂,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的寻定。 我是一名探鬼主播儒洛,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼特姐!你這毒婦竟也來(lái)了晶丘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎浅浮,沒(méi)想到半個(gè)月后沫浆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡滚秩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年专执,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片郁油。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡本股,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出桐腌,到底是詐尸還是另有隱情拄显,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布案站,位于F島的核電站躬审,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蟆盐。R本人自食惡果不足惜承边,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望石挂。 院中可真熱鬧博助,春花似錦、人聲如沸痹愚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)拯腮。三九已至城瞎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間疾瓮,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工飒箭, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狼电,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓弦蹂,卻偏偏與公主長(zhǎng)得像肩碟,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子凸椿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容