SRA數(shù)據(jù)下載

http://zhaohuanan.cc/2020/04/15/11.bioinfo/bioinfo-SRA%E6%95%B0%E6%8D%AE%E4%B8%8B%E8%BD%BD/

應(yīng)用場(chǎng)景:

如果自己沒有測(cè)序數(shù)據(jù)雌续,比如Pacbio數(shù)據(jù),nanopore數(shù)據(jù)等驯杜,想要測(cè)試一些軟件鸽心,或者想重復(fù)文章的內(nèi)容,就需要從SRA數(shù)據(jù)庫(kù)下載數(shù)據(jù)顽频。

SRA數(shù)據(jù)庫(kù)介紹

https://www.ncbi.nlm.nih.gov/sra/
SRA(Sequence ReadArchive)數(shù)據(jù)庫(kù)是NCBI用于存儲(chǔ)二代測(cè)序的原始數(shù)據(jù),包括 454嘁圈,Illumina,SOLiD最住,IonTorrent等。

我們經(jīng)常會(huì)看到文獻(xiàn)中給出數(shù)據(jù)名字為SRA然后后面接一些數(shù)字轧粟。

我們根據(jù)這個(gè)SRA的ID就可以進(jìn)行下載了脓魏,然后進(jìn)行數(shù)據(jù)的分析,重復(fù)文獻(xiàn)的分析內(nèi)容 混蔼。

根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點(diǎn)檩电,將SRA數(shù)據(jù)分為四類:

  • Studies -- 研究課題
  • Experiments -- 實(shí)驗(yàn)設(shè)計(jì)
  • Samples -- 樣品信息
  • Runs -- 測(cè)序結(jié)果集

這四種分類有一個(gè)層次關(guān)系府树。

首先是Studies -> Experiments -> Samples -> Runs。

這也是一個(gè)研究項(xiàng)目正常的邏輯關(guān)系卓箫。

了解這個(gè)層級(jí)關(guān)系垄潮,否則找sra數(shù)據(jù)就會(huì)感覺比較混亂。

一個(gè)study可能包含多個(gè)Experiment弯洗,Experiments包含了Sample、DNA source藐吮、測(cè)序平臺(tái)逃贝、數(shù)據(jù)處理等信息。

SRA數(shù)據(jù)庫(kù)用不同的前綴加以區(qū)分:

  • ERP或SRP表示Studies泥从;

  • SRS 表示 Samples沪摄;

  • SRX 表示 Experiments纱烘;

  • SRR 表示 Runs和敬。

SRA數(shù)據(jù)下載

sra數(shù)據(jù)的下載可以通過(guò)網(wǎng)頁(yè)端下載,但是比較不方便昼弟。

  1. NCBI官方提供了SRA Toolkit軟件包來(lái)進(jìn)行下載舱痘。https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 軟件的下載比較容易,都是編譯好的版本芭逝,選擇對(duì)應(yīng)的體統(tǒng),下載之后解壓縮就可以使用了台妆。

  2. 也可以使用bioconda直接進(jìn)行安裝胖翰,需要注意的是軟件的名字在bioconda中是sra-tools。

conda install sra-tools

軟件的用法也比較簡(jiǎn)單萨咳,根據(jù)命名我們就可以看出來(lái)培他,它是一個(gè)處理sra格式文件的工具包∫荩可以用來(lái)管理和操作sra數(shù)據(jù)庫(kù)的資源,里面包含了很多工具拣度◇θ溃可以處理多種測(cè)序平臺(tái)的數(shù)據(jù),這些工具大部分根據(jù)命名就知道功能奸晴。

  • fastq-dump: 最常用的寄啼,將SRA數(shù)據(jù)轉(zhuǎn)換為fastq格代箭;
  • prefetch: 下載sra數(shù)據(jù)
  • sam-dump: 將 SRA 轉(zhuǎn)換為sam格式涕刚,如果原始數(shù)據(jù)是sam或bam,就需要使用這個(gè)工具杜漠;
  • sra-pileup: 生成 pileup統(tǒng)計(jì)結(jié)果驾茴,pileup是堆疊的意思,類似于samtools的pileup锈至;
    一些不太常用的工具:
    -- abi-dump: 處理abi格式數(shù)據(jù);
    -- sff-dump: 處理454測(cè)序數(shù)據(jù)击碗;
    由于abi和454測(cè)序數(shù)據(jù)越來(lái)越少们拙,相應(yīng)的工具也不是特別重要了。
    -- illumina-dump: 將sra轉(zhuǎn)換為illumina原始的qseq文件晰房;
    -- sra-stat: 統(tǒng)計(jì)sra文件
    -- vdb-config射沟,vdb-decrypt与境,vdb-dump,vdb-encrypt摔刁,vdb-validate處理vdb格式數(shù)據(jù)。

這里我們要下載PRJNA553240的數(shù)據(jù)绑谣。

如果想知道數(shù)據(jù)的具體信息拗引,比如數(shù)據(jù)是什么樣品,采用哪種平臺(tái)測(cè)序的壤玫,測(cè)序長(zhǎng)度是多少,測(cè)序深度是多少欲间,都可以到SRA網(wǎng)站上去查。

  1. 首先可以使用esearch 搜索sra數(shù)據(jù)庫(kù)班缎≈瞿埽看這個(gè)項(xiàng)目下都有哪些數(shù)據(jù)。esearch默認(rèn)的結(jié)果是xml格式惹骂,需要使用efetch進(jìn)行解析。efetch來(lái)自NCBI另一款工具edirect对粪。
    https://blog.csdn.net/zhanyongjia_cnu/article/details/50717717
# 安裝
conda install entrez-direct
# 解析路徑到文件
esearch -db sra -query PRJNA553240 | efetch -format runinfo >info.csv
image.png
  1. 這里面有很多數(shù)據(jù),選擇其中一個(gè)作為演示纱扭。直接使用prefetch進(jìn)行下載儡遮。如果系統(tǒng)中安裝了Asprea,prefetch會(huì)調(diào)用aspera進(jìn)行下載肃叶,還是很方便的十嘿。如果不在默認(rèn)路徑下,可以通過(guò)-a選項(xiàng)指定绩衷。

  2. 我們下載一個(gè)SRA數(shù)據(jù)咳燕,SRR1972917,直接輸入SRA ID即可招盲。

 prefetch SRR1972917

檢查當(dāng)前地址,如果沒有就在~/ncbi下

image.png

我試了一下應(yīng)該是prefetch版本問(wèn)題表制,mac上的prefetch會(huì)直接下載到~/ncbi下,而服務(wù)器centos則會(huì)下載到當(dāng)前文件夾

  1. 若要批量下載csv中的文件娜遵,提供一個(gè)思路:

首先輸入上面得到的info.csv壤短,使用pandas解析表格并且獲得Run名稱和原文件名,使用prefetch下載文件并命名為原文件名

print ok說(shuō)明下載正常

print not found說(shuō)明沒找到

print Error 說(shuō)明遇到了其他問(wèn)題

zhn寫了個(gè)小腳本prefetch_download_from_efetch.py
下載地址

image.png
image.png

可以配合screen命令扔后臺(tái)跑著,這要手動(dòng)下載不得累死帘撰。。

5.注意事項(xiàng)
i. 默認(rèn)下載的是sra格式數(shù)據(jù)核行,可以使用fastq-dump將sra轉(zhuǎn)換為fastq了蹬耘。

fastq-dump --gzip --split-3 SRR1972917.sra  

ii. 其實(shí),也可以直接使用fastq-dump下載數(shù)據(jù)综苔,下載之后直接即使fastq格式如筛,不過(guò)還是選擇prefetch比較好,因?yàn)閟ra數(shù)據(jù)格式比f(wàn)astq格式占用空間較小妙黍,下載速度快瞧剖;另一方面,sra也方便斷點(diǎn)續(xù)傳做粤。

#直接利用fastq-dump下載數(shù)據(jù)  
 fastq-dump --split-files SRR1972917 

下載和合并hg19

  • 可以去ucsu官網(wǎng)下載

  • 這里圖方便直接使用它給的tar包

wget ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
tar zxvf chromFa.tar.gz

然后只留下我們需要的chr1~22XY捉撮,其他都刪掉;

image.png

于是巾遭。闯估。吼和。。

import os
ls = list(range(1,23))
ls.extend(["X","Y"])
para = ""
for i in ls:
    para += "chr%s.fa " % str(i)
print(para)
os.system('cat %s > hg_19.fa' % para)
print('success!')
image.png

然后全刪光只留下hg_19.fa即可刚夺,less查看一下,

image.png
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末侠姑,一起剝皮案震驚了整個(gè)濱河市箩做,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌船老,老刑警劉巖圃酵,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異薪韩,居然都是意外死亡捌锭,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門拉盾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)豁状,“玉大人,你說(shuō)我怎么就攤上這事泻红。” “怎么了讹躯?”我有些...
    開封第一講書人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)骗灶。 經(jīng)常有香客問(wèn)我秉馏,道長(zhǎng),這世上最難降的妖魔是什么沃饶? 我笑而不...
    開封第一講書人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任糊肤,我火速辦了婚禮,結(jié)果婚禮上馆揉,老公的妹妹穿的比我還像新娘。我一直安慰自己舷暮,他們只是感情好噩茄,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沥割,像睡著了一般凿菩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上衅谷,一...
    開封第一講書人閱讀 50,084評(píng)論 1 291
  • 那天获黔,我揣著相機(jī)與錄音,去河邊找鬼肢执。 笑死译红,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的耻陕。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼膘怕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼召庞!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起篮灼,我...
    開封第一講書人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤诅诱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后娘荡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡争群,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年祭阀,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片专控。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡遏餐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出柏蘑,到底是詐尸還是另有隱情粹庞,我是刑警寧澤,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布革半,位于F島的核電站,受9級(jí)特大地震影響又官,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜碘赖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一外构、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧审编,春花似錦、人聲如沸权烧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)板祝。三九已至走净,卻和暖如春券时,著一層夾襖步出監(jiān)牢的瞬間伏伯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工炸枣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留弄唧,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓侯养,卻偏偏與公主長(zhǎng)得像澄干,于是被迫代替她去往敵國(guó)和親柠傍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子息尺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351