http://zhaohuanan.cc/2020/04/15/11.bioinfo/bioinfo-SRA%E6%95%B0%E6%8D%AE%E4%B8%8B%E8%BD%BD/
應(yīng)用場(chǎng)景:
如果自己沒有測(cè)序數(shù)據(jù)雌续,比如Pacbio數(shù)據(jù),nanopore數(shù)據(jù)等驯杜,想要測(cè)試一些軟件鸽心,或者想重復(fù)文章的內(nèi)容,就需要從SRA數(shù)據(jù)庫(kù)下載數(shù)據(jù)顽频。
SRA數(shù)據(jù)庫(kù)介紹
https://www.ncbi.nlm.nih.gov/sra/
SRA(Sequence ReadArchive)數(shù)據(jù)庫(kù)是NCBI用于存儲(chǔ)二代測(cè)序的原始數(shù)據(jù),包括 454嘁圈,Illumina,SOLiD最住,IonTorrent等。
我們經(jīng)常會(huì)看到文獻(xiàn)中給出數(shù)據(jù)名字為SRA然后后面接一些數(shù)字轧粟。
我們根據(jù)這個(gè)SRA的ID就可以進(jìn)行下載了脓魏,然后進(jìn)行數(shù)據(jù)的分析,重復(fù)文獻(xiàn)的分析內(nèi)容 混蔼。
根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點(diǎn)檩电,將SRA數(shù)據(jù)分為四類:
- Studies -- 研究課題
- Experiments -- 實(shí)驗(yàn)設(shè)計(jì)
- Samples -- 樣品信息
- Runs -- 測(cè)序結(jié)果集
這四種分類有一個(gè)層次關(guān)系府树。
首先是Studies -> Experiments -> Samples -> Runs。
這也是一個(gè)研究項(xiàng)目正常的邏輯關(guān)系卓箫。
了解這個(gè)層級(jí)關(guān)系垄潮,否則找sra數(shù)據(jù)就會(huì)感覺比較混亂。
一個(gè)study可能包含多個(gè)Experiment弯洗,Experiments包含了Sample、DNA source藐吮、測(cè)序平臺(tái)逃贝、數(shù)據(jù)處理等信息。
SRA數(shù)據(jù)庫(kù)用不同的前綴加以區(qū)分:
ERP或SRP表示Studies泥从;
SRS 表示 Samples沪摄;
SRX 表示 Experiments纱烘;
SRR 表示 Runs和敬。
SRA數(shù)據(jù)下載
sra數(shù)據(jù)的下載可以通過(guò)網(wǎng)頁(yè)端下載,但是比較不方便昼弟。
NCBI官方提供了SRA Toolkit軟件包來(lái)進(jìn)行下載舱痘。https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 軟件的下載比較容易,都是編譯好的版本芭逝,選擇對(duì)應(yīng)的體統(tǒng),下載之后解壓縮就可以使用了台妆。
也可以使用bioconda直接進(jìn)行安裝胖翰,需要注意的是軟件的名字在bioconda中是sra-tools。
conda install sra-tools
軟件的用法也比較簡(jiǎn)單萨咳,根據(jù)命名我們就可以看出來(lái)培他,它是一個(gè)處理sra格式文件的工具包∫荩可以用來(lái)管理和操作sra數(shù)據(jù)庫(kù)的資源,里面包含了很多工具拣度◇θ溃可以處理多種測(cè)序平臺(tái)的數(shù)據(jù),這些工具大部分根據(jù)命名就知道功能奸晴。
- fastq-dump: 最常用的寄啼,將SRA數(shù)據(jù)轉(zhuǎn)換為fastq格代箭;
- prefetch: 下載sra數(shù)據(jù)
- sam-dump: 將 SRA 轉(zhuǎn)換為sam格式涕刚,如果原始數(shù)據(jù)是sam或bam,就需要使用這個(gè)工具杜漠;
- sra-pileup: 生成 pileup統(tǒng)計(jì)結(jié)果驾茴,pileup是堆疊的意思,類似于samtools的pileup锈至;
一些不太常用的工具:
-- abi-dump: 處理abi格式數(shù)據(jù);
-- sff-dump: 處理454測(cè)序數(shù)據(jù)击碗;
由于abi和454測(cè)序數(shù)據(jù)越來(lái)越少们拙,相應(yīng)的工具也不是特別重要了。
-- illumina-dump: 將sra轉(zhuǎn)換為illumina原始的qseq文件晰房;
-- sra-stat: 統(tǒng)計(jì)sra文件
-- vdb-config射沟,vdb-decrypt与境,vdb-dump,vdb-encrypt摔刁,vdb-validate處理vdb格式數(shù)據(jù)。
這里我們要下載PRJNA553240的數(shù)據(jù)绑谣。
如果想知道數(shù)據(jù)的具體信息拗引,比如數(shù)據(jù)是什么樣品,采用哪種平臺(tái)測(cè)序的壤玫,測(cè)序長(zhǎng)度是多少,測(cè)序深度是多少欲间,都可以到SRA網(wǎng)站上去查。
- 首先可以使用esearch 搜索sra數(shù)據(jù)庫(kù)班缎≈瞿埽看這個(gè)項(xiàng)目下都有哪些數(shù)據(jù)。esearch默認(rèn)的結(jié)果是xml格式惹骂,需要使用efetch進(jìn)行解析。efetch來(lái)自NCBI另一款工具edirect对粪。
https://blog.csdn.net/zhanyongjia_cnu/article/details/50717717
# 安裝
conda install entrez-direct
# 解析路徑到文件
esearch -db sra -query PRJNA553240 | efetch -format runinfo >info.csv
這里面有很多數(shù)據(jù),選擇其中一個(gè)作為演示纱扭。直接使用prefetch進(jìn)行下載儡遮。如果系統(tǒng)中安裝了Asprea,prefetch會(huì)調(diào)用aspera進(jìn)行下載肃叶,還是很方便的十嘿。如果不在默認(rèn)路徑下,可以通過(guò)-a選項(xiàng)指定绩衷。
我們下載一個(gè)SRA數(shù)據(jù)咳燕,SRR1972917,直接輸入SRA ID即可招盲。
prefetch SRR1972917
檢查當(dāng)前地址,如果沒有就在~/ncbi下
我試了一下應(yīng)該是prefetch版本問(wèn)題表制,mac上的prefetch會(huì)直接下載到~/ncbi下,而服務(wù)器centos則會(huì)下載到當(dāng)前文件夾
- 若要批量下載csv中的文件娜遵,提供一個(gè)思路:
首先輸入上面得到的info.csv壤短,使用pandas解析表格并且獲得Run名稱和原文件名,使用prefetch下載文件并命名為原文件名
print ok說(shuō)明下載正常
print not found說(shuō)明沒找到
print Error 說(shuō)明遇到了其他問(wèn)題
zhn寫了個(gè)小腳本prefetch_download_from_efetch.py
下載地址
可以配合screen命令扔后臺(tái)跑著,這要手動(dòng)下載不得累死帘撰。。
5.注意事項(xiàng)
i. 默認(rèn)下載的是sra格式數(shù)據(jù)核行,可以使用fastq-dump將sra轉(zhuǎn)換為fastq了蹬耘。
fastq-dump --gzip --split-3 SRR1972917.sra
ii. 其實(shí),也可以直接使用fastq-dump下載數(shù)據(jù)综苔,下載之后直接即使fastq格式如筛,不過(guò)還是選擇prefetch比較好,因?yàn)閟ra數(shù)據(jù)格式比f(wàn)astq格式占用空間較小妙黍,下載速度快瞧剖;另一方面,sra也方便斷點(diǎn)續(xù)傳做粤。
#直接利用fastq-dump下載數(shù)據(jù)
fastq-dump --split-files SRR1972917
下載和合并hg19
可以去ucsu官網(wǎng)下載
這里圖方便直接使用它給的tar包
wget ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
tar zxvf chromFa.tar.gz
然后只留下我們需要的chr1~22XY捉撮,其他都刪掉;
于是巾遭。闯估。吼和。。
import os
ls = list(range(1,23))
ls.extend(["X","Y"])
para = ""
for i in ls:
para += "chr%s.fa " % str(i)
print(para)
os.system('cat %s > hg_19.fa' % para)
print('success!')
然后全刪光只留下hg_19.fa即可刚夺,less查看一下,