本文轉(zhuǎn)自生信人https://www.shengxin.ren/article/16
1接奈、簡(jiǎn)介
SRA(Sequence ReadArchive)數(shù)據(jù)庫(kù)是用于存儲(chǔ)二代測(cè)序的原始數(shù)據(jù)蜘欲,包括 454被辑,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列數(shù)據(jù)外枝冀,SRA現(xiàn)在也存在raw reads在參考基因的比對(duì)信息。
根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點(diǎn)耘子,將SRA數(shù)據(jù)分為四類:
Studies-- 研究課題
Experiments-- 實(shí)驗(yàn)設(shè)計(jì)
Runs-- 測(cè)序結(jié)果集
Samples-- 樣品信息
SRA中數(shù)據(jù)結(jié)構(gòu)的層次關(guān)系為:Studies->Experiments->Samples->Runs.
Studies是就實(shí)驗(yàn)?zāi)繕?biāo)而言的果漾,一個(gè)study 可能包含多個(gè)Experiment。
Experiments包含了Sample拴还、DNA source跨晴、測(cè)序平臺(tái)、數(shù)據(jù)處理等信息片林。
一個(gè)Experiment可能包含一個(gè)或多個(gè)runs端盆。
Runs 表示測(cè)序儀運(yùn)行所產(chǎn)生的reads。
SRA數(shù)據(jù)庫(kù)用不同的前綴加以區(qū)分:
ERP或SRP表示Studies费封;
SRS 表示 Samples焕妙;
SRX 表示 Experiments;
SRR 表示 Runs弓摘;
2焚鹊、使用
3韧献、下載數(shù)據(jù)
要下載SRA數(shù)據(jù)末患,我們需要先安裝SRA Toolkit軟件包研叫,下載地址:
https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
根據(jù)自己的環(huán)境下載相應(yīng)的軟件包。
主要包括:
CentOS 32/64, Ubuntu 32/64, MacOS 32/64, MS Windows 32/64
以CentOS為例:
1璧针、下載安裝:
wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz
2嚷炉、運(yùn)行下載
cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch SRR2172038
下載完成后,會(huì)在你的工作主目錄下生成一個(gè)ncbi的文件夾探橱。
cd ncbi/public/sra
查看SRR2172038.sra數(shù)據(jù)
3申屹、轉(zhuǎn)換fastq
/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump ./SRR2172038.sra
4、轉(zhuǎn)換fasta
/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --fasta ./SRR2172038.sra
4隧膏、數(shù)據(jù)提交
一個(gè) SRA study 所包含的內(nèi)容哗讥, 應(yīng)該在一個(gè) LSBI 的項(xiàng)目中提交。 即 SRA study 和 LSBI項(xiàng)目為 1 對(duì) 1 關(guān)系胞枕。 一個(gè) study 的內(nèi)容可以在一個(gè)項(xiàng)目下杆煞, 分成幾個(gè)批次提交, 每次提交不同的內(nèi)容腐泻。
一個(gè)批次的 SRA 數(shù)據(jù)索绪, 包括一個(gè).info 文件和一個(gè)名為 DATA, 裝有提交原始文件的子文件夾贫悄。 子文件夾中內(nèi)容為描述 metadata 的 xml 文件或者 sff 等格式的數(shù)據(jù)文件。 一個(gè)完整的 study娘摔, 包括一個(gè)或多個(gè) study.xml, experiment.xml, sample.xml 和 run.xml窄坦, 以及一個(gè)或多個(gè)數(shù)據(jù)文件。 但是一個(gè)批次的提交數(shù)據(jù)不一定包括所有的文件凳寺。
Run.xml 和該 xml 中包括的所有數(shù)據(jù)文件鸭津, 必須要在一個(gè)批次中提交。
(1) 請(qǐng)先確認(rèn)您已是數(shù)據(jù)中心網(wǎng)站注冊(cè)的用戶肠缨, 否則請(qǐng)登陸中心網(wǎng)站,注冊(cè)逆趋。
(2) 登陸中心網(wǎng)站后,點(diǎn)擊左側(cè)菜單的 mydata,選擇已有項(xiàng)目或創(chuàng)建新項(xiàng)目。
(3) 選擇已有批次或創(chuàng)建新批次晒奕。 在創(chuàng)建批次時(shí)闻书, 選擇要提交的數(shù)據(jù)類型為“SRA”。
(4) 在點(diǎn)擊批次下的 submit data 按鈕后脑慧, 進(jìn)入提交頁(yè)面魄眉。
(5) 首先下載離線提交附件( subdesc.bch), 作為離線提交的標(biāo)識(shí)文件闷袒, 是離線提交必須的附件之一坑律。
(6) 按照 SRA 的數(shù)據(jù)格式標(biāo)準(zhǔn), 處理生成數(shù)據(jù)文件囊骤, 連同標(biāo)識(shí)文件一起晃择, 通過提交頁(yè)面上顯示的路徑( 為 ftp://shengxin.ren:1221/SRA/****/) 上傳至服務(wù)器指定目錄冀值。