SRA(Sequence Read Archive)數(shù)據(jù)庫是用于存儲二代測序的原始數(shù)據(jù)的數(shù)據(jù)庫屿衅。除了原始序列數(shù)據(jù)外,SRA現(xiàn)在也存在raw reads在參考基因的比對信息擅腰。
根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點蟋恬,將SRA數(shù)據(jù)分為四類:
- Studies 研究課題
- Experiments 實驗設計
- Runs 測序結果集
- Samples 樣品信息
SRA中數(shù)據(jù)結構的層次關系為 Studies -> Experiments ->Samples->Runs。
- Studies是就實驗目標而言的趁冈,一個study 可能包含多個Experiment歼争。
- Experiments包含了Sample、DNA source渗勘、測序平臺沐绒、數(shù)據(jù)處理等信息。
- 一個Experiment可能包含一個或多個runs旺坠。
- Runs 表示測序儀運行所產(chǎn)生的reads乔遮。
SRA數(shù)據(jù)庫用不同的前綴加以區(qū)分:
ERP或SRP表示Studies;
SRS 表示 Samples取刃;
SRX 表示 Experiments蹋肮;
SRR 表示 Runs;
下載數(shù)據(jù)使用專門的SRA 工具:
1. 下載最新版SRA Toolkit
下載地址:https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit(親測github很多時候打不開)
以Centos為例蝉衣,直接從NCBI下載安裝包
(1)wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz" #會自動下載最新版安裝包
(2)tar xvf sratoolkit.current-centos_linux64.tar.gz
2.配置SRA-Toolkit
20221101下載的安裝包為sratoolkit.3.0.0-centos_linux64
cd sratoolkit.3.0.0-centos_linux64/bin
./prefech ERR571271
報錯信息:This sra toolkit installation has not been configured.
Before continuing, please run: vdb-config --interactive
For more information, see https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/
一直以為這些軟件不需要安裝配置括尸。但被打臉了。重新回到網(wǎng)站找配置說明病毡。
https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit
第六步即為配置步驟濒翻。
第一步:按照提示輸入vdb-config -i
出來一交互終端。
第二步:按tab鍵可以在不同菜單之間切換啦膜。
按c直接進入配置信息有送。然后按o光標停留在第一個choose選項,是存放以后下載的SRA數(shù)據(jù)僧家。這里需要提前建好一個空文件夾雀摘,若文件夾非空,則不會設置成功八拱。
第二個choose存放的是SRA-Toolkit的可執(zhí)行命令路徑阵赠。
第三步:按下a鍵,再按r選擇“report cloud instance identity”肌稻。
第四步:按s保存清蚀,按enter。然后點擊Esc兩次退出爹谭。
第四步:設置環(huán)境變量
vim ~/.bashrc
在末尾添加:export PATH="$PATH:/home/XXXX/software/sratoolkit.3.0.0-centos_linux64/bin";
source ~/.basrc
設置環(huán)境變量枷邪,配置完成!E捣病东揣!可正常使用了践惑。若再次安裝不同的版本,需要再次設置嘶卧。
3. 下載數(shù)據(jù)
- 下載單個文件ERR571271
$ prefetch ERR571271
程序會自動啟動下載尔觉。在上面設定的文件夾下生成5個子文件夾。sra文件夾下存放的即為測序下機原始數(shù)據(jù)脸候。字節(jié)數(shù)200+M穷娱,下載速度還可以绑蔫,基本在2分鐘內下完运沦。
- 若批量下載一批文件,將需要下載的文件ID存儲到一個文本文件里配深,一行一個ID號携添。比如文件Download.list
nohup prefetch --option-file Download.list 2>&1 &
- 若使用parallel并行加速
cat Download.list | parallel prefetch {}
4. 將sra文件轉換為fastq文件
SAR Toolkit里提供了fastq-dump、fasterq-dump工具篓叶。
$ fastq-dump --split-3 ERR571271.sra -O result
Read 1812467 spots for ERR571271.sra
Written 1812467 spots for ERR571271.sra
或者
$ fasterq-dump --split-3 ERR571271.sra -O result1
spots read : 1,812,467
reads read : 3,624,934
reads written : 3,624,934
--split-3 參數(shù)可以把雙端測序的reads提取出來烈掠,左端標示為*_1.fastq;右端標示為*_2.fastq缸托。
$ ll result/
total 1329432
-rw-rw-r--. 1 XXX XXX 680668110 Nov 2 19:27 ERR571271_1.fastq
-rw-rw-r--. 1 XXX XXX 680668110 Nov 2 19:27 ERR571271_2.fastq
conda install -c conda-forge parallel