下載原始測序數(shù)據(jù):
在GEO數(shù)據(jù)庫搜索GSE87182, 這里沒有直接給出ftp地址恼琼,需要先從BioProject找到SRA號孔祸,可以得到RNA-Seq的SRA的accession_list,共64組數(shù)據(jù)(SRA數(shù)據(jù)下載方法參考:https://www.ncbi.nlm.nih.gov/books/NBK158899/)驯耻。
得到SRA號就可以從NCBI的SRA或者EBI的ENA批量下載原始數(shù)據(jù)了亲族,NCBI下載的原始數(shù)據(jù)是sra格式,需要用SRA Toolkit軟件包轉化為fastq數(shù)據(jù)格式吓歇,EBI下載的數(shù)據(jù)直接是fastq格式孽水。
這里要注意SRR號并不是連續(xù)的票腰,好像有人已經(jīng)踩過這個坑了城看,我還是掉進去了,下了一個晚上的數(shù)據(jù)白瞎了杏慰。重新下載测柠,這次只選擇下載CC,OC兩個腦區(qū)域的數(shù)據(jù),剛好這兩組數(shù)據(jù)的測序平臺也一致缘滥。
#NCBI下載
for ((i=230;i<=237;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR404/SRR4042$i/SRR4042$i.sra;done
for ((i=393;i<=400;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015$i/SRR4015$i.sra;done
##SRR4015393和SRR4015394測序質量不好轰胁,最好不要下載這兩組數(shù)據(jù)練習。
#EBI下載
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_1.fastq.gz;done
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_2.fastq.gz;done
另外若覺得wget下載速度慢朝扼,可以選擇其他下載方法(SRA赃阀、SAM以及Fastq文件高速下載方法):
- 首選Aspera Connect軟件,這是IBM旗下的商業(yè)高速文件傳輸軟件擎颖,與NCBI和EBI有協(xié)作合同榛斯,我們可以免費使用它下載高通量測序文件观游,體驗飛一般的感覺,速度可飚至300-500M/s驮俗。下載完成后懂缕,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件王凑。
- 其次搪柑,如果上述方法不奏效,優(yōu)先使用sratoolkit中的prefetch命令索烹。
- 最后工碾,使用sratoolkit中的fastq-dump和sam-dump命令下載,如果fastq-dump不穩(wěn)定百姓,推薦大家嘗試Biostar Handbook中的wonderdump腳本倚喂。
SRA數(shù)據(jù)庫介紹
SRA(Sequence ReadArchive)數(shù)據(jù)庫是存儲二代測序的原始數(shù)據(jù)。
根據(jù)SRA數(shù)據(jù)產生的特點瓣戚,將SRA數(shù)據(jù)分為四類:
Studies-- 研究課題
Experiments-- 實驗設計
Runs-- 測序結果集
Samples-- 樣品信息
SRA中數(shù)據(jù)結構的層次關系為:Studies->Experiments->Samples->Runs.
Studies是就實驗目標而言的端圈,一個study 可能包含多個Experiment。
Experiments包含了Sample子库、DNA source舱权、測序平臺、數(shù)據(jù)處理等信息仑嗅。
一個Experiment可能包含一個或多個runs宴倍。
Runs 表示測序儀運行所產生的reads。
SRA數(shù)據(jù)庫用不同的前綴加以區(qū)分:
ERP或SRP表示Studies仓技;
SRS 表示 Samples鸵贬;
SRX 表示 Experiments;
SRR 表示 Runs脖捻;
下載基因組數(shù)據(jù):
基因組數(shù)據(jù):ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/
Ensemble基因組數(shù)據(jù)的形式包含以下2種:
(1)masked/unmasked
dna_sm- Repeats soft-masked (converts repeat nucleotidesto lowercase)
dna_rm- Repeats masked (converts repeats to to N's)
dna- No masking
(2) toplevel / primary assembly
toplevel- Includes haplotype information (notsure how aligners deal with this)
primary_assembly– contains all toplevel sequenceregions excluding haplotypes and patches. This is best used for performingsequence similarity searches where patch and haplotype sequences would confuseanalysis.
根據(jù)README中的介紹阔逼,primary_assembly 和 toplevel相比不包含haplotype, 更適合用于比對,對于mask/un mask 通常選擇softmask或者unmasked, 一般不用rm的地沮。這個有一個討論嗜浮,幾個人的回答并不一致,我還是模模糊糊摩疑,并不很明白危融。
macaca的基因組版本沒有給出primary_assembly, 所以我下載了sm.toplevel和toplevel, 有時間去比較下會對下游分析有什么影響。
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna_sm.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz
下載注釋數(shù)據(jù):
注釋數(shù)據(jù):https://asia.ensembl.org/info/data/ftp/index.html
wget ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gff3.gz
參考資料:
SRA數(shù)據(jù)下載方法參考:https://www.ncbi.nlm.nih.gov/books/NBK158899/
SRA雷袋、SAM以及Fastq文件高速下載方法: http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/
SRA數(shù)據(jù)庫介紹:https://www.shengxin.ren/article/16