有些時(shí)候,我們需要從genebank中下載別人原始的測序數(shù)據(jù)來學(xué)習(xí)。
最開始的時(shí)候贬养,我只是從NCBI上面之間點(diǎn)擊下載fastq文件执庐,用瀏覽器自帶的下載工具下載马篮,但是有些時(shí)候,你會(huì)發(fā)現(xiàn)并沒有fastq文件可以下載,取而代之的是SRA。那么什么是SRA呢仇参?
Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for new discoveries by comparing data sets. The SRA stores raw sequencing data and alignment information from high-throughput sequencing platforms, including Roche 454 GS System?, Illumina Genome Analyzer?, Applied Biosystems SOLiD System?, Helicos Heliscope?, Complete Genomics?, and Pacific Biosciences SMRT?.
大家可以具體看NCBI上的介紹:
https://www.ncbi.nlm.nih.gov/sra
SRA數(shù)據(jù)有四類
Studies (SRP)
Experiments (SRX)
Runs (SRR)
Samples (SRS)
一般測序儀下來的原始數(shù)據(jù)就是Run
所以我們一般可以看到很多文章后面會(huì)寫
The SRA accession numbers are SRR*******
然后我們?nèi)ハ螺d
我們?cè)贜CBI上面SRA搜索中輸入 SRR****
然后你點(diǎn)擊去,發(fā)現(xiàn)下載要使用一個(gè)工具 sratoolkit
那么我就來安裝一下
點(diǎn)擊之后選擇你電腦的版本
然后我創(chuàng)建了一個(gè)文件夾婆殿, 使用wget 下載
使用prefetch 下載
過一會(huì)兒就下載好了
文件在路徑在
下載完了之后诈乒,發(fā)現(xiàn)其實(shí)這個(gè)軟件還是有很多功能的
我這里來試一試轉(zhuǎn)換為 fastq文件,文件大的話還是有點(diǎn)耗時(shí)間的婆芦。
OK 了
其實(shí)還有很多的實(shí)用工具可以使用怕磨,要看懂幫助手冊(cè)。
補(bǔ)充 雙端測序分成 2個(gè)reads