SRA數(shù)據(jù)庫(kù)是用于存儲(chǔ)二代測(cè)序的原始數(shù)據(jù)洒擦,包括 454亚隅,Illumina,SOLiD倍奢,IonTorrent朴上,Helicos 和 Complete Genomics。除了原始序列數(shù)據(jù)外卒煞,SRA現(xiàn)在也存在raw reads在參考基因的比對(duì)信息痪宰。
很多課題組有進(jìn)行二代測(cè)序的需求,但苦于經(jīng)費(fèi)問題最后都退而求其次選擇從數(shù)據(jù)庫(kù)中挖掘已有數(shù)據(jù)跷坝,今天我們就來一波十分鐘入門之如何從SRA數(shù)據(jù)庫(kù)下載測(cè)序原始數(shù)據(jù)酵镜。此處我以下載一個(gè)小RNA測(cè)序數(shù)據(jù)為例,簡(jiǎn)單介紹測(cè)序數(shù)據(jù)下載柴钻。
1)登入NCBI的SRA數(shù)據(jù)庫(kù)https://www.ncbi.nlm.nih.gov/sra/點(diǎn)選SRA Toolkit Documentation淮韭。
2)在SRA Toolkit Documentation頁面點(diǎn)選SRA Toolkit Installation and Configuration Guide。
3)通過鏈接或命令行方式下載SRA Toolkit(推薦使用紅框中鏈接下載贴届,下載后解壓就可以使用了靠粪,親測(cè)很方便)。解壓后可以看到里面有一個(gè)bin文件夾毫蚓,該文件夾中存有各種測(cè)序下載和數(shù)據(jù)格式轉(zhuǎn)換工具占键。此處展示了bin文件夾中的部分工具,紅框中的prefetch和fasterq-dump工具稍后會(huì)用到元潘,prefetch用來下載數(shù)據(jù)畔乙,fasterq-dump將數(shù)據(jù)轉(zhuǎn)換為fastq格式,方便后續(xù)分析翩概。
4)下載工具準(zhǔn)備完畢牲距,現(xiàn)在可以來搜索一下感興趣的研究?jī)?nèi)容。此處我挑選了一個(gè)人類肺癌樣本的小RNA測(cè)序數(shù)據(jù)SRR7189582钥庇。
6)打開命令行界面牍鞠,在存儲(chǔ)有SraAccList.txt文件的路徑下調(diào)用SRA Toolkit中的prefetch命令按照下圖中設(shè)置參數(shù)下載數(shù)據(jù)。數(shù)據(jù)下載需要一定的時(shí)間评姨,下載過程中沒有進(jìn)度提示(我也很絕望)难述,下載成功后會(huì)提示成功
7)下載完成后,調(diào)用fastq-dump命令處理下載好的數(shù)據(jù)吐句,參數(shù)設(shè)置如圖示胁后。格式轉(zhuǎn)換過程較快,處理完成后會(huì)在現(xiàn)有路徑下找到文件fastq格式(FASTQ是一種存儲(chǔ)了生物序列(通常是核酸序列)以及相應(yīng)的質(zhì)量評(píng)價(jià)的文本格式)的測(cè)序數(shù)據(jù)文件嗦枢。
到這里為止攀芯,我們就成功的從SRA數(shù)據(jù)庫(kù)下載到了一個(gè)測(cè)序數(shù)據(jù)。小伙伴們可以趕快嘗試起來净宵。有興趣的同學(xué)還可以用fastqc等質(zhì)控軟件分析一下下載數(shù)據(jù)的質(zhì)量,做些初步的處理,幫助后續(xù)的分析和挖掘择葡。
如果想要了解更多數(shù)據(jù)下載的細(xì)節(jié)可以登入NCBI的SRA數(shù)據(jù)庫(kù)https://www.ncbi.nlm.nih.gov/sra/ 點(diǎn)選Download Guide頁面查看紧武。