生物或醫(yī)學(xué)中涉及高通量測(cè)序的論文,一般會(huì)將原始測(cè)序數(shù)據(jù)上傳到公開(kāi)的數(shù)據(jù)庫(kù)庶艾,上傳方式見(jiàn)測(cè)序文章數(shù)據(jù)上傳找哪里;并在文章末尾標(biāo)明數(shù)據(jù)存儲(chǔ)位置和登錄號(hào),如?The data from this study was deposited in NCBI Sequence Read Archive under accession SRA: SRP114962.况脆。
NCBI的SRA (Sequence Read Archive) 數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存儲(chǔ)測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù)柒爵。目前SRA數(shù)據(jù)的組織方式分為下面4個(gè)層次:
Studies–研究課題;
Experiments–實(shí)驗(yàn)設(shè)計(jì)彤叉;
Runs–測(cè)序結(jié)果集庶柿;
Samples–樣品信息。
進(jìn)入SRA官網(wǎng):https://www.ncbi.nlm.nih.gov/sra, Search框中輸入SRA編號(hào)(SRP114962)秽浇,獲得如下圖的界面:
點(diǎn)擊第一個(gè)樣品即可查看其詳細(xì)信息浮庐。
當(dāng)樣品比較多時(shí),可以點(diǎn)擊Send results to Run selector(圖中畫(huà)圈的位置)進(jìn)入篩選頁(yè)面柬焕。
從圖中可發(fā)現(xiàn)审残,測(cè)序平臺(tái)是Illumina HiSeq 4000梭域,5748個(gè)Runs,每個(gè)Run的名字搅轿、樣本名病涨、測(cè)序類型(全基因組/外顯子組等)、tissue璧坟、treatment等既穆。
在如此多的Runs中,假設(shè)我們想獲取其中兩個(gè)病人的化療前和化療后的外顯子組測(cè)序數(shù)據(jù)沸柔,觀察其化療前后究竟有哪些基因突變以及突變的頻率怎么樣循衰。數(shù)據(jù)來(lái)自于文章?腫瘤化療無(wú)效是對(duì)預(yù)先存在的突變的選擇還是誘發(fā)新突變,Cell給你答案褐澎。
5748個(gè)Runs会钝,有116Page,怎么找呢工三?
在Facets下拉框中先勾選Assay Type迁酸,等待頁(yè)面相應(yīng)后勾選wxs,即全外顯子組數(shù)據(jù)俭正,等待頁(yè)面相應(yīng)奸鬓。
在Facets下拉框中勾選Sample name,等待頁(yè)面相應(yīng)后勾選ktn102及ktn102兩個(gè)病人的分別四個(gè)樣本(四種treatment:pre掸读、2cycleschemo串远、operative和blood),如圖儿惫。等待頁(yè)面相應(yīng)澡罚。獲得Run編號(hào)(藍(lán)色框):SRR5908363、SRR5908362…
然后使用NCBI提供的工具SRAToolkit下載肾请。
SRA toolkit?https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software, 根據(jù)服務(wù)器操作系統(tǒng)類型下載對(duì)應(yīng)的二進(jìn)制編碼包留搔,下載解壓放到環(huán)境變量即可使用。
使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下載SRR文件铛铁,并轉(zhuǎn)換為FASTQ格式隔显,--split-3參數(shù)表示如果是雙端測(cè)序就自動(dòng)拆分,如果是單端不受影響饵逐。--gzip轉(zhuǎn)換fastq為壓縮文件括眠,節(jié)省空間。
下載的數(shù)據(jù)集一般比較大倍权,放入后臺(tái)不中斷下載 (nohup cmd &)哺窄。
nohup fastq-dump -v --split-3 --gzip SRR5908360 &
nohup fastq-dump -v --split-3 --gzip SRR5908361 &
nohup fastq-dump -v --split-3 --gzip SRR5908362 &
nohup fastq-dump -v --split-3 --gzip SRR5908363 &
nohup fastq-dump -v --split-3 --gzip SRR5906250 &
nohup fastq-dump -v --split-3 --gzip SRR5906251 &
nohup fastq-dump -v --split-3 --gzip SRR5906252 &
nohup fastq-dump -v --split-3 --gzip SRR5906253 &
注意:如果數(shù)據(jù)量很大可能需要下載1-2天。數(shù)據(jù)下載完會(huì)在~/ncbi下面存在緩存的sra文件,記得定時(shí)清空萌业。
Summary
按照上述步驟下載完畢后可看到很多個(gè)fastq.gz格式測(cè)序文件坷襟。
2019-03-07更新:Aspera Connect?工具在下載測(cè)序數(shù)據(jù)時(shí)的應(yīng)用
1. 下載Aspera Connect:
wget?http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
2. 解壓:
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
3. 安裝:
bash aspera-connect-3.7.4.147727-linux-64.sh
4. 查看是否有.aspera文件夾
去根目錄?
ls -a?#如果看到.aspera文件夾,代表安裝成功
PS: 在這一步時(shí)生年,我用" cd / " 命令切到根目錄沒(méi)有找到.aspera文件婴程,
于是我cd到用戶目錄,通過(guò)" ll -h" 命令在主用戶目錄下找到抱婉。
5. 永久添加環(huán)境變量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc?source ~/.bashrc
6. 查看幫助文檔档叔,驗(yàn)證是否可以調(diào)用
ascp --help
PS:輸入這個(gè)命令的時(shí)候,系統(tǒng)提示-bash: ascp: command not found蒸绩,于是我進(jìn)行了以下操作:
之后我再使用?.aspera/connect/bin/ascp --help 命令之后就能正常開(kāi)始Aspera Connect的使用了衙四。
開(kāi)啟命令換成如下:~/.aspera/connect/bin/ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads
這樣你的電腦或者服務(wù)器就可以開(kāi)啟神器了
下面是開(kāi)啟命令
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads
上面命令中SRR后面的數(shù)字就是下載文件的代號(hào),大家應(yīng)該能看懂規(guī)律吧患亿。按照????中的Access list就能夠一個(gè)一個(gè)的下載到你要的文件传蹈。
你可以看一下速度,
根據(jù)那個(gè)ascp幫助文檔步藕,你可以去調(diào)整速度惦界,也不能太快了,四不四咙冗。