擬下載10X基因組數(shù)據(jù)GSE134520,該數(shù)據(jù)集對應(yīng)的SRA編號為SRP215370
這個數(shù)據(jù)集一共測了9個病人的單細胞數(shù)據(jù)(包括了3個淺表性胃炎嗡靡、3個慢性萎縮性胃炎、6個腸上皮化生叽躯、1個早期胃癌)PS:由于數(shù)據(jù)太大,這里就不全部下載点骑,只選擇其中幾個樣本進行下載分析.
** 0、配置環(huán)境
conda create -n sra-toolkit
conda activate sra-toolkit
一黑滴、下載SRA數(shù)據(jù)前的準備
1、首先要先安裝prefetch 和ascp
Prefetch是sratools中的一個小工具,可以直接安裝:
conda install -c daler sratoolkit
可以顯示幫助文檔就說明安裝成功
prefetch –h
如果要下載數(shù)據(jù)比如SRR文件袁辈,直接加ID號,指定輸出目錄就好
prefetch SRRxxxxxxx -O PATH
2晚缩、默認情況下,prefetch是利用https方式去下載原始數(shù)據(jù)冈敛,這個就像直接從網(wǎng)頁下載一樣,速度有一定的限制抓谴。因此這里需要先安裝一款叫做"aspera"的下載工具,它是IBM旗下的商業(yè)高速文件傳輸軟件癌压,與NCBI和EBI有協(xié)作合同
** 二荆陆、下載aspera安裝包
1.aspera下載
先進入https://www.ibm.com/products/aspera/downloads?list
然后找到如圖所示的IBM Aspera Connect。因為數(shù)據(jù)一般是下載在服務(wù)器上被啼,所以需要選擇linux版本進行安裝。
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect3.7.4.147727-linux-64.tar.gz
將下載的安裝包解壓
tar zxvfibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
安裝aspera
sh ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh
查看是否安裝成功
cd /home/hej/.aspera/connect/bin
顯示幫助文檔就說明安裝成功
./ascp –help
永久添加環(huán)境變量
echo 'export PATH=~/.aspera/connect/bin:$PATH'>> ~/.bashrc
最好寫絕對路徑
echo 'export PATH=/home/limf/.aspera/connect/bin:$PATH'>> ~/.bashrc
最后檢查ascp是不是能用了
ascp –help
*ascp安裝成功后,prefetch就會默認將下載方式從https轉(zhuǎn)移到fasp汹碱,說明開啟加速模式
二、開始下載SRA數(shù)據(jù)
1咳促、將要下載的數(shù)據(jù)對應(yīng)的SRR編號存在文件SRR_Acc_List.txt中
那么如何獲取想要下載的數(shù)據(jù)集樣本對應(yīng)的SRR編號呢?
方法如下:
① 進入NCBI-SRA界面跪腹,選擇SRA Run Selector
② 輸入SRP215370
③下載Accession List
Accession List具體內(nèi)容如下:
2冲茸、運用prefetch和aspera下載單個文件
對單個文件進行下載
prefetch SRR9713119-O `pwd` && echo "** SRR****.sra done **"
下載完成時會顯示如下
3、運用prefetch和aspera進行批量下載
對批量文件進行下載难衰,將依次下載SRR_Acc_List.txt文件中SRR編號對應(yīng)的數(shù)據(jù)
cat SRR_Acc_List.txt| while read i
4逗栽、有時候SRR_Acc_List.txt文件中列出來的數(shù)據(jù),通過prefetch和aspera有可能下載不下來彼宠,所以這里介紹另一種補充的下載方式。
①凭峡、進入EBI官網(wǎng)https://www.ebi.ac.uk/ena
搜索SRA編號
②、運用EBI下載的好處是可以選擇直接下載fastq格式的文件悠栓,也可以選擇下載SRA格式的文件〔咽剩可以根據(jù)以下步驟獲得fastq文件或者SRA文件所在的鏈接。
③ 癞志、可以直接在網(wǎng)頁下載也可以將獲得的鏈接粘貼到以下代碼中進行下載
ascp -QT -l 300m-P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR971/009/SRR9713119./
轉(zhuǎn)載來自:
李呆呆的學習筆記