前言:眾所周知憾股,NCBI對我朝的局域網不甚友好鹿蜀,對于國內的生信玩家來說,想要下載SRA數據庫的.sra或者.fastq經常遇到網速問題服球,慢到你懷疑人生有木有茴恰!因此,我在這里摸索了一個目前看來最高效的方法斩熊,那就是往枣。。粉渠。ascp+ENA數據庫分冈!
詳解:
1.首先安裝ascp
這個神器就不多介紹了,沒有安裝的同學先把ascp安裝到自己的服務器上吧霸株,推薦安裝教程??
2.ENA數據庫
ENA數據庫雕沉,全稱European Nucleotide Archive,是EBI提供用于存儲核酸序列信息的綜合數據庫去件,相當于NCBI的SRA坡椒,而且兩個數據庫數據是交換共享的。
網址??
3.下載示例
以SRR11637845為例尤溜,測序物種為Acinetobacter baumannii倔叼,然后在ENA數據庫的右上角搜索欄中進行檢索,如圖:
點擊research按鈕靴跛,進入檢索結果界面缀雳,可以看到檢索到兩個結果渡嚣,選擇run結果梢睛,如圖:
然后就進入了該run的詳情界面肥印,可以看到測序平臺、研究項目編號绝葡、雙端單端等信息深碱,紅框中就是測序reads的下載鏈接,如圖:
右鍵單擊藏畅,復制鏈接地址敷硅,然后粘貼出來觀察一下:
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_2.fastq.gz
4.使用ascp進行下載
ascp -QT \#-Q用于自適應流量控制,磁盤限制所需;-T是取消加密愉阎,否則有時候數據下載不了
-l 300m \#-l設置最大傳輸速度绞蹦,一般200m到500m,若不設置榜旦,反而速度會較低幽七,可能有個較低的默認值
-P33001 \#-P用于SSH身份驗證的TCP端口,一般是33001
-i /home/xxx/.aspera/connect/etc/asperaweb_id_dsa.openssh \#-i是指定ascp的密鑰位置溅呢,根據自己的安裝目錄設定
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_1.fastq.gz . #era-fasp是EBI在ascp服務器上的注冊用戶名澡屡,然后@fasp.sra.ebi.ac.uk表示ENA數據庫的域名,.gz后面的.是指定下載到當前目錄咐旧,否則ascp會報錯
這個下載速度驶鹉,沒誰了
總共用時不到1分鐘!