前言
生物信息分析總是避不開(kāi)從NCBI上下載數(shù)據(jù)镰禾,但是很多時(shí)候通過(guò)瀏覽器登錄NCBI都費(fèi)勁皿曲,更別說(shuō)下載大量的數(shù)據(jù)了。
NR和NT數(shù)據(jù)庫(kù)是做序列比對(duì)經(jīng)常用到的數(shù)據(jù)庫(kù)
下載鏈接: Index of /blast/db/FASTA
這兩個(gè)數(shù)據(jù)庫(kù)一直在不斷地更新羡微,數(shù)據(jù)也越來(lái)越大谷饿,截止到2021年4月,這兩數(shù)據(jù)庫(kù)壓縮包一個(gè)95G妈倔,一個(gè)104G博投,想要通過(guò)網(wǎng)頁(yè)下載比較困難,所以推薦使用下載工具aspera
所以很必要了解一下NCBI數(shù)據(jù)下載工具aspera盯蝴,該軟件是由IBM開(kāi)發(fā)毅哗,能夠最大程度利用寬帶速度,下載NR和NT數(shù)據(jù)庫(kù)的時(shí)候速度能飚到400Mb/s捧挺,下載基因組的時(shí)候能飚到20Mb/s虑绵。
<meta charset="utf-8">
下載安裝
下載鏈接
ascp 官方說(shuō)明:https://www.ncbi.nlm.nih.gov/books/NBK242625/
選擇自己需要的版本,這里選擇aspera-connect-3.7.4.147727-linux版本為例闽烙。
下載:wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
解壓:tar -xzvf aspera-connect-3.7.4.147727-linux-64.tar.gz
安裝:sh aspera-connect-3.7.4.147727-linux-64.sh
#此時(shí)安裝已經(jīng)完成翅睛,去到用戶的home目錄里能看到一個(gè).aspera目錄
秘鑰復(fù)制: cd;cp ./.aspera/connect/etc/asperaweb_id_dsa.putty .黑竞;
cp ./.aspera/connect/etc/asperaweb_id_dsa.openssh ./
# 切換到home路徑捕发,將兩個(gè)重要的配置文件復(fù)制到home路徑
添加環(huán)境變量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc ;source ~/.bashrc
ascp --help
就可以正常使用啦
NCBI數(shù)據(jù)下載示例
##NR下載鏈接:
https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
##ascp 官方說(shuō)明:https://www.ncbi.nlm.nih.gov/books/NBK242625/
安裝完成后可以使用ascp --help查看幫助很魂,Aspera需要私鑰asperaweb_id_dsa.openssh
# 然后在/vol1/agis/gaofei_group/zhangxin/software/NR_database目錄下下載nr.gz
cd /vol1/agis/gaofei_group/zhangxin/software/NR_database
ascp -v -k 1 -T -l 400m -i ~/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./
下載NT
ascp -v -k 1 -T -l 400m -i ~/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
參數(shù)-i表示限制的最大下載速度扎酷,一般200m到500m