最近想要用blast找一些同源蛋白,由于網(wǎng)站上的blast給出的信息實在是很難提取啊跨嘉,萌生了入坑本地blast的想法歧譬,之前已經(jīng)下載過blast本地軟件了涂圆,因此這次需要用到的東西就只有NR庫。
1.根據(jù)blast+中提供的腳本 update_blastdb.pl 可以查看和下載能夠下載的庫
update_blastdb.pl --showall
image.png
這里我選擇了nr庫(非冗余的蛋白庫)硝逢。
2.然后就是下載了姨拥,同樣也是使用blast+中的update_blastdb.pl 腳本
nohup update_blastdb.pl --decompress nr &> updata.log &
但是出現(xiàn)問題了。渠鸽。叫乌。。查看log文件可以看到以下問題
image.png
對我這個菜鳥來說實在是看不懂徽缚,于是最簡單的方法就是去看md5文件是否下載完整憨奸,可惜它同樣提示的Failed to download nr.00.tar.gz.md5 說明md5文件也沒有下載下來。
于是呢就用最笨的方法去看下載的結(jié)果
du -sh nr.00.tar.gz
image.png
ftp網(wǎng)站上給的大小是26G猎拨,這個文件應該是下載完全了但是為什么只下了00一個文件呢膀藐,他有那么多文件
image.png
https://ftp.ncbi.nlm.nih.gov/blast/db/
自己下的好像少了些文件 不知道是不是因為我下的nr.21的原因
image.png
image.png
3.重新?lián)Q了一個version,在log中沒有看到下的版本是哪個红省,并且打開--passive(Use passive FTP, useful when behind a firewall or working in the cloud(default: true)
update_blastdb.pl --blastdb_version 5 --decompress nr --passive
還是出現(xiàn)了同樣的錯誤
image.png
4.再換一個source嘗試一下,gcp(從Google Cloud Platform上下載)這個可能會占用大量資源额各,慎用!
update_blastdb.pl --blastdb_version 5 --decompress nr --passive --source gcp
5.其他方法:wget命令下載ftp鏈接:
https://ftp.ncbi.nlm.nih.gov/blast/db/nr-prot-metadata.json
下面鏈接中給出了nr數(shù)據(jù)庫的所有壓縮包吧恃,構(gòu)建下載文本虾啦,即需要將上述鏈接中的ftp鏈接放在一個文本中,然后可以在ftp文本每個ftp鏈接前加上wget
指令:
例如
awk '{print "wget -c -nd -r -np -k -L -p -nd -P NR_database " $0}' nr_ftp.txt> nr_download_ftp.sh
整合結(jié)果如下
image.png
然后就是放后臺慢慢下載就好了
nohup bash nr_download_ftp.sh &