BLAST 是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)開(kāi)發(fā)的一個(gè)基于序列相似性的數(shù)據(jù)庫(kù)搜索程序。BLAST是“局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的 縮寫(xiě)勾缭。Blast 是一個(gè)序列相似性搜索的程序包顾彰,其中包含了很多個(gè)獨(dú)立的程序雀监,這些程序是根據(jù)查詢的對(duì)象和數(shù)據(jù)庫(kù)的不同來(lái)定義的烈掠。比如說(shuō)查詢的序列為核酸括蝠,查詢數(shù)據(jù)庫(kù)亦為核酸序列數(shù)據(jù)庫(kù)斑胜,那么就應(yīng)該選擇blastn程序控淡。
安裝blast
#下載blast軟件包選擇2.7.1版本
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.7.1+-x64-linux.tar.gz
#解壓到pkgs文件夾中
tar –zxvf ncbi-blast-2.7.1+-x64-linux.tar.gz –C /YZGROUP1/GYROTECH/Bioinfo-Dept/pkgs/
#文件夾重命名為ncbi-blast
mv ncbi-blast-2.7.1+ ncbi-blast
#將軟件配置環(huán)境變量
echo ‘PATH=/YZGROUP1/GYROTECH/Bioinfo-Dept/pkgs/ncbi-blast/bin:$PATH’ >> ~/.bashrc
#刷新.bashrc文件,環(huán)境變量生效
source ~/.bashrc
#驗(yàn)證軟件是否安裝成功
blastn -version
創(chuàng)建nt數(shù)據(jù)庫(kù)
#創(chuàng)建blast_db文件夾
mkdir ./blast_db && cd ./blast_db
#下載nt.gz(核酸數(shù)據(jù)庫(kù))以及md5文件
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gz
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz.md5
#生成md5
md5sum nt.gz
#解壓nt.gz文件
gunzip nt.gz
#建立索引步驟放在后臺(tái)運(yùn)行止潘,考慮避免建庫(kù)出現(xiàn)錯(cuò)誤掺炭,添加了-logfile 參數(shù),記錄建庫(kù)的過(guò)程凭戴。
nohup makeblastdb -in nt -parse_seqids -hash_index -dbtype nucl -logfile nt_logfile &
除上述創(chuàng)建方法涧狮,也可以直接下載https://ftp.ncbi.nih.gov/blast/db/路徑下nt.*.tar.gz,然后進(jìn)行解壓簇宽,最后在家目錄中創(chuàng)建.ncbirc文件勋篓,該文件是NCBI BLAST全局配置文件,寫(xiě)入以下內(nèi)容:
; Start the section for BLAST configuration
[BLAST]
; Specifies the path where BLAST databases are installed
BLASTDB= /YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/
; Specifies the data sources to use for automatic resolution
; for sequence identifiers
DATA_LOADERS=blastdb
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_PROT_DATA_LOADER=/YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/nr
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=/YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/nt
BATCH_SIZE=10G
; Windowmasker settings
[WINDOW_MASKER]
WINDOW_MASKER_PATH=/db/home/shenwei/data/blast/windowmasker
; end of file
程序名 | 查詢序列 | 數(shù)據(jù)庫(kù) | 搜索方法 |
---|---|---|---|
Blastn | 核酸 | 核酸 | 核酸序列搜索逐一核酸數(shù)據(jù)庫(kù)中的序列 |
Blastp | 蛋白質(zhì) | 蛋白質(zhì) | 蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列 |
Blastx | 核酸 | 蛋白質(zhì) | 核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列逐一搜索 |
Tblastn | 蛋白質(zhì) | 核酸 | 蛋白質(zhì)序列和核酸數(shù)據(jù)庫(kù)中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對(duì) |
TBlastx | 核酸 | 核酸 | 核酸序列6框翻譯成蛋白質(zhì)序列魏割,再和核酸數(shù)據(jù)庫(kù)中的核酸序列6框翻譯成的蛋白質(zhì)序列逐一進(jìn)行比對(duì) |