序列相似性搜索是重要的生物信息學(xué)研究之一鼻吮,常常為新測序基因組或序列片段的功能提供參考,而BLAST是這一系列工具中最流行的相似性搜索工具。1989年埃叭,美國國家生物技術(shù)信息中心(NCBI)首次推出BLAST派任。自第一版以來砸逊,NCBI一直在維護和更新BLAST版本。 2009年掌逛,NCBI推出了新版本的獨立式BLAST應(yīng)用程序(BLAST +)师逸,現(xiàn)在的版本已更新到2.7.1。BLAST+與BLAST相比豆混,有很多改進和提高篓像,可以加快搜索速度,并在輸出格式和搜索輸入方面提供更大的靈活性皿伺,主要有以下幾點:
- 分割較長的查詢序列以減少內(nèi)存使用员辩,并且充分利用現(xiàn)代CPU的運算能力;
- 使用數(shù)據(jù)庫索引來顯著加快搜索的速度;
- 具有保存稍后可用于開始新一輪搜索的“搜索策略”的能力;
- 在表格式結(jié)果的格式化方面具有更大的靈活性鸵鸥。
NCBI強烈推薦放棄BLAST奠滑,使用BLAST+, 這里說的BLAST和BLAST+妒穴,都是本地的宋税,與那個批量BLAST小程序不是一回事。BLAST+下載地址:NCBI BLAST+ 讼油。
BLAST+的一般用法如下:
格式化數(shù)據(jù)庫
makeblastdb -in db.fasta -dbtype prot -out dbname
參數(shù)說明:
-in:待格式化的序列文件
-dbtype:數(shù)據(jù)庫類型杰赛,prot或nucl
-out:數(shù)據(jù)庫名
蛋白序列比對蛋白數(shù)據(jù)庫(blastp)
blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
參數(shù)說明:
-query: 輸入文件路徑及文件名
-out:輸出文件路徑及文件名
-db:格式化了的數(shù)據(jù)庫路徑及數(shù)據(jù)庫名
-outfmt:輸出文件格式,總共有12種格式矮台,6是tabular格式對應(yīng)之前BLAST的m8格式
-evalue:設(shè)置輸出結(jié)果的e-value值
-num_threads:線程數(shù)
核酸序列比對核酸數(shù)據(jù)庫(blastn)以及核酸序列比對蛋白數(shù)據(jù)庫(blastx)
與上面的blastp用法類似:
blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
以上的參數(shù)說明只是一些常用的參數(shù)淆攻,完整的參數(shù)說明可以用-help查詢,關(guān)于BLAST的詳細介紹可以參考BLAST的官方文檔嘿架。
參考:
- 有個博客:BLAST+使用方法
- BLAST? Command Line Applications User Manual [Internet].