整理:dayueban
主要目的是方便日常對測序數(shù)據(jù),如編碼某個(gè)蛋白的基因在物種間序列上的相似性比較康二。
一、軟件下載和安裝
blast軟件網(wǎng)址:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
- 軟件安裝,下載后闰歪,點(diǎn)擊安裝,和平時(shí)安裝軟件的方法無異蓖墅,安裝位置可以是C盤或者其它盤库倘,但是注意,一般的軟件最好選擇安裝位置的時(shí)候路徑中不要有中文论矾,否則影響后續(xù)正常運(yùn)行教翩。
二、添加環(huán)境變量
安裝好后贪壳,會(huì)出現(xiàn)doc和bin兩個(gè)文件夾饱亿,doc是文件,bin是執(zhí)行程序所在的文件夾闰靴,將bin所在路徑添加到所在系統(tǒng)環(huán)境變量彪笼,方法為:首先右鍵點(diǎn)擊我的電腦——>屬性——>高級系統(tǒng)設(shè)置——>高級——>環(huán)境變量——>系統(tǒng)變量——>選擇
path
——>編輯——>新建——>copy路徑:F:\bio-tools\blast\blast\bin
到該位置——>確定,完成蚂且。win+R打開電腦運(yùn)行配猫,輸入cmd進(jìn)入docs系統(tǒng),進(jìn)入到blast軟件的bin路徑杏死,輸入blastp -h泵肄,如果能出來幫助信息,說明安裝成功淑翼,接下來就可以進(jìn)行相應(yīng)的blast比對操作了腐巢。
三、blast試運(yùn)行
- 首先blast運(yùn)行比對之前窒舟,要對目標(biāo)數(shù)據(jù)庫進(jìn)行建索引
我在NCBI里下載了兩個(gè)細(xì)菌菌株的全基因組蛋白序列系忙,一個(gè)是Eubacterium dolichum(a),一個(gè)是Eubacterium biforme(b)惠豺。其中a作為目標(biāo)參考數(shù)據(jù)庫银还,b用于比對數(shù)據(jù)风宁。
- 建索引
makeblastdb.exe -in db\Eubacterium_dolichum.faa -dbtype prot -out db\Eubacterium_dolichum.faa.blastdb
-
補(bǔ)坑,建立索引這一步蛹疯,出現(xiàn)了相應(yīng)的報(bào)錯(cuò)戒财,
blast Error: mdb_env_open: 磁盤空間不足。
捺弦,在網(wǎng)上搜索一通饮寞,找到一個(gè)解決方法,就是在用戶變量里設(shè)置一個(gè)參數(shù):BLASTDB_LMDB_MAP_SIZE=1000000
解決了這個(gè)問題列吼。 建立好索引之后幽崩,那就是將需要比對的序列去和參考序列進(jìn)行比對,得到比對結(jié)果
blastp -query F:\bio-tools\blast\data\Eubacterium_biforme.faa -db db\Eubacterium_dolichum.faa.blastdb -out db\results.txt -outfmt 6 -evalue 1e-5