寫在前面
這一篇教程寫于很久之前沮脖,那時(shí)候才剛開始學(xué)著記錄下自己的學(xué)習(xí)過程凯正,今天將其正式貼出來,供自己也供讀者參考秸抚。
Blast的安裝
- 說明:BLAST工具是由NCBI所提供速和。
以下摘自NCBI官網(wǎng)
BLAST (Basic Local Alignment Search Tool) finds regions of similarity between biological sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance.
功能:BLAST 是一套在蛋白質(zhì)數(shù)據(jù)庫或DNA數(shù)據(jù)庫中進(jìn)行相似性比較的分析工具。[BLAST]程序能迅速與公開數(shù)據(jù)庫進(jìn)行相似性序列比較剥汤。BLAST結(jié)果中的得分是對一種對相似性的統(tǒng)計(jì)說明颠放。
下載地址:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
舊地址已失效,新鏈接為 ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.10.1+-x64-linux.tar.gz
- 具體安裝:
wget ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.10.1+-x64-linux.tar.gz
tar -zxvf ncbi-blast-2.7.1+-x64-linux.tar.gz ‘解壓’
mv ncbi-blast-2.7.1+-x64-linux.tar.gz blast ‘改名’
可以通過絕對路徑來直接使用BLAST的相關(guān)命令吭敢,但為了使用方便碰凶,還需要進(jìn)一步配置。將BLAST+可執(zhí)行目錄(bin)的絕對路徑加入到環(huán)境變量PATH中,方便直接通過命令名進(jìn)行調(diào)用痒留。主要有兩種方法:
方法一:
執(zhí)行以下命令
PATH=$PATH:/usr/local/BLAST/blast/bin
或
PATH="PATH":/usr/local/BLAST/blast/bin
或
PATH=${PATH}:/usr/local/BLAST/blast/bin
這種方法只在當(dāng)前終端生效谴麦,退出重新進(jìn)入終端后就無法使用,要想永久生效伸头,參見方法二匾效。
方法二:
編輯~/.bashrc文件,在最后加上:
export PATH=/usr/local/BLAST/blast/bin:$PATH
如果不會使用vi/vim等編輯器恤磷,可直接運(yùn)行下列一行命令面哼,將上述內(nèi)容添加到~/.bashrc文件
echo "export PATH=/usr/local/BLAST/blast/bin:\$PATH" >> ~/.bashrc
最后,重啟終端或執(zhí)行以下命令讓配置生效:
source ~/.bashrc
需要注意的是如果你只想在普通用戶身份下使用BLAST的相關(guān)命令扫步,那需在普通用戶身份下執(zhí)行上述命令魔策,因?yàn)閞oot和一般用戶的PATH變量的內(nèi)容不一樣。
配置本地Blast庫
BLAST分為在線和本地兩種河胎,你可以直接在NCBI網(wǎng)站上在線使用BLAST進(jìn)行相關(guān)分析闯袒,也可以在本地進(jìn)行分析。當(dāng)需要進(jìn)行大量對比的時(shí)候游岳,將BLAST數(shù)據(jù)庫本地化能極大提高效率政敢。下面以一個(gè)具體例子講一下配置本地BLAST庫的方法。
BLAST數(shù)據(jù)庫分為兩類胚迫,核酸數(shù)據(jù)庫和氨基酸數(shù)據(jù)庫喷户,可以用makeblastbd創(chuàng)建
執(zhí)行help參數(shù)簡單看下說明(help說明中可以看到該命令所支持的文件格式)
從數(shù)據(jù)庫網(wǎng)站上下載長瓜兩個(gè)品種的核酸數(shù)據(jù)庫
wget ftp://cucurbitgenomics.org/pub/cucurbit/genome/cucumber/Chinese_long/v2/cucumber_ChineseLong_v2_genome.fa.gz
wget ftp://cucurbitgenomics.org/pub/cucurbit/genome/cucumber/Gy14/V2/ Gy14_v2.cds.fa.gz
解壓
gzip -d cucumber_ChineseLong_v2_genome.fa.gz
gzip -d Gy14_v2.cds.fa.gz
構(gòu)建數(shù)據(jù)庫
makeblastdb -in cucumber_ChineseLong_v2_genome.fa -dbtype nucl -out cucumber -parse_seqids
makeblastdb -in Gy14_v2.cds.fa -dbtype nucl -out Gy14 -parse_seqids
需要注意的是設(shè)置-parse_seqids
參數(shù)時(shí),建庫時(shí)會對輸入fasta文件的序列ID進(jìn)行檢查访锻,注意不要有空格褪尝,不然會報(bào)錯(cuò)。
到此期犬,本地?cái)?shù)據(jù)庫就已經(jīng)建好了河哑。下面來嘗試進(jìn)行比對
echo '>test' > query.fa
echo TGAAAGCAAGAAGAGCGTTTGGTGGTTTCTTAACAAATCATTGCAACTCCACAAGGCGCCTGTAATAGACAGCTTGTGCATGGAACTTGGTCCACAGTGCCCTACCACTGATGATGTTGATATCGGAAAGTGGGTTGCAAAAGCTGTTGATTGTTTGGTGATGACGCTAACAATCAAGCTCCTCTGGT >> query.fa
用blastn檢索核酸數(shù)據(jù)庫。最簡單的方法就是提供數(shù)據(jù)庫所在位置和需要檢索的序列文件龟虎。
blastn -db cucumber -query querry.fa -out test.blastn@cucumber.nsn -evalue 1e-2
這樣灾馒,序列比對的結(jié)果就會存儲在 test.blastn@cucumber.nsn 這個(gè)文件中。