Blast前翎,全稱Basic Local Alignment Search Tool亡脸,即"基于局部比對(duì)算法的搜索工具",由Altschul等人于1990年發(fā)布猪叙。Blast能夠?qū)崿F(xiàn)比較兩段核酸或者蛋白序列之間的同源性的功能赘风,它能夠快速的找到兩段序列之間的同源序列并對(duì)比對(duì)區(qū)域進(jìn)行打分以確定同源性的高低夹囚。
Blast的運(yùn)行方式是先用目標(biāo)序列建數(shù)據(jù)庫(這種數(shù)據(jù)庫稱為database,里面的每一條序列稱為subject)邀窃,然后用待查的序列(稱為query)在database中搜索荸哟,每一條query與database中的每一條subject都要進(jìn)行雙序列比對(duì),從而得出全部比對(duì)結(jié)果瞬捕。
Blast 是一個(gè)集成的程序包鞍历,通過調(diào)用不同的比對(duì)模塊,blast實(shí)現(xiàn)了五種可能的序列比對(duì)方式:
blastp:蛋白序列與蛋白庫做比對(duì)肪虎,直接比對(duì)蛋白序列的同源性劣砍。
blastx:核酸序列對(duì)蛋白庫的比對(duì),先將核酸序列翻譯成蛋白序列(根據(jù)相位可以翻譯為6種可能的蛋白序列)笋轨,然后再與蛋白庫做比對(duì)秆剪。
blastn:核酸序列對(duì)核酸庫的比對(duì)赊淑,直接比較核酸序列的同源性爵政。
tblastn:蛋白序列對(duì)核酸庫的比對(duì),將庫中的核酸翻譯成蛋白序列陶缺,然后進(jìn)行比對(duì)钾挟。
tblastx:核酸序列對(duì)核酸庫在蛋白級(jí)別的比對(duì),將庫和待查序列都翻譯成蛋白序列饱岸,然后對(duì)蛋白序列進(jìn)行比對(duì)掺出。
Blast提供了核酸和蛋白序列之間所有可能的比對(duì)方式徽千,同時(shí)具有較快的比對(duì)速度和較高的比對(duì)精度,因此在常規(guī)雙序列比對(duì)分析中應(yīng)用最為廣泛汤锨∷椋可以毫不夸張的說,blast是做比較基因組學(xué)乃至整個(gè)生物信息學(xué)研究所必須掌握的一種比對(duì)工具闲礼。
BLAST程序常用的兩個(gè)評(píng)價(jià)指標(biāo)
Score:
使用打分矩陣對(duì)匹配的片段進(jìn)行打分牍汹,這是對(duì)各對(duì)氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說柬泽,匹配片段越長慎菲、相似性越高則Score值越大,結(jié)果越可信锨并。
E-value:
BLAST程序在搜索空間中可隨機(jī)找到獲得這樣高分的序列的可能性(期望值)露该,因此E-value越高,則代表結(jié)果越有可能是隨機(jī)獲得的第煮,也就越不可信解幼。搜尋空間大小約略等于查詢序列的長度乘以全部database序列長度的總和,再乘以一些系數(shù)包警。我們?cè)讷@得一個(gè)Blast結(jié)果時(shí)需要看這兩個(gè)指標(biāo)书幕。
如果Blast獲得的目標(biāo)序列的Score值越高并且E-value越低表明結(jié)果越可信,反之越不可信揽趾。
Blast的運(yùn)行分為兩個(gè)步驟:第一台汇,建立目標(biāo)序列的數(shù)據(jù)庫;第二篱瞎,做blast比對(duì)苟呐。
一.運(yùn)行建庫程序formatdb:
建庫的過程是建立目標(biāo)序列的索引文件,所用程序是formatdb俐筋。程序允許的輸入格式FASTA或者ASN.1格式牵素,通常我們使用FASTA格式的序列作為輸入。用于建庫的FASTA序列是db.seq澄者,formatdb的基本命令是:
formatdb -i db.seq [-options]
常用的參數(shù)有以下幾個(gè):
-p (T/F):-p參數(shù)的意義是選擇建庫的類型笆呆,"T"表示蛋白庫,"F"表示核酸庫粱挡。缺省值為"T"赠幕。
-o (T/F):-o參數(shù)的意義是判斷是否分析序列名并建立序列名索引。"T"表示建立序列名索引询筏,"F"表示不建立序列名索引榕堰。缺省值為"F"。
程序輸出:
如果建立的是核酸庫嫌套,輸出為db.seq.nhr逆屡、db.seq.nin圾旨、db.seq.nsq,如果選擇了參數(shù)"-o T"魏蔗,還會(huì)同時(shí)輸出db.seq.nsd砍的、db.seq.nsi、db.seq.nni莺治、db.seq.nnd挨约。
蛋白庫和核酸庫的輸出類似诫惭,相應(yīng)的輸出文件為:db.seq.phr夕土、db.seq.pin、db.seq.psq和db.seq.psd怨绣、db.seq.psi、db.seq.pni拷获、db.seq.pnd。
除了這些結(jié)果茧妒,程序還會(huì)輸出LOG文件(默認(rèn)為formatdb.log)拇砰,里面記錄了運(yùn)行時(shí)間牧氮、版本號(hào)、序列數(shù)量等信息逊谋。
幾點(diǎn)需要注意的問題:
(1)究恤、建庫以后理张,做blast比對(duì)的輸入文件就是建庫所得的文件db.seq.n或者db.seq.p,而不是原始的FASTA序列。也就是說病瞳,建庫以后,原始的序列文件是可以刪除的。
(2)涧狮、如果命令行中選擇了"-o T"档痪,并且目標(biāo)序列中含有g(shù)i號(hào)重復(fù)的的序列名時(shí)涉枫,程序會(huì)停止建庫并報(bào)錯(cuò)。例如腐螟,下列序列文件中出現(xiàn)了重復(fù)的序列名:
\>gi|112385745|gb|DQ859020.1| Oryza sativa (japonica cultivar-group) glutathione S-transferase 2 mRNA, complete cds
ATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGT
GCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCT
CAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT
......
CAAGCAGCACTCCCAGACAGACAACCAGATGCCCCTTCCTCTACCTAG
\>gi|112385745|gb|DQ859020.1| Oryza sativa (japonica cultivar-group) glutathione S-transferase 2 mRNA, complete cds
ATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGT
GCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCT
CAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT
......
運(yùn)行時(shí)就會(huì)報(bào)如下錯(cuò)誤:
[formatdb] ERROR: Failed to create index. Possibly a gi included more than once in the database.
(3)愿汰、如果輸入序列不符合FASTA格式或者ASN.1格式,程序會(huì)自動(dòng)退出乐纸,并報(bào)錯(cuò):
[formatdb] ERROR: Could not open db
(4)衬廷、核酸序列可以用于建核酸庫和蛋白庫,但是蛋白序列不能用于建核酸庫汽绢。
其他參數(shù)簡介:
-l:"-l 文件名"用來改變LOG文件的命名
-n:"-n 文件名"可以自定義生成的庫文件命名
-a:輸入文件為ASN.1格式
命令示例:
formatdb -i ecoli.nt -p F -o T
運(yùn)行此命令就會(huì)在當(dāng)前目錄下產(chǎn)生用于BLAST搜索的7個(gè)文件吗跋,一旦如上的formatdb命令執(zhí)行完畢,就不再需要ecoli.nt宁昭,可以移除跌宛。此時(shí),blastall可以直接使用积仗。
二.運(yùn)行比對(duì)程序blastall:
Blast的主程序是blastall疆拘。程序的輸入文件是query序列(-i 參數(shù))和庫文件(-d 參數(shù)),比對(duì)類型的選擇(-p 參數(shù))和輸出文件(-o 參數(shù))由用戶指定寂曹。其中“-p”參數(shù)有5種取值:
-p blastp:蛋白序列與蛋白庫做比對(duì)哎迄。
-p blastx:核酸序列對(duì)蛋白庫的比對(duì)回右。
-p blastn:核酸序列對(duì)核酸庫的比對(duì)。
-p tblastn:蛋白序列對(duì)核酸庫的比對(duì)漱挚。
-p tblastx:核酸序列對(duì)核酸庫在蛋白級(jí)別的比對(duì)翔烁。
這些元素就構(gòu)成了blast的基本運(yùn)行命令(以blastn為例):
blastall -i query.fasta -d database_prefix -o blast.out -p blastn
其中如果"-o"參數(shù)缺省,則結(jié)果輸出方式為屏幕輸出棱烂。
Blast的結(jié)果
包含的信息很豐富租漂。每一個(gè)query的比對(duì)結(jié)果從"BLASTN"開始阶女,記錄了版本和作者信息颊糜,"Query= "之后記錄了query名和序列長度。如果兩條序列沒有找到相關(guān)性信息秃踩,那么在"Searching.done"下方顯示"* No hits found **"衬鱼;反之,則在"Searching.done"下方記錄了該query序列和庫中每一條subject序列的比對(duì)概況列表憔杨,包括比對(duì)得分(Score)和期望值(E value)鸟赫。期望值是一個(gè)大于0的正實(shí)數(shù),代表兩條序列不相關(guān)的可能性消别。期望值是在整體上綜合評(píng)定兩條序列的相似性的參數(shù)抛蚤,期望值數(shù)值越小,序列相似性就越高寻狂,反之期望值數(shù)值越大岁经,相似性越低。比對(duì)的輸出結(jié)果會(huì)按照期望值從低到高的順序來排列蛇券。
Query序列和每一條subject序列比對(duì)結(jié)果的詳細(xì)信息以">"開始缀壤。需要注意的是同一個(gè)query和同一個(gè)subject可能會(huì)有多個(gè)比對(duì)結(jié)果,每一個(gè)具體的結(jié)果從"Score ="開始纠亚,記錄了比對(duì)得分塘慕、期望值、相似度百分比(identities)蒂胞、比對(duì)的空位和兩條序列的比對(duì)方向图呢,之后是比對(duì)條形圖,顯示了比對(duì)區(qū)域內(nèi)每個(gè)堿基的比對(duì)情況骗随。列出兩條序列的所有比對(duì)結(jié)果后岳瞭,羅列比對(duì)的參數(shù)設(shè)置和統(tǒng)計(jì)信息,至此兩條序列間的比對(duì)結(jié)果輸出完畢蚊锹。
對(duì)于蛋白相關(guān)的比對(duì)瞳筏,需要在blastall的運(yùn)行目錄下放置取代矩陣,并在運(yùn)行時(shí)指定此替代矩陣牡昆,程序才能正常運(yùn)行姚炕,否則blastall會(huì)報(bào)錯(cuò)退出摊欠。一般來講,蛋白比對(duì)時(shí)最常用的取代矩陣是BLOSUM62矩陣柱宦。
參數(shù)
僅僅運(yùn)行blast的基本運(yùn)行命令些椒,得到的結(jié)果往往不能清晰準(zhǔn)確的表示出有用的信息。最大的問題就是有太多的冗余掸刊,很多很短的比對(duì)都會(huì)出現(xiàn)在輸出結(jié)果中免糕,導(dǎo)致結(jié)果雜亂無章。
1.-e參數(shù):
-e(value)參數(shù)是用來過濾比對(duì)較差的結(jié)果的忧侧,用"-e"參數(shù)指定一個(gè)實(shí)數(shù)石窑,blast會(huì)過濾掉期望值大于這個(gè)數(shù)的比對(duì)結(jié)果。這樣不但簡化了結(jié)果蚓炬,還縮短了運(yùn)行時(shí)間和結(jié)果占用的空間松逊。比如在上一個(gè)例子中,在命令行中加上限制期望值:
blastall -i query.fasta -d db.seq -o blast.out -p blastn -e 1e-10
2.-F參數(shù):
-F(T/F)參數(shù)是用來屏蔽簡單重復(fù)和低復(fù)雜度序列的肯夏。如果選"T"经宏,程序在比對(duì)過程中會(huì)屏蔽掉query中的簡單重復(fù)和低復(fù)雜度序列;選"F"則不會(huì)屏蔽驯击。缺省值為"T"烁兰。
3.-m參數(shù):
“-e”參數(shù)能夠做到篩選適當(dāng)?shù)谋葘?duì)結(jié)果,但是即使如此徊都,blast的輸出結(jié)果仍然非常龐大并且難以處理沪斟。為了精簡輸出、節(jié)省存儲(chǔ)空間碟贾、實(shí)現(xiàn)更多功能并使結(jié)果易于處理币喧,blast提供了參數(shù)“-m (integer)”來設(shè)定輸出格式,可供選擇的值為0~11之間的整數(shù)袱耽,缺省為0杀餐。下面就通過實(shí)例逐個(gè)解析“-m”參數(shù)能夠?qū)崿F(xiàn)的輸出功能。輸入文件的內(nèi)容(針對(duì)-m 0到-m 7)朱巨,其中:加粗的區(qū)域是三條序列的重合位置史翘,注意subject1多一個(gè)堿基。
輸出:
-m 0:缺省參數(shù)冀续,顯示一個(gè)query和一個(gè)subject兩兩比對(duì)的信息琼讽。
-m 1:顯示query在所有subjects上的定位信息,并顯示一致性比對(duì)信息洪唐,subject之間不同的堿基會(huì)被標(biāo)出钻蹬。
-m 2:顯示query在所有subjects上的定位信息但是不顯示一致性比對(duì)信息,subject之間不同的堿基會(huì)被標(biāo)出凭需。
-m 3:顯示query在所有subjects的定位和一致性比對(duì)信息问欠,不顯示subjects之間的差異肝匆。
-m 4:顯示query在所有subjects上的定位信息但是不顯示一致性比對(duì)信息,不顯示subjects之間的差異顺献。
-m 5:顯示query在所有subjects上的定位信息但是不顯示每個(gè)堿基的比對(duì)信息旗国,補(bǔ)充"-"對(duì)齊比對(duì)區(qū)域,subjects之間不同的堿基會(huì)被標(biāo)出注整。
-m 6:顯示query在所有subjects上的定位信息但是不顯示每個(gè)堿基的比對(duì)信息能曾,補(bǔ)充"-"對(duì)齊比對(duì)區(qū)域,不顯示subjects之間的差異肿轨。
-m 7:輸出XML格式的blast結(jié)果寿冕。
-m 8:列表格式的比對(duì)結(jié)果。從左到右各列的意義依次是:query名萝招、subject名蚂斤、identity存捺、比對(duì)長度槐沼、錯(cuò)配數(shù)、空位數(shù)捌治、query比對(duì)起始坐標(biāo)岗钩、query比對(duì)終止坐標(biāo)、subject比對(duì)起始坐標(biāo)肖油、subject比對(duì)終止坐標(biāo)兼吓、期望值、比對(duì)得分森枪。
-m 9:帶注釋行的列表格式视搏。格式和-m 8一樣,只是在每個(gè)query的比對(duì)結(jié)果前面加了注釋行用以說明列表中各列的意義县袱。
-m 10和11:分別是ASN格式的文本文件和二進(jìn)制文件浑娜,這里就不做介紹了。
“-m”參數(shù)的值從1到6都是為了便于在subjects之間做比較而設(shè)立的功能式散;8和9保留了所有比對(duì)結(jié)果的原貌筋遭,只是統(tǒng)計(jì)成了列表的格式,從而大幅度降低了存儲(chǔ)空間的消耗暴拄,并使結(jié)果更加清晰易讀漓滔。但是m8/m9格式也有相應(yīng)的缺點(diǎn),就是損失了一部分比對(duì)信息乖篷,除了序列長度信息和比對(duì)條形圖以外响驴,還會(huì)在blastx、tblastn和tblastx的比對(duì)中損失關(guān)鍵的相位信息撕蔼,這是要盡量避免的豁鲤。因此在大規(guī)模的blastn比對(duì)任務(wù)中石蔗,往往要采用m8格式的輸出結(jié)果來節(jié)省空間;而在小規(guī)模高精度比對(duì)中畅形,通常用默認(rèn)的輸出格式养距,再用其他程序來提取結(jié)果中的有用信息。
4.-v參數(shù)和-b參數(shù):
這兩個(gè)參數(shù)都是限制輸出結(jié)果的數(shù)量的日熬。
-v (integer):規(guī)定輸出中每一個(gè)query的比對(duì)列表最多顯示subject個(gè)數(shù)(即"Sequences producing significant alignments:"后面列出的subjects數(shù)目)棍厌,缺省為500條。
-b (integer):規(guī)定輸出中每個(gè)query最多顯示與多少條subject的比對(duì)條形圖(即每條query的結(jié)果中">"的個(gè)數(shù))竖席,缺省為250條耘纱。
如果同時(shí)使用"-m 8"參數(shù),則輸出結(jié)果中的subjects數(shù)量和"-b"參數(shù)規(guī)定的數(shù)量一致毕荐。
在database數(shù)據(jù)中能和query比上的subjects過多的時(shí)候束析,這兩個(gè)參數(shù)就能夠幫助我們把其中比對(duì)結(jié)果最好的一部分挑出來,屏蔽掉相對(duì)差的結(jié)果憎亚。當(dāng)然有些時(shí)候我們是不希望屏蔽掉這些結(jié)果的员寇,比如在某個(gè)大基因組的Contig數(shù)據(jù)集中統(tǒng)計(jì)一條轉(zhuǎn)座子的重復(fù)次數(shù),就需要把"-v"和"-b"參數(shù)定的足夠大以顯示所有結(jié)果第美。
5.-T參數(shù):
-T (T/F)參數(shù)用于決定是否輸出html格式的比對(duì)結(jié)果蝶锋,缺省值為"F"。選擇"-T T"就會(huì)輸出html格式的比對(duì)結(jié)果什往。如果在建庫過程中選擇了"-o T"扳缕,并且database數(shù)據(jù)中的序列是以gi號(hào)命名的,那么在html結(jié)果中以gi號(hào)命名的相應(yīng)序列會(huì)自動(dòng)鏈接到NCBI的數(shù)據(jù)庫上别威。
6.-M參數(shù):
做有關(guān)蛋白的比對(duì)時(shí)躯舔,需要用"-M"參數(shù)指定取代矩陣,比如BLOSUM45省古、BLOSUM62粥庄、BLOSUM80等,缺省值為BLOSUM62衫樊。這三個(gè)矩陣都可以在blast安裝目錄的data目錄下找到飒赃。BLOSUM矩陣后面的數(shù)字代表比對(duì)結(jié)果允許的最低相似度百分比,我們可以根據(jù)不同的精度需求選擇不同的取代矩陣科侈。
7.-W參數(shù):
-W(integer):指定做比對(duì)時(shí)的“字”的長度载佳。缺省值是0(代表blastn的搜索字長為11,megablast是28臀栈,其他是3)蔫慧。這個(gè)參數(shù)多數(shù)時(shí)候不用調(diào)整,但是需要做短序列的比對(duì)時(shí)权薯,可能要適當(dāng)調(diào)短字長姑躲,來增加比對(duì)的敏感度睡扬。
以上為blastall 的常用參數(shù),對(duì)于一些不常用的參數(shù)黍析,可以查找blast的參數(shù)表卖怜,此參數(shù)表可以通過直接運(yùn)行blastall得到。
Blastall常用參數(shù)簡析
BLAST (Basic Local Alignment Search Tool) 基本局部比對(duì)搜索工具阐枣,是一套在蛋白質(zhì)數(shù)據(jù)庫或DNA數(shù)據(jù)庫中進(jìn)行相似性比較的分析工具马靠,它是基于Altschul等人在J.Mol.Biol上發(fā)表的方 法(J.Mol.Biol.215:403-410(1990)),在序列數(shù)據(jù)庫中對(duì)查詢序列進(jìn)行同源性比對(duì)工作。BLAST程序 能迅速與公開數(shù)據(jù)庫進(jìn)行相似性序列比較蔼两,利用比較結(jié)果中的得分對(duì)序列相似性進(jìn)行說明甩鳄。 BLAST可以 對(duì)一條或多條序列(可以是 任何形式的序列)在一個(gè) 或多個(gè)核酸或蛋白序列庫中進(jìn)行比對(duì),并且從最初的BLAST發(fā)展到現(xiàn)在NCBI提供的BLAST2.0,已將有缺口 的比對(duì)序列也考慮在內(nèi)了额划。BLAST可處理任何數(shù)量的序列,包括蛋白序列和核酸序列;也可選擇多個(gè)數(shù)據(jù)庫但數(shù)據(jù)庫必須是同一類型的,即要么都是蛋白數(shù)據(jù)庫要么都是核酸數(shù)據(jù)庫妙啃。所查詢的序 列和調(diào)用的數(shù)據(jù)庫則可以是任何形式的組合,既可以是核酸序列到蛋白庫中作查詢,也可以是蛋白序列到蛋白庫中作查詢,反之亦然。 由于Blast功能強(qiáng)大俊戳,檢索速度快揖赴, Blast工具流行于世界上幾乎所有的生物信息中心。
BLAST 提供的檢索功能:
BLASTn: 核酸序列到核酸庫中的一種查詢品抽。庫中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)储笑。 BLASTp: 蛋白序列到蛋白庫中的一種查詢甜熔。庫中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)圆恤。
BLASTx: 核酸序列到蛋白庫中的一種查詢。先將核酸序列翻譯成蛋白序列(一條核酸序列會(huì)被翻譯成可能的6條蛋白)腔稀,再對(duì)每一條作一對(duì)一的蛋白序列比對(duì)盆昙。
TBLASTn: 蛋白序列到核酸庫中的一種查詢。與BLASTx相反焊虏,它是將庫中的核酸序列翻譯成蛋白序列淡喜,再同所查序列作蛋白與蛋白的比對(duì)。
TBLASTx: 核酸序列到核酸庫中的一種查詢诵闭。此種查詢將庫中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會(huì)產(chǎn)生6條可能的蛋白序列)炼团,這樣每次比對(duì)會(huì)產(chǎn)生36種比對(duì)陣列。
在使用blastall對(duì)測(cè)試序列在序列數(shù)據(jù)庫中進(jìn)行查詢之前 疏尿,用戶需要對(duì)blastall命令涉及的主要常用參數(shù)有充分的理解瘟芝。
用戶可以在命令行方式下運(yùn)行:blastall –
下面對(duì)blastall主要常用參數(shù)進(jìn)行說明:
blastall -p blastn d db.fasta -i input.fasta -o output.blast -e 1e-30 -b 2 -v 2 -m 8 -I T -a 2
-p Program Name [String]
所用程序名稱[String],用戶可以根據(jù)需要從blastn褥琐,blastp锌俱,blastx, tblastn敌呈,tblastx中任選一程序贸宏。
-d Database [String] default = nr
所用序列數(shù)據(jù)庫的名稱 [String]造寝,默認(rèn)為:nr,本文例為:ecoli.nt
-i Query File [File In] default = stdin
所用查詢序列文件[File In]吭练,默認(rèn)為:stdin诫龙,本文例為 test.txt
-e Expectation value (E) [Real] default = 10.0
期望值[Real] 默認(rèn)為10.0描述搜索某一特定數(shù)據(jù)庫時(shí),隨機(jī)出現(xiàn)的匹配序列數(shù)目鲫咽。
-m alignment view options:
比對(duì)顯示選項(xiàng)赐稽,其具體的說明可以用以下的比對(duì)實(shí)例說明 0 = pairwise, 顯示具體匹配信息(缺省)
-o BLAST report Output File [File Out] Optional default
=stdout
BLAST報(bào)告的輸出文件[File Out] 默認(rèn)為:stdout
-F Filter query sequence (DUST with blastn, SEG with others) [String] default = T 查詢序列過濾浑侥,將那些給出影響比對(duì)結(jié)果的低 復(fù)雜度區(qū)域過濾掉姊舵。用blastn進(jìn)行查詢的序列用DUST程序過濾,其他的用SEG過濾寓落。對(duì)DUST和SEG的詳細(xì)情況括丁,用戶可以自己查詢資料。
-G Cost to open a gap (zero invokes default behavior)
[Integer] default = 0 空位開放罰分[Integer]
(設(shè)為0則調(diào)用默認(rèn)行為) 默認(rèn)為0分.
-E Cost to extend a gap (zero invokes default behavior)
[Integer] default = 0
空位擴(kuò)展罰分[Integer] (設(shè)為0則調(diào)用默認(rèn)行為) 默認(rèn)為0分
-X X dropoff value for gapped alignment (in bits) (zero invokes default behavior) blastn 30, megablast 20, tblastx 0, all others 15 [Integer]伶选,default = 0
-I Show GI's in deflines [T/F] default = F
提示行顯示GI number 默認(rèn)不顯示
-q Penalty for a nucleotide mismatch (blastn only)
[Integer] default = -3
核酸序列基對(duì)不匹配所罰分?jǐn)?shù)(blastn only) [Integer]默認(rèn)罰3分
-r Reward for a nucleotide match (blastn only)
[Integer] default = 1
核苷酸序列基對(duì)匹配所加分?jǐn)?shù)(blastn only) [Integer]默認(rèn)加1分
-g Perfom gapped alignment (not available with tblastx) [T/F] default = T
是否執(zhí)行帶缺口的比對(duì)(not available with tblastx)默認(rèn)為是& nbsp;
-a Number of processors to use [Integer] default = 1
使用處理器的數(shù)目[Integer] 默認(rèn)為單機(jī)
-B Number of concatenated queries, for blastn and tblastn
[Integer] Optional default = 0
需要聯(lián)配查詢的序列數(shù)目 for blastn and tblastn
[Integer]默認(rèn)為單序列
以上所列只是blastall命令部分參數(shù)的說明史飞,用戶在對(duì)自己的序列進(jìn)行BLAST時(shí)可根據(jù)自己的需要選擇參數(shù),以便得到自己需要的查詢報(bào)告仰税。同時(shí)构资,參數(shù)選擇的正確與否也是blastall程序能否順利執(zhí)行的關(guān)鍵。