alignments 代表比對上的兩個序列
hits 表示兩個序列比對上的片段
Score 比對得分绞呈,如果序列匹配上得分所计,不一樣,減分渴邦,分值越高,兩個序列相似性越高
E Value 值越小拘哨,越可信谋梭,相對的一個統(tǒng)計值。這與你所使用的數(shù)據(jù)庫大小有關(guān)
Length 輸入序列的長度
Identities 一致性倦青,就是兩個序列有多少是一樣的
Query 代表輸入序列
Sbjct 代表數(shù)據(jù)庫中的序列
blast是區(qū)段比對瓮床,對于給定的兩個序列,blast會把具有相識性的片段(hit)找出來产镐,顯示的是hit的信息
E值的經(jīng)驗解釋如下隘庄。如果e<1e-50(或1×10-50),那么數(shù)據(jù)庫匹配應(yīng)該是同源關(guān)系的結(jié)果癣亚,這是一個非常高的置信度丑掺。如果e介于0.01和1e-50之間,則可以將匹配視為同源性的結(jié)果述雾。如果e介于0.01和10之間街州,則認(rèn)為匹配不重要,但可能暗示存在暫時的遠(yuǎn)程同源關(guān)系玻孟。需要額外的證據(jù)來確認(rèn)暫時的關(guān)系唆缴。如果e>10,考慮中的序列要么不相關(guān)黍翎,要么通過極遠(yuǎn)的關(guān)系相關(guān)面徽,這些關(guān)系低于當(dāng)前方法的檢測極限。
由于e值受數(shù)據(jù)庫大小的比例影響匣掸,一個明顯的問題是斗忌,隨著數(shù)據(jù)庫的增長质礼,給定序列匹配的e值也會增加。由于兩個序列之間真正的進(jìn)化關(guān)系保持不變织阳,隨著數(shù)據(jù)庫的增長眶蕉,序列匹配的可信度降低意味著隨著數(shù)據(jù)庫的擴大,人們可能會“失去”先前檢測到的同系物唧躲。因此造挽,需要一種替代E值計算的方法。
蛋白質(zhì)由20種不同的aas組成弄痹,如果你將兩個不相關(guān)的蛋白質(zhì)序列(或任何其他隨機a a序列)與任何長度對齊饭入,你將擁有5%的隨機特性(對于DNA和RNA序列,隨機特性為25%肛真,因為它們是由不同堿基a谐丢、t、c蚓让、g組成的)乾忱。
Identities?35%意味著序列中35%的aa與數(shù)據(jù)庫中的其他序列匹配。取決于你在尋找什么:——如果你有未知的蛋白質(zhì)序列历极,你想知道同源序列窄瘟,關(guān)于身份的信息(甚至35%)是有價值的,——如果你知道蛋白質(zhì)趟卸,你需要確認(rèn)序列蹄葱,身份35%是小的,可能表明在你的分析過程中出了問題锄列。
BLASTP中還有一個基于相似性的參數(shù)ppos图云。ppos是pident+(相似但不相同的aa匹配的百分比)。兩個pident高于20%和ppos高于30%的aa序列非常接近邻邮,可以稱為同源序列竣况。在NA序列中,PIDENT 40%及以上是可以的饶囚。
p值:取決于查詢和db長度帕翻,但我認(rèn)為小于10^-5的p值表示一個關(guān)系鸠补。
bitscore:很大程度上取決于查詢長度萝风。將bitscore與您的qlen進(jìn)行比較,我認(rèn)為如果一個命中的bitscore等于或大于qlen的0.7紫岩,那么查詢和主題就足夠接近了规惰。
https://www.biostars.org/p/187230/
http://boyun.sh.cn/bio/?p=1453
http://boyun.sh.cn/bio/?p=1632