?前期相關(guān)推送(序列比對結(jié)果中的一些值的意義):
【現(xiàn)學(xué)現(xiàn)賣】序列比對之identity VS similarity
【現(xiàn)學(xué)現(xiàn)賣】序列比對之bit-score VS E-value
在bit-score和E-value的公式中,S為原始矩陣得分东揣,其他常數(shù)與選擇的算法相關(guān)妒峦。那么什么是序列比對的矩陣得分痒留?序列比對都有哪些算法呢改化?
一食拜、序列比對
1. 序列比對的理論基礎(chǔ)
基礎(chǔ)是進(jìn)化學(xué)說蔽介,如果兩個序列相似性高艾凯,則推測同源/有共同的進(jìn)化祖先献幔,它們是經(jīng)過序列殘基的一些列變化(替換、缺失趾诗、重組等)演化而來的蜡感。
比如下面兩個序列:
這兩條序列要實現(xiàn)更好的比對,就會引入空位恃泪。序列殘基的替換導(dǎo)致單個殘基不匹配(紅色短線)郑兴,殘基的插入或缺失導(dǎo)致空位(紅色長線)。
2. 序列比對的兩種數(shù)學(xué)模型
主要模型是全局比對(Global alignment)和局部比對(Local alignment)贝乎。它們分別從整體和局部反映序列的特征情连,現(xiàn)實使用中,局部比對使用較多览效,生物序列往往不會全長相似却舀,而是局部相似虫几,所以局部比對有更高的靈敏度,結(jié)果更具生物學(xué)意義(當(dāng)然如果本身就是選定的一段很短的目標(biāo)序列挽拔,那么兩種模型的結(jié)果應(yīng)該差異不大辆脸;換句話說,全局比對適合比較長度相似的序列篱昔,而局部比對可以比對長度相差較大的序列)每强。
3.序列比對打分矩陣
(1)核苷酸序列
等價矩陣:相同核苷酸則賦值為1,不同為0州刽。
BLAST矩陣:經(jīng)驗總結(jié)。
轉(zhuǎn)移矩陣/轉(zhuǎn)換-顛換矩陣:嘌呤-嘧啶的轉(zhuǎn)換/顛換+經(jīng)驗總結(jié)浪箭。
(2)氨基酸序列(表太多穗椅,太大了,我就不在這里粘貼了)
氨基酸序列的這兩個常用打分矩陣都屬于替換矩陣奶栖,主要是考慮在進(jìn)化過程中匹表,不同氨基酸的替代對蛋白質(zhì)功能和結(jié)構(gòu)的影響不同,所以用簡單的比對相同或者不同不足以描述兩個氨基酸殘基的關(guān)系宣鄙。
PAM矩陣:Point accepted mutation matrices袍镀。基于進(jìn)化的點突變模型冻晤,分析同源蛋白在進(jìn)化中氨基酸變化的可能性苇羡。有PAM1-250,后面的數(shù)字越小表示親緣關(guān)系越近鼻弧,PAM1是similarity>85%的序列計算產(chǎn)生的设江。
BLOSUM矩陣:Blocks amino acid substitution matrices∪列基于蛋白質(zhì)模塊數(shù)據(jù)庫叉存,以序列片段為基礎(chǔ)。有BLOSUM45度帮,62歼捏,80等,數(shù)字越大笨篷,親緣關(guān)系越近瞳秽,BLOSUM80是identity>80%的序列計算得到的。
根據(jù)比對的兩個序列的親緣關(guān)系遠(yuǎn)近選擇合適的矩陣冕屯,如果不清楚寂诱,一般選擇PAM120或BLOSUM62。
二安聘、序列兩兩比對
經(jīng)典算法(動態(tài)規(guī)劃算法)是Needleman-Wunsch算法(整體比對算法)和Smith-Waterman算法(局部比對算法)痰洒。兩種算法均可以用于核苷酸和氨基酸序列瓢棒,給定空位罰值和打分矩陣后,給出最高比對值的排列丘喻。
三脯宿、多序列比對
多序列比對的算法是基于漸進(jìn)比對,在序列兩兩比對算法的基礎(chǔ)上逐步優(yōu)化的結(jié)果泉粉。
目前發(fā)展出來的程序有CLUSTALW(累進(jìn)算法)连霉,MUSCLE(迭代算法),MAFFT等(上圖選項嗡靡,其中CLUSTALW最為人熟知跺撼,傳說MUSCLE和MAFFT的精度和速度都優(yōu)于CLUSTALW,由于我的數(shù)據(jù)還算簡單讨彼,也不多歉井,感覺沒什么大差別」螅考慮到它們迭代可以糾正初始比對錯誤哩至,所以理論上精度會提高)。
四蜜自、序列數(shù)據(jù)庫搜索
數(shù)據(jù)庫搜索可以說是序列相似性比對最有價值的應(yīng)用菩貌,我最熟悉的是BLAST和antiSMASH。
BLAST算法
將查詢序列分為短片段(局部比對)重荠,篩選庫中具備這些片段的序列箭阶,然后將匹配的序列片段延伸(插入,gap等)晚缩,根據(jù)矩陣計分排序尾膊,顯示結(jié)果。
antiSMASH工具算法
它的算法是CASSIS(Cluster Assignment by Islands of Sites)荞彼。antiSMASH是對微生物次生代謝產(chǎn)物基因簇的序列搜索工具冈敛,由于生成這些化合物的基因都是成簇的,所以它的算法中重要的是找到基因簇鸣皂。