1.序列比對的作用
大致分為兩種:
- 比對兩個(gè)序列的相似性活翩,比如TA克隆序列和目標(biāo)序列是否一致烹骨;
- 尋找與目標(biāo)序列最接近的序列,比如生成進(jìn)化樹等
比對中最主要的因素:
- 比對算法纱新,包括global, local, semi-local
- 打分體系
這兩者都對比對的結(jié)果會(huì)有關(guān)鍵影響
打分體系
1. 引入三個(gè)概念展氓,gap 和 match,mismatch
gap:用"-"表示
match:用"|"表示匹配
mismatch:用"·"
13 match, 4 gap, 2 mismatch
2.哪個(gè)序列在上方是否影響比對結(jié)果脸爱?
不影響比對結(jié)果遇汞,即得分;但會(huì)影響結(jié)果的解釋。
如下圖空入,左右得分相同络它,但是左圖解釋為下鏈比上鏈有AAA的deletion和一個(gè)G的insertion;右圖則為下鏈比上鏈有AAA的insertion和一個(gè)G的deletion歪赢。
比對示意
3.打分
含義:通過給不同狀態(tài)賦予不同的分?jǐn)?shù)化戳,計(jì)算兩條鏈比對最終得分,取得分最高為比對最優(yōu)結(jié)果埋凯。
比如:
match=5 分
mismatch = -4 分
gap = -10 分
gap長度加1 = -0.5 分
如下比對結(jié)果中点楼,第二種比對得分最高,因此是最優(yōu)比對白对。
中間最優(yōu)
但是大多數(shù)情況下掠廓,某一條鏈都比對完即比對結(jié)束,因此以上比對結(jié)果修改為:
左側(cè)最優(yōu)
但是實(shí)際打分矩陣更加復(fù)雜
以下是一個(gè)NCBI上的打分矩陣甩恼,字母含義見堿基單字母命名方法https://www.cnblogs.com/triple-y/p/10151803.html
打分矩陣
打分矩陣不包括gap的罰分
SAM文件中的CIGAR
CIGAR (Compact Idiosyncratic Gapped Alignment Report):表示序列和比對基因組的比對結(jié)果
比如以下序列:
意思是:4mismatch---3個(gè)deletion---3個(gè)match---1個(gè)mismatch---2個(gè)match...