- 序列模式
sequence pattern: 以特定的規(guī)則來描述堿基序列俺孙,
概率性的規(guī)則稱為motifs,如:GC后的堿基80%為A琳猫,20%為T
Adapter是最簡單的一種規(guī)則
K-mers:一段序列中所有字符串長度為k的組合,k小于等于序列長度
如一段序列: ATGCA
2-mers:AT, TG, GC, CA
3-mers:ATG, TGC, GCA
4-mers:ATGC, TGCA
5-mers:ATGCA
K-mers用處:
指出錯誤:k-mers通常在序列出錯時出現(xiàn)
分類:特定的k-mers可以識別基因 - 序列對比
為確定兩個或多個序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列科汗。
將兩個或多個序列排列在一起,標(biāo)明其相似之處策肝。序列中可以插入間隔(通常用短橫線“-”表示)肛捍。對應(yīng)的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質(zhì)中是氨基酸殘基的單字母表示)排列在同一列上之众。
符號:
"-": gap
"|": match
".": dismatch
CIGAR string: 在SAM文件中的一種對比格式
比如:4M3D3M1X1M2D
M: Match
D: Deletion
X: Mismatch
如何選擇最好的對比序列:沒有最好的結(jié)果拙毫,分?jǐn)?shù)越高越好
分?jǐn)?shù)判定:
5分:match
-4分:mismatch
-10分:gap
-0.5分:extending an open gap
分?jǐn)?shù)可以隨著打分規(guī)則的改變而改變
Global alignment:總序列對比是兩條序列的每一個堿基都互相配對,即使兩個堿基不匹配或者一個堿基與一個gap配對
Local alignment: 局部對比
局部對比是指尋找分?jǐn)?shù)最高的配對方式棺禾,為最后可能得到一條很短的配對序列但是是得分最高的