bowtie2是當(dāng)前最流行的短序列比對(duì)軟,SAM(SequenceAlignment/Map)格式是一種通用的比對(duì)格式讼育,用來(lái)存儲(chǔ)reads到參考序列的比對(duì)信息SAM是一種序列比對(duì)格式標(biāo)準(zhǔn)帐姻, 由sanger制定,是以TAB為分割符的文本格式奶段。
主要應(yīng)用于測(cè)序序列mapping到基因組上的結(jié)果表示饥瓷,當(dāng)然也可以表示任意的多
重比對(duì)結(jié)果
SAM分為兩部分:注釋信息和對(duì)比結(jié)果
注釋信息以@開(kāi)頭
@HD:說(shuō)明符合標(biāo)準(zhǔn)的版本。對(duì)比序列的排列順序
@SQ:參考序列說(shuō)明
@RG:比對(duì)上的序列(read)說(shuō)明
@PG:使用的程序說(shuō)明
@CO:任意的說(shuō)明信息
比對(duì)結(jié)果部分
每一行代表一個(gè)片段的比對(duì)信息痹籍,包括11個(gè)必須的字段和一個(gè)可選字段呢铆,字段之間用tag分割
11個(gè)必須字段:
1:比對(duì)片段(read)的編號(hào)
2.位標(biāo)識(shí)(flag)每一種數(shù)字代表一種情況,這里的值是符合情況的數(shù)字和
3.參考序列的編號(hào)蹲缠,沒(méi)有比對(duì)上的序列棺克,這里為 *
4.比對(duì)上的位置 從1開(kāi)始計(jì)數(shù),沒(méi)有比對(duì)上此處為0
5.MAPQ:mapping的質(zhì)量
6.CIGAR:簡(jiǎn)要比對(duì)信息表達(dá)式 以參考序列為基礎(chǔ)线定,使用數(shù)字加字幕表示比對(duì)結(jié)果
比如3S6M1P1I4M娜谊,前三個(gè)堿基被剪切去除了,然后6個(gè)比對(duì)上了斤讥,
然后打開(kāi)了一個(gè)缺口纱皆,有一個(gè)堿基插入,最后是4個(gè)比對(duì)上了周偎,是按照順序的
“M”表示 match或 mismatch抹剩;
“I”表示 insert;
“D”表示 deletion蓉坎;
“N”表示 skipped(跳過(guò)這段區(qū)域)澳眷;
“S”表示 soft clipping(被剪切的序列存在于序列中);
“H”表示 hard clipping(被剪切的序列不存在于序列中)蛉艾;
“P”表示 padding钳踊;打開(kāi)缺口
“=”表示 match衷敌;
“X”表示 mismatch(錯(cuò)配,位置是一一對(duì)應(yīng)的)
7.下一個(gè)片段比對(duì)上的參考序列的標(biāo)號(hào)拓瞪,沒(méi)有另外的片段這里為 * 缴罗,同一個(gè)片段 =
8.下一個(gè)片段比對(duì)上的位置,如果不可用祭埂,此處為0
9.Template的長(zhǎng)度面氓,最左邊得為正,最右邊的為負(fù)蛆橡,中間的不用定義正負(fù)舌界,
不分區(qū)段(single-segment)的比對(duì)上,或者不可用時(shí)泰演,此處為0呻拌;
10.比對(duì)上的序列片段的序列信息,如果不存儲(chǔ)此類信息睦焕,此處為’*‘藐握,
長(zhǎng)度=簡(jiǎn)要比對(duì)信息表達(dá)式算出來(lái)的結(jié)果
11.序列的質(zhì)量信息,格式同F(xiàn)ASTQ一樣