---------------
Nickier
2019-01-12
---------------
sam是一種序列比對(duì)后的輸出格式间雀,以tab作為分隔符色冀,包括頭部信息和比對(duì)信息。其中頭部信息必須在比對(duì)信息之前。頭部信息的開頭是@幔嗦,但是比對(duì)行不是。每一個(gè)比對(duì)行有11個(gè)重要的比對(duì)信息元素沥潭,如果比對(duì)位置和校準(zhǔn)信息等邀泉。
關(guān)于sam/bam文件的格式,網(wǎng)上已經(jīng)有很多介紹,但是很多沒有結(jié)合igv可視化汇恤,所以不容易理解庞钢,今天,我們將sam/bam文件結(jié)合igv可視化因谎,方便大家理解基括。
Example
ST-E00522:463:HT3TGCCXY:1:1210:30959:4702 163 chr1 10070 0 44S61M = 10028 61 CCCTAATCCCTAACCCCTCACCCTCACCCTCACCTTCACCCTCCCCCTAATCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACC .==FB<+-+,CA<9*A8<-146<DFD@8==<BE+18@BCC6=E*@E5E+87D2E,AFFFECEFFFF9/DE8>BEF@FF4/A6A>/6*C14A5@EG+/>;C??DDD MC:Z:6M1I6M1I91M MD:Z:6C54 PG:Z:MarkDuplicates RG:Z:HT_11_DHE16602 NM:i:1 MQ:i:0 AS:i:56 XS:i:54
頭文件
每個(gè)標(biāo)題行以字符“@”開頭,后面是兩個(gè)字母的記錄類型代碼财岔。在標(biāo)題中风皿,每一行都是由制表符分隔的,除了@CO行匠璧,每個(gè)數(shù)據(jù)字段都遵循格式“TAG:VALUE”桐款,其中TAG是一個(gè)兩個(gè)字母的字符串,定義了內(nèi)容和值的格式夷恍。每個(gè)標(biāo)題行應(yīng)該匹配:/ ^ @[A-Za-z][A-Za-z](\ t[A-Za-z][A-Za-z0-9]:[- ~]+)+ $ /或/ ^ @CO \ t魔眨。* /答倡。包含小寫字母的標(biāo)記保留給最終用戶请垛。
主要信息
每一個(gè)比對(duì)行有11個(gè)必填選項(xiàng)。這些字段都是以相同順序出現(xiàn)花盐,而且必須出現(xiàn)执虹,但是這些值可以為0或*(取決于字段)如果無法獲得相應(yīng)的信息拓挥。下表概述了SAM格式的強(qiáng)制字段:
Col | Field | Brief description |
---|---|---|
1 | QNAME | 查詢模板名稱 |
2 | FLAG | 位標(biāo)記,template mapping情況的數(shù)字表示袋励,每一個(gè)數(shù)字代表一種比對(duì)情況侥啤,這里的值是符合情況的數(shù)字相加總和 |
3 | RNAME | 參考序列名稱 |
4 | POS | 基于1的最左比對(duì)位置 |
5 | MAPQ | MAPping質(zhì)量 |
6 | CIGAR | CIGAR字符串 |
7 | RNEXT | 比對(duì)到的參考(染色體)名字 |
8 | PNEXT | 配對(duì)到的第一個(gè)堿基的位置 |
9 | TLEN | 可以理解為文庫插入片段長度 |
10 | SEQ | 序列片段 |
11 | QUAL | phred -scale基本質(zhì)量+33的ASCII碼 |
1.QNAME:查詢模板名稱。具有相同QNAME的read片段被認(rèn)為來自相同的模板茬故。QNAME ' * '表示信息不可用盖灸。
2.FLAG 位標(biāo)記,下表是每一個(gè)代號(hào)代表的意義:
Bit | Description |
---|---|
1 | read是pair中的一條(read表示本條read磺芭,mate表示pair中的另一條read) |
2 | pair一正一負(fù)完美的比對(duì)上 |
4 | 片段未比對(duì)上 |
8 | mate沒有比對(duì)上 |
16 | 這條read反向比對(duì) |
32 | mate反向比對(duì) |
64 | 這條read是read1 |
128 | 這條read是read2 |
256 | 第二次比對(duì) |
512 | 沒有通過質(zhì)量控制 |
1024 | read是PCR或光學(xué)副本產(chǎn)生 |
2048 | 輔助比對(duì)結(jié)果 |
如下面這兩條互相配對(duì)的reads中
ST-E00522:463:HT3TGCCXY:1:1217:29264:10662 99 chr1 10004 4 102M1I44M3S = 10195 236 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCTAACCCTAACCCGAACCCGAACCCGAACCCCAACCCCAACCCGAACCCCAACCCGAACCCTAACCCTAACCCTAACCCTAA >CDHDEEEEFBDEEEFBEDCEFBEEEEEBEEECFBEDEEDCFDFFDCECCE4:E-->4=BCB9-?>?>F4.EABA@>E:C9&<E(-B0<B@CF0CE*CC,11:B>*==DCC&DE9C;,=@DAB&<EBCC2>D?A?F9A?>8@AFC;>57A XA:Z:chr22,-50808000,150M,11;chr22,-50808169,3S89M1I12M8D6M1D39M,16;chr1,+180761,41M2D44M3I17M3D45M,15;chr3,+10614,28M1I43M1D6M1D28M1D29M1D15M,11;chr22,-50808294,48M5D27M1I74M,16; MC:Z:7S45M MD:Z:63T17T5T5T5T10T5T5T23 PG:Z:MarkDuplicates RG:Z:HT_11_DHE16602 NM:i:9 MQ:i:0 AS:i:99 XS:i:95
ST-E00522:463:HT3TGCCXY:1:1217:29264:10662 147 chr1 10195 0 7S45M = 10004 -236 CCCCCACCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACC 7F=0+.<>E?;+<F?CBEBEDBBEB?/9ACBDEEAD@DC@A.0D@CCB03?< MC:Z:102M1I44M3S MD:Z:45 PG:Z:MarkDuplicates RG:Z:HT_11_DHE16602 NM:i:0 MQ:i:4 AS:i:45 XS:i:47
第一條reads的第二列是99赁炎,即
99
=64
(這條reads是read1)
+32
(這條reads是正向比對(duì))
+2
(pair一正一負(fù)完美的比對(duì)上)
+1
(這條reads是pair中的一條)
在上圖中,可以看到linux界面中第一條和第二條reads即就是前面展示相互配對(duì)的reads钾腺♂愕妫可以看到兩條reads都比對(duì)到了chr1上了,此時(shí)就得到了
1
和2
放棒。而在igv中可以看到第一條reads(鼠標(biāo)所在處)的方向是向右側(cè)姻报,即正向比對(duì),就得到了數(shù)值32
间螟。至于64
的由來吴旋,請(qǐng)看下圖损肛。3.RNAME:比對(duì)的參考序列名稱,如果@SQ頭部行存在荣瑟,RNAME(如果不是“”)必須出現(xiàn)在一個(gè) SQ-SN標(biāo)記中治拿。沒比對(duì)上此處就是“”。然而笆焰,一個(gè)未必對(duì)的片段也有一個(gè)坐標(biāo)以便排序劫谅。如果RNAME 是“*”,也就沒有 POS 和 CIGAR仙辟。
4.POS:于1的第一個(gè)匹配基的最左映射位置同波。參考序列中的第一個(gè)基的坐標(biāo)是1。對(duì)于沒有坐標(biāo)的未映射讀取叠国,POS設(shè)置為0未檩。如果POS為0,RNAME和CIGAR也就沒有意義粟焊。
5.MAPQ:mapping質(zhì)量冤狡,等于?10log 10Pr(映射位置是錯(cuò)的),四舍五入到最近的整數(shù)项棠,值255表示映射質(zhì)量特別差悲雳。
6.CIGAR:CIGAR字符串。下表為CIGAR字符串的解釋(‘*’表示無值)
Op | BAM | Description |
---|---|---|
M | 0 | 比對(duì)匹配(可以是序列匹配或不匹配) |
I | 1 | 插入到參考 |
D | 2 | 從參考刪除 |
N | 3 | 參考的跳過的區(qū)域 |
S | 4 | 軟剪切(被剪切的序列存在于序列中) |
H | 5 | 硬剪切(被剪切的序列不存在于序列中) |
P | 6 | 填充(從填充引用中無聲刪除) |
= | 7 | 序列匹配 |
X | 8 | 序列不匹配 |
- H 值出現(xiàn)在最初或者最后操作中
- S 可證在他們和CIRAG末尾字符串中只有H操作
- 對(duì)于mRNA到基因組的比對(duì)香追,一個(gè)N操作符代表內(nèi)含子合瓢。對(duì)于其他類型的比對(duì),沒有定義N的解釋透典。
- M/I/S/=/X操作的長度之和等于SEQ的長度晴楔。
7.RNEXT::mate的reference sequence name,實(shí)際上就是mate比對(duì)到的染色體號(hào)峭咒,若是沒有mate税弃,則是*
8.PNEXT:如果沒有這個(gè)信息(沒比對(duì)上)就是0
9.TLEN:如果R1端的read和R2端的read能夠mapping到同一條Reference序列上(即第三列RNAME相同),則該列的值表示第8列減去第4列加上第6列的值凑队,R1端和R2端相同id的reads其第九列值相同则果,但該值為一正一負(fù),R1文件的reads和R2文件的reads漩氨,相同id的reads要相對(duì)來看西壮。在進(jìn)行該第列值的計(jì)算時(shí),如果取第6列的數(shù)值叫惊,一定要取出現(xiàn)M的值款青,S或H的值不能取。
10.SEQ:reads片段赋访。如果序列不存在可都,就是。如果不是蚓耽,這個(gè)序列的長度等于CIGAR中 M/I/S/=/X的總和渠牲。=表示他的基礎(chǔ)字段(如開始為1),和參考序列的基礎(chǔ)字段相同步悠。
11.QUAL:堿基質(zhì)量加33的ASCII碼(與Sanger FASTQ格式中的質(zhì)量字符串相同)签杈。一個(gè)堿基質(zhì)量是基于錯(cuò)誤率的phred-scaled等于?10log 10Pr(堿基是錯(cuò)的)。這個(gè)字段可以是“”鼎兽。如果它不是答姥,那么seq也不是“*”,它的長度與SEQ的長度得一致谚咬。