sam/bam文件結(jié)合igv可視化

---------------

Nickier

2019-01-12

---------------

sam是一種序列比對(duì)后的輸出格式间雀,以tab作為分隔符色冀,包括頭部信息和比對(duì)信息。其中頭部信息必須在比對(duì)信息之前。頭部信息的開頭是@幔嗦,但是比對(duì)行不是。每一個(gè)比對(duì)行有11個(gè)重要的比對(duì)信息元素沥潭,如果比對(duì)位置和校準(zhǔn)信息等邀泉。

關(guān)于sam/bam文件的格式,網(wǎng)上已經(jīng)有很多介紹,但是很多沒有結(jié)合igv可視化汇恤,所以不容易理解庞钢,今天,我們將sam/bam文件結(jié)合igv可視化因谎,方便大家理解基括。

Example

ST-E00522:463:HT3TGCCXY:1:1210:30959:4702   163 chr1    10070   0   44S61M  =   10028   61  CCCTAATCCCTAACCCCTCACCCTCACCCTCACCTTCACCCTCCCCCTAATCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACC   .==FB<+-+,CA<9*A8<-146<DFD@8==<BE+18@BCC6=E*@E5E+87D2E,AFFFECEFFFF9/DE8>BEF@FF4/A6A>/6*C14A5@EG+/>;C??DDD   MC:Z:6M1I6M1I91M    MD:Z:6C54   PG:Z:MarkDuplicates RG:Z:HT_11_DHE16602 NM:i:1  MQ:i:0  AS:i:56 XS:i:54

2019-01-12_232236.png

頭文件

每個(gè)標(biāo)題行以字符“@”開頭,后面是兩個(gè)字母的記錄類型代碼财岔。在標(biāo)題中风皿,每一行都是由制表符分隔的,除了@CO行匠璧,每個(gè)數(shù)據(jù)字段都遵循格式“TAG:VALUE”桐款,其中TAG是一個(gè)兩個(gè)字母的字符串,定義了內(nèi)容和值的格式夷恍。每個(gè)標(biāo)題行應(yīng)該匹配:/ ^ @[A-Za-z][A-Za-z](\ t[A-Za-z][A-Za-z0-9]:[- ~]+)+ $ /或/ ^ @CO \ t魔眨。* /答倡。包含小寫字母的標(biāo)記保留給最終用戶请垛。

主要信息

每一個(gè)比對(duì)行有11個(gè)必填選項(xiàng)。這些字段都是以相同順序出現(xiàn)花盐,而且必須出現(xiàn)执虹,但是這些值可以為0或*(取決于字段)如果無法獲得相應(yīng)的信息拓挥。下表概述了SAM格式的強(qiáng)制字段:

Col Field Brief description
1 QNAME 查詢模板名稱
2 FLAG 位標(biāo)記,template mapping情況的數(shù)字表示袋励,每一個(gè)數(shù)字代表一種比對(duì)情況侥啤,這里的值是符合情況的數(shù)字相加總和
3 RNAME 參考序列名稱
4 POS 基于1的最左比對(duì)位置
5 MAPQ MAPping質(zhì)量
6 CIGAR CIGAR字符串
7 RNEXT 比對(duì)到的參考(染色體)名字
8 PNEXT 配對(duì)到的第一個(gè)堿基的位置
9 TLEN 可以理解為文庫插入片段長度
10 SEQ 序列片段
11 QUAL phred -scale基本質(zhì)量+33的ASCII碼

1.QNAME:查詢模板名稱。具有相同QNAME的read片段被認(rèn)為來自相同的模板茬故。QNAME ' * '表示信息不可用盖灸。


QNAME.png

2.FLAG 位標(biāo)記,下表是每一個(gè)代號(hào)代表的意義:

Bit Description
1 read是pair中的一條(read表示本條read磺芭,mate表示pair中的另一條read)
2 pair一正一負(fù)完美的比對(duì)上
4 片段未比對(duì)上
8 mate沒有比對(duì)上
16 這條read反向比對(duì)
32 mate反向比對(duì)
64 這條read是read1
128 這條read是read2
256 第二次比對(duì)
512 沒有通過質(zhì)量控制
1024 read是PCR或光學(xué)副本產(chǎn)生
2048 輔助比對(duì)結(jié)果

如下面這兩條互相配對(duì)的reads中

ST-E00522:463:HT3TGCCXY:1:1217:29264:10662  99  chr1    10004   4   102M1I44M3S =   10195   236 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCTAACCCTAACCCGAACCCGAACCCGAACCCCAACCCCAACCCGAACCCCAACCCGAACCCTAACCCTAACCCTAACCCTAA  >CDHDEEEEFBDEEEFBEDCEFBEEEEEBEEECFBEDEEDCFDFFDCECCE4:E-->4=BCB9-?>?>F4.EABA@>E:C9&<E(-B0<B@CF0CE*CC,11:B>*==DCC&DE9C;,=@DAB&<EBCC2>D?A?F9A?>8@AFC;>57A  XA:Z:chr22,-50808000,150M,11;chr22,-50808169,3S89M1I12M8D6M1D39M,16;chr1,+180761,41M2D44M3I17M3D45M,15;chr3,+10614,28M1I43M1D6M1D28M1D29M1D15M,11;chr22,-50808294,48M5D27M1I74M,16; MC:Z:7S45M  MD:Z:63T17T5T5T5T10T5T5T23  PG:Z:MarkDuplicates RG:Z:HT_11_DHE16602 NM:i:9  MQ:i:0  AS:i:99 XS:i:95
ST-E00522:463:HT3TGCCXY:1:1217:29264:10662  147 chr1    10195   0   7S45M   =   10004   -236    CCCCCACCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACC    7F=0+.<>E?;+<F?CBEBEDBBEB?/9ACBDEEAD@DC@A.0D@CCB03?<    MC:Z:102M1I44M3S    MD:Z:45 PG:Z:MarkDuplicates RG:Z:HT_11_DHE16602 NM:i:0  MQ:i:4  AS:i:45 XS:i:47

第一條reads的第二列是99赁炎,即
99
=64(這條reads是read1)
+32(這條reads是正向比對(duì))
+2(pair一正一負(fù)完美的比對(duì)上)
+1(這條reads是pair中的一條)

99.png

在上圖中,可以看到linux界面中第一條和第二條reads即就是前面展示相互配對(duì)的reads钾腺♂愕妫可以看到兩條reads都比對(duì)到了chr1上了,此時(shí)就得到了12放棒。而在igv中可以看到第一條reads(鼠標(biāo)所在處)的方向是向右側(cè)姻报,即正向比對(duì),就得到了數(shù)值32间螟。至于64的由來吴旋,請(qǐng)看下圖损肛。
64.png

3.RNAME:比對(duì)的參考序列名稱,如果@SQ頭部行存在荣瑟,RNAME(如果不是“”)必須出現(xiàn)在一個(gè) SQ-SN標(biāo)記中治拿。沒比對(duì)上此處就是“”。然而笆焰,一個(gè)未必對(duì)的片段也有一個(gè)坐標(biāo)以便排序劫谅。如果RNAME 是“*”,也就沒有 POS 和 CIGAR仙辟。

4.POS:于1的第一個(gè)匹配基的最左映射位置同波。參考序列中的第一個(gè)基的坐標(biāo)是1。對(duì)于沒有坐標(biāo)的未映射讀取叠国,POS設(shè)置為0未檩。如果POS為0,RNAME和CIGAR也就沒有意義粟焊。

5.MAPQ:mapping質(zhì)量冤狡,等于?10log 10Pr(映射位置是錯(cuò)的),四舍五入到最近的整數(shù)项棠,值255表示映射質(zhì)量特別差悲雳。

6.CIGAR:CIGAR字符串。下表為CIGAR字符串的解釋(‘*’表示無值)

Op BAM Description
M 0 比對(duì)匹配(可以是序列匹配或不匹配)
I 1 插入到參考
D 2 從參考刪除
N 3 參考的跳過的區(qū)域
S 4 軟剪切(被剪切的序列存在于序列中)
H 5 硬剪切(被剪切的序列不存在于序列中)
P 6 填充(從填充引用中無聲刪除)
= 7 序列匹配
X 8 序列不匹配
  • H 值出現(xiàn)在最初或者最后操作中
  • S 可證在他們和CIRAG末尾字符串中只有H操作
  • 對(duì)于mRNA到基因組的比對(duì)香追,一個(gè)N操作符代表內(nèi)含子合瓢。對(duì)于其他類型的比對(duì),沒有定義N的解釋透典。
  • M/I/S/=/X操作的長度之和等于SEQ的長度晴楔。

7.RNEXT::mate的reference sequence name,實(shí)際上就是mate比對(duì)到的染色體號(hào)峭咒,若是沒有mate税弃,則是*

8.PNEXT:如果沒有這個(gè)信息(沒比對(duì)上)就是0

9.TLEN:如果R1端的read和R2端的read能夠mapping到同一條Reference序列上(即第三列RNAME相同),則該列的值表示第8列減去第4列加上第6列的值凑队,R1端和R2端相同id的reads其第九列值相同则果,但該值為一正一負(fù),R1文件的reads和R2文件的reads漩氨,相同id的reads要相對(duì)來看西壮。在進(jìn)行該第列值的計(jì)算時(shí),如果取第6列的數(shù)值叫惊,一定要取出現(xiàn)M的值款青,S或H的值不能取。

10.SEQ:reads片段赋访。如果序列不存在可都,就是。如果不是蚓耽,這個(gè)序列的長度等于CIGAR中 M/I/S/=/X的總和渠牲。=表示他的基礎(chǔ)字段(如開始為1),和參考序列的基礎(chǔ)字段相同步悠。

11.QUAL:堿基質(zhì)量加33的ASCII碼(與Sanger FASTQ格式中的質(zhì)量字符串相同)签杈。一個(gè)堿基質(zhì)量是基于錯(cuò)誤率的phred-scaled等于?10log 10Pr(堿基是錯(cuò)的)。這個(gè)字段可以是“”鼎兽。如果它不是答姥,那么seq也不是“*”,它的長度與SEQ的長度得一致谚咬。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末鹦付,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子择卦,更是在濱河造成了極大的恐慌敲长,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秉继,死亡現(xiàn)場(chǎng)離奇詭異祈噪,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)尚辑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門辑鲤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人杠茬,你說我怎么就攤上這事月褥。” “怎么了澈蝙?”我有些...
    開封第一講書人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵吓坚,是天一觀的道長。 經(jīng)常有香客問我灯荧,道長礁击,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任逗载,我火速辦了婚禮哆窿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘厉斟。我一直安慰自己挚躯,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開白布擦秽。 她就那樣靜靜地躺著码荔,像睡著了一般漩勤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上缩搅,一...
    開封第一講書人閱讀 52,262評(píng)論 1 308
  • 那天越败,我揣著相機(jī)與錄音,去河邊找鬼硼瓣。 笑死究飞,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的堂鲤。 我是一名探鬼主播亿傅,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼瘟栖!你這毒婦竟也來了葵擎?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤半哟,失蹤者是張志新(化名)和其女友劉穎坪蚁,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體镜沽,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡敏晤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缅茉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘴脾。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蔬墩,靈堂內(nèi)的尸體忽然破棺而出译打,到底是詐尸還是另有隱情,我是刑警寧澤拇颅,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布奏司,位于F島的核電站,受9級(jí)特大地震影響樟插,放射性物質(zhì)發(fā)生泄漏韵洋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一黄锤、第九天 我趴在偏房一處隱蔽的房頂上張望搪缨。 院中可真熱鬧,春花似錦鸵熟、人聲如沸副编。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽痹届。三九已至呻待,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間队腐,已是汗流浹背带污。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留香到,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓报破,卻偏偏與公主長得像悠就,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子充易,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • The SAM Format Specification(sam格式說明) 1 The SAM Format Sp...
    今天有覺悟1閱讀 14,471評(píng)論 3 10
  • SAM(The Sequence Alignment / Map format)格式梗脾,即序列比對(duì)文件的格式,詳細(xì)介...
    oddxix閱讀 1,705評(píng)論 0 1
  • SAM分為兩部分盹靴,注釋信息(header section)和比對(duì)結(jié)果部分(alignment section)炸茧。 ...
    蘇牧傳媒閱讀 7,552評(píng)論 0 2
  • fastafasta格式是最基本的表示序列信息(核苷酸或者蛋白質(zhì))的格式。這里簡(jiǎn)單介紹下稿静,fasta格式的文件通常...
    tianzhanlan閱讀 4,900評(píng)論 0 10
  • 出句:陳竹松 對(duì)句:張生霞 1雷梭冠,一聲怒吼催云啟;=雪改备,素裹銀裝氣象新控漠。 2.風(fēng)寒月冷當(dāng)時(shí)恨=...
    劉琴琴的簡(jiǎn)書閱讀 468評(píng)論 0 0