SAM助析,全稱Sequence Alignment/Map Format,由header和alignment兩部分組成
Header section
#查看header section
:~# samtools view -H SRR3191542.bam | head
@HD VN:1.0 SO:coordinate
@SQ SN:chr1 LN:248956422
@SQ SN:chr2 LN:242193529
@SQ SN:chr3 LN:198295559
解釋
header section每一行以@開頭反砌,@后面兩個字母表示該行的信息類型欣舵,共有【HD止剖、SQ亮靴、RG馍盟、PG】四種。
HD茧吊,header的第一行贞岭,文件中以下參數(shù)不一定全部展示
VN:使用的samtools版本
SO:比對序列的排序八毯,參數(shù)包括unknown (default), unsorted, queryname和coordinate
GO:相似序列是否分組,參數(shù)包括none (default), query, and reference
SS:比對結(jié)果的子排序曹步,格式(coordinate|queryname|unsorted)(:[A-Za-z0-9_-]+)+
SQ宪彩,參考序列的字典休讳,@SQ的順序決定了比對序列的排序
SN:參考序列的名字讲婚,對人類基因組而言即染色體
LN:參考序列的長度,范圍[1, 2^31-1]
......
RG俊柔,Read Group筹麸,reads分組信息
PG,Program雏婶,使用程序信息
ID:Program record identier
PN:program name
VN:program version
......
Alignment section
每一行記錄一個reads的比對信息物赶,一行由11行或以上部分組成
:~#samtools view SRR3191542.bam | head -1
SRR3191542.847431 99 chr1 14370 1 76M = 14499 205 AGCTAGAGATCCTTTATTAAAAGCACACTGTTGGTTTCTGCTCAGTTCTTTATTGATTGGTGTGCCGTTTTCTCTG CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG AS:i:0 XS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:76 YS:i:0 YT:Z:CP
FLAG
Flags:
1== 0x1 PAIRED .. paired-end (or multiple-segment) sequencing technology
2== 0x2 PROPER_PAIR .. each segment properly aligned according to the aligner
4== 0x4 UNMAP .. segment unmapped
8== 0x8 MUNMAP .. next segment in the template unmapped
16== 0x10 REVERSE .. SEQ is reverse complemented
32== 0x20 MREVERSE .. SEQ of the next segment in the template is reversed
64== 0x40 READ1 .. the first segment in the template
128== 0x80 READ2 .. the last segment in the template
256== 0x100 SECONDARY .. secondary alignment
512== 0x200 QCFAIL .. not passing quality controls
1024== 0x400 DUP .. PCR or optical duplicate
2048== 0x800 SUPPLEMENTARY .. supplementary alignment
解釋
1.SECONDARY: 該序列存在多個比對的結(jié)果,主要是基因的重復(fù)序列等留晚,選擇其中一個作為primary alignment
2.SUPPLEMENTARY: chimeric alignment酵紫,由于實驗本身或者基因融合等原因,序列的不同部分比對到不同位置错维。
推薦一個分析flag的網(wǎng)站:
https://www.samformat.info/sam-format-flag-single
通過flag篩選reads
# 獲得包含flag=4的序列
samtools view -f 4
# 獲得不包含flag=4的序列
samtools view -F 4
MAPQ
計算方法奖地,比如MAPQ為60
60/10 =6,所以這條序列錯誤比對的概率為 10^-6
按照MAPQ篩選reads
#篩選MAQ大于20的reads
samtools view -q 20 UHR_1.bam > UHR_1_mapq20.bam
CIGAR
CIGAR表示測序比對的質(zhì)量赋焕,位于sam文件第六行
? M match or mismatch参歹,匹配或者不匹配
? I insertion
? D deletion
? S soft clip,被剪切的序列存在于sam文件序列中
? H hard clip隆判,被剪切的序列不存在于sam文件序列中犬庇,一般較長
? N skipping,跳躍比較長區(qū)域
可參考孟浩巍生物信息學(xué)100個基礎(chǔ)問題之十九題
https://zhuanlan.zhihu.com/p/36591134