sam格式講解

SAM助析,全稱Sequence Alignment/Map Format,由header和alignment兩部分組成

Header section

#查看header section
:~#   samtools view -H SRR3191542.bam | head
@HD VN:1.0  SO:coordinate
@SQ SN:chr1 LN:248956422
@SQ SN:chr2 LN:242193529
@SQ SN:chr3 LN:198295559
解釋

header section每一行以@開頭反砌,@后面兩個字母表示該行的信息類型欣舵,共有【HD止剖、SQ亮靴、RG馍盟、PG】四種。
HD茧吊,header的第一行贞岭,文件中以下參數(shù)不一定全部展示

VN:使用的samtools版本
SO:比對序列的排序八毯,參數(shù)包括unknown (default), unsorted, queryname和coordinate
GO:相似序列是否分組,參數(shù)包括none (default), query, and reference
SS:比對結(jié)果的子排序曹步,格式(coordinate|queryname|unsorted)(:[A-Za-z0-9_-]+)+

SQ宪彩,參考序列的字典休讳,@SQ的順序決定了比對序列的排序

SN:參考序列的名字讲婚,對人類基因組而言即染色體
LN:參考序列的長度,范圍[1, 2^31-1]
......

RG俊柔,Read Group筹麸,reads分組信息
PG,Program雏婶,使用程序信息

ID:Program record identier
PN:program name
VN:program version
......

Alignment section

每一行記錄一個reads的比對信息物赶,一行由11行或以上部分組成

:~#samtools view SRR3191542.bam | head -1
SRR3191542.847431   99  chr1    14370   1   76M =   14499   205 AGCTAGAGATCCTTTATTAAAAGCACACTGTTGGTTTCTGCTCAGTTCTTTATTGATTGGTGTGCCGTTTTCTCTG    CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG    AS:i:0  XS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:76 YS:i:0  YT:Z:CP
Alignment section

FLAG

Flags:
1==    0x1 PAIRED .. paired-end (or multiple-segment) sequencing technology
2==    0x2 PROPER_PAIR .. each segment properly aligned according to the aligner
4==    0x4 UNMAP .. segment unmapped
8==    0x8 MUNMAP .. next segment in the template unmapped
16==   0x10 REVERSE .. SEQ is reverse complemented
32==   0x20 MREVERSE .. SEQ of the next segment in the template is reversed
64==   0x40 READ1 .. the first segment in the template
128==  0x80 READ2 .. the last segment in the template
256==  0x100 SECONDARY .. secondary alignment
512==  0x200 QCFAIL .. not passing quality controls
1024== 0x400 DUP .. PCR or optical duplicate
2048== 0x800 SUPPLEMENTARY .. supplementary alignment

解釋
1.SECONDARY: 該序列存在多個比對的結(jié)果,主要是基因的重復(fù)序列等留晚,選擇其中一個作為primary alignment
2.SUPPLEMENTARY: chimeric alignment酵紫,由于實驗本身或者基因融合等原因,序列的不同部分比對到不同位置错维。

推薦一個分析flag的網(wǎng)站:
https://www.samformat.info/sam-format-flag-single

通過flag篩選reads

# 獲得包含flag=4的序列
samtools view -f 4
# 獲得不包含flag=4的序列
samtools view -F 4

MAPQ

計算方法奖地,比如MAPQ為60
60/10 =6,所以這條序列錯誤比對的概率為 10^-6
按照MAPQ篩選reads

#篩選MAQ大于20的reads
samtools view -q 20 UHR_1.bam > UHR_1_mapq20.bam

CIGAR

CIGAR表示測序比對的質(zhì)量赋焕,位于sam文件第六行

? M match or mismatch参歹,匹配或者不匹配
? I insertion
? D deletion
? S soft clip,被剪切的序列存在于sam文件序列中
? H hard clip隆判,被剪切的序列不存在于sam文件序列中犬庇,一般較長
? N skipping,跳躍比較長區(qū)域

可參考孟浩巍生物信息學(xué)100個基礎(chǔ)問題之十九題
https://zhuanlan.zhihu.com/p/36591134

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末侨嘀,一起剝皮案震驚了整個濱河市臭挽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌咬腕,老刑警劉巖欢峰,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異郎汪,居然都是意外死亡赤赊,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門煞赢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來抛计,“玉大人,你說我怎么就攤上這事照筑〈到兀” “怎么了瘦陈?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長波俄。 經(jīng)常有香客問我晨逝,道長,這世上最難降的妖魔是什么懦铺? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任捉貌,我火速辦了婚禮,結(jié)果婚禮上冬念,老公的妹妹穿的比我還像新娘趁窃。我一直安慰自己,他們只是感情好急前,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布醒陆。 她就那樣靜靜地躺著,像睡著了一般裆针。 火紅的嫁衣襯著肌膚如雪刨摩。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天世吨,我揣著相機(jī)與錄音澡刹,去河邊找鬼。 笑死另假,一個胖子當(dāng)著我的面吹牛像屋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播边篮,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼己莺,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了戈轿?” 一聲冷哼從身側(cè)響起凌受,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎思杯,沒想到半個月后胜蛉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡色乾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年誊册,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暖璧。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡案怯,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出澎办,到底是詐尸還是另有隱情嘲碱,我是刑警寧澤金砍,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站麦锯,受9級特大地震影響恕稠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扶欣,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一鹅巍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宵蛀,春花似錦昆著、人聲如沸县貌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽煤痕。三九已至梧宫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間摆碉,已是汗流浹背塘匣。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留巷帝,地道東北人忌卤。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像楞泼,于是被迫代替她去往敵國和親驰徊。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容