bam文件詳解

sam是短序列比對默認(rèn)的標(biāo)準(zhǔn)格式,是以TAB為分割符的文本格式闸餐。主要應(yīng)用于測序序列mapping到基因組上的結(jié)果表示讼庇,另外也可以表示其他的多重比對結(jié)果近尚。一般把測序reads比對到參考基因組以后,通常得到的就是sam文件歼跟。BAM就是SAM的二進制文件,具有更小的存儲空間留瞳,并且許多下游分析工具使用的是BAM格式骚秦。

image

第1列:fastq的read ID

第2列:FLAG(如果某一個數(shù)值不是下面的任意值,那么那個數(shù)值就是下面這些數(shù)里面幾個的和)

1:該read是成對的paired reads中的一個

2:paired reads中每個都正確比對到參考序列上

4:該read沒比對到參考序列上

8:與該read成對的matepair read沒有比對到參考序列上

16:該read其反向互補序列能夠比對到參考序列

32:與該read成對的matepair read其反向互補序列能夠比對到參考序列

64:在paired reads中硬梁,該read是與參考序列比對的第一條

128:在paired reads中胞得,該read是與參考序列比對的第二條

256:該read是次優(yōu)的比對結(jié)果

512:該read沒有通過質(zhì)量控制

1024:由于PCR或測序錯誤產(chǎn)生的重復(fù)reads

2048:補充匹配的read

只有一條reads沒有比對上:73, 133, 89, 121, 165, 181, 101, 117, 153, 185, 69, 137

兩條reads都沒有比對上:77阶剑、141

比對上了,方向也對素邪,并且在插入片段大小范圍內(nèi):99, 147, 83, 163

比對上了猪半,也在插入片段大小范圍內(nèi), 但是方向不對:67, 131, 115, 179

唯一配對烘绽,就是插入片段大小范圍不對:81, 161, 97, 145, 65, 129, 113, 177

第3列:染色體名稱俐填。如果這列是“ * ”,可以認(rèn)為這條read沒有比對上的序列英融,則這一行的第四驶悟,五,八痕鳍,九 列是“0”,第六熊响,七列與該列是相同的表示方法。

第4列:比對的位置秸弛,從對應(yīng)上的染色體第1位開始往后計算洪碳。沒有比對上的,此處為0非迹。

第5列:MAPQ比對質(zhì)量值纯趋。越高說明該read比對到參考基因組上的位置越唯一,0表示在參考基因組有多種定位的可能性纯命。60表示在參考基因組只有這一種定位位置痹栖。

第6列: M表示匹配、I表示插入疗我、D表示刪除南捂、N表示內(nèi)含子和D類似、S表示替換麦牺、H表示剪切鞭缭。

比如3S6M1P1I4M,前三個堿基被剪切去除了吱晒,然后6個比對上了沦童,然后打開了一個缺口叹话,有一個堿基插入躏精,最后是4個比對上了鹦肿,是按照順序的箩溃;

比如:36M 表示36個堿基在比對時完全匹配。

比如:如37M1D2M1I涣旨,這段字符的意思是37個匹配霹陡,1個參考序列上的刪除,2個匹配烹棉,1個參考序列上的插入浆洗。

(clipped均表示一條read的序列被分開,之所以被分開抠刺,是因為read的一部分序列能匹配到第三列的RNAME序列上摘昌,而被分開的那部分不能匹配到RNAME序列上。而H只出現(xiàn)在一條read的前端或末端聪黎,但不會出現(xiàn)在中間,S一般會和H成對出現(xiàn)杀赢,當(dāng)有H出現(xiàn)時湘纵,一定會有一個與之對應(yīng)的S出現(xiàn))

①S: 這部分沒比對上但保留在了SAM/BAM比對結(jié)果中。

②H: 這部分沒比對上并且沒有保留在SAM/BAM比對結(jié)果中梧喷。

第7列: 這條reads第二次比對的位置。=表示參考序列與reads一模一樣汇歹,*表示沒有完全一模一樣的參考序列。

第8列: 該列表示與該reads對應(yīng)的mate pair reads的比對位置(即mate)派歌,若無mate,則為0痰哨。

第9列: 序列模板長度,如果同一個片段都比對上了同一個參考序列早抠,為最左邊的堿基位置到最右邊的堿基位置(左為正,右為負(fù))撬讽。當(dāng)mate 序列位于本序列上游時該值為負(fù)值蕊连。不可用時,為0游昼。

第10列: read的序列甘苍。

第11列: ASCII碼格式的序列質(zhì)量。格式同F(xiàn)ASTQ一樣酱床。其中1羊赵、10、11合起來就是fq格式文件扇谣。

第12列: 可選的區(qū)域昧捷。格式類似AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU

AS:i 匹配的得分

XS:i 第二好的匹配的得分

YS:i mate 序列匹配的得分

XN:i 在參考序列上模糊堿基的個數(shù)

XM:i 錯配的個數(shù)

XO:i gap open的個數(shù)

XG:i gap 延伸的個數(shù)

NM:i 經(jīng)過編輯的序列

YF:i 說明為什么這個序列被過濾的字符串

YT:Z 值為UU表示不是pair中一部分(單末端?)靡挥、CP(是pair且可以完美匹配)

DP(是pair但不能很好的匹配)、UP(是pair但是無法比對到參考序列上)

MD:Z 代表序列和參考序列錯配的字符串

線性對齊:一條read比對到參考序列上鸯绿,可以存在插入(insert)跋破、缺失(delete)、跳躍(skip)瓶蝴、剪切(clip)毒返,但是方向不變(不能是一部分和正鏈匹配,另一部分又和負(fù)鏈匹配)舷手,sam文件中只占用一行記錄拧簸。

嵌合比對:由于一條測序read比對到基因組上時分別比對到兩個不同的區(qū)域,而這兩個區(qū)域基本沒有接觸和重疊男窟。因此它在sam文件中需要占用多行記錄顯示盆赤。只有第一個記錄稱作"representative",其他的都是"supplementary"贾富。RNA-seq中的chimeric read或許可以說明有融合基因存在,但在基因組中一般作為結(jié)構(gòu)變異的證據(jù)牺六。

image

---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

參考鏈接:http://www.reibang.com/p/f53741175b67

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末颤枪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子淑际,更是在濱河造成了極大的恐慌畏纲,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件庸追,死亡現(xiàn)場離奇詭異霍骄,居然都是意外死亡台囱,警方通過查閱死者的電腦和手機淡溯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來簿训,“玉大人咱娶,你說我怎么就攤上這事∏科罚” “怎么了膘侮?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長的榛。 經(jīng)常有香客問我琼了,道長,這世上最難降的妖魔是什么夫晌? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任雕薪,我火速辦了婚禮,結(jié)果婚禮上晓淀,老公的妹妹穿的比我還像新娘所袁。我一直安慰自己,他們只是感情好凶掰,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布燥爷。 她就那樣靜靜地躺著,像睡著了一般懦窘。 火紅的嫁衣襯著肌膚如雪前翎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天畅涂,我揣著相機與錄音港华,去河邊找鬼。 笑死毅戈,一個胖子當(dāng)著我的面吹牛苹丸,可吹牛的內(nèi)容都是我干的愤惰。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼赘理,長吁一口氣:“原來是場噩夢啊……” “哼宦言!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起商模,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤奠旺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后施流,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體响疚,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年瞪醋,在試婚紗的時候發(fā)現(xiàn)自己被綠了忿晕。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡银受,死狀恐怖践盼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情宾巍,我是刑警寧澤咕幻,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站顶霞,受9級特大地震影響肄程,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜选浑,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一蓝厌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鲜侥,春花似錦褂始、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至舀寓,卻和暖如春胆数,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背互墓。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工必尼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓判莉,卻偏偏與公主長得像豆挽,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子券盅,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 作者:麥茬道審稿:童蒙編輯:amethyst 隨著生物信息數(shù)據(jù)的爆發(fā)式增長帮哈,存儲生物信息的文件格式也多樣化起來,不...
    生信阿拉丁閱讀 15,181評論 0 25
  • sam是短序列比對默認(rèn)的標(biāo)準(zhǔn)格式锰镀,是以TAB為分割符的文本格式娘侍。主要應(yīng)用于測序序列mapping到基因組上的結(jié)果表...
    Sepine閱讀 2,999評論 0 6
  • 一、首先需要知道以下幾個知識點: 詳細(xì)內(nèi)容請參考:http://samtools.github.io/hts-sp...
    二傻吧閱讀 9,799評論 0 18
  • 生信分析中大家接觸最多的文件肯定會有SAM文件吧泳炉! SAM格式文件包括頭部注釋部分和比對結(jié)果部分 頭部注釋部分 頭...
    BINBINCC閱讀 467評論 0 3
  • --------------- Nickier 2019-01-12 --------------- sam是一種...
    Nickier閱讀 6,168評論 0 11