sam是短序列比對默認(rèn)的標(biāo)準(zhǔn)格式,是以TAB為分割符的文本格式闸餐。主要應(yīng)用于測序序列mapping到基因組上的結(jié)果表示讼庇,另外也可以表示其他的多重比對結(jié)果近尚。一般把測序reads比對到參考基因組以后,通常得到的就是sam文件歼跟。BAM就是SAM的二進制文件,具有更小的存儲空間留瞳,并且許多下游分析工具使用的是BAM格式骚秦。
第1列:fastq的read ID
第2列:FLAG(如果某一個數(shù)值不是下面的任意值,那么那個數(shù)值就是下面這些數(shù)里面幾個的和)
1:該read是成對的paired reads中的一個
2:paired reads中每個都正確比對到參考序列上
4:該read沒比對到參考序列上
8:與該read成對的matepair read沒有比對到參考序列上
16:該read其反向互補序列能夠比對到參考序列
32:與該read成對的matepair read其反向互補序列能夠比對到參考序列
64:在paired reads中硬梁,該read是與參考序列比對的第一條
128:在paired reads中胞得,該read是與參考序列比對的第二條
256:該read是次優(yōu)的比對結(jié)果
512:該read沒有通過質(zhì)量控制
1024:由于PCR或測序錯誤產(chǎn)生的重復(fù)reads
2048:補充匹配的read
只有一條reads沒有比對上:73, 133, 89, 121, 165, 181, 101, 117, 153, 185, 69, 137
兩條reads都沒有比對上:77阶剑、141
比對上了,方向也對素邪,并且在插入片段大小范圍內(nèi):99, 147, 83, 163
比對上了猪半,也在插入片段大小范圍內(nèi), 但是方向不對:67, 131, 115, 179
唯一配對烘绽,就是插入片段大小范圍不對:81, 161, 97, 145, 65, 129, 113, 177
第3列:染色體名稱俐填。如果這列是“ * ”,可以認(rèn)為這條read沒有比對上的序列英融,則這一行的第四驶悟,五,八痕鳍,九 列是“0”,第六熊响,七列與該列是相同的表示方法。
第4列:比對的位置秸弛,從對應(yīng)上的染色體第1位開始往后計算洪碳。沒有比對上的,此處為0非迹。
第5列:MAPQ比對質(zhì)量值纯趋。越高說明該read比對到參考基因組上的位置越唯一,0表示在參考基因組有多種定位的可能性纯命。60表示在參考基因組只有這一種定位位置痹栖。
第6列: M表示匹配、I表示插入疗我、D表示刪除南捂、N表示內(nèi)含子和D類似、S表示替換麦牺、H表示剪切鞭缭。
比如3S6M1P1I4M,前三個堿基被剪切去除了吱晒,然后6個比對上了沦童,然后打開了一個缺口叹话,有一個堿基插入躏精,最后是4個比對上了鹦肿,是按照順序的箩溃;
比如:36M 表示36個堿基在比對時完全匹配。
比如:如37M1D2M1I涣旨,這段字符的意思是37個匹配霹陡,1個參考序列上的刪除,2個匹配烹棉,1個參考序列上的插入浆洗。
(clipped均表示一條read的序列被分開,之所以被分開抠刺,是因為read的一部分序列能匹配到第三列的RNAME序列上摘昌,而被分開的那部分不能匹配到RNAME序列上。而H只出現(xiàn)在一條read的前端或末端聪黎,但不會出現(xiàn)在中間,S一般會和H成對出現(xiàn)杀赢,當(dāng)有H出現(xiàn)時湘纵,一定會有一個與之對應(yīng)的S出現(xiàn))
①S: 這部分沒比對上但保留在了SAM/BAM比對結(jié)果中。
②H: 這部分沒比對上并且沒有保留在SAM/BAM比對結(jié)果中梧喷。
第7列: 這條reads第二次比對的位置。=表示參考序列與reads一模一樣汇歹,*表示沒有完全一模一樣的參考序列。
第8列: 該列表示與該reads對應(yīng)的mate pair reads的比對位置(即mate)派歌,若無mate,則為0痰哨。
第9列: 序列模板長度,如果同一個片段都比對上了同一個參考序列早抠,為最左邊的堿基位置到最右邊的堿基位置(左為正,右為負(fù))撬讽。當(dāng)mate 序列位于本序列上游時該值為負(fù)值蕊连。不可用時,為0游昼。
第10列: read的序列甘苍。
第11列: ASCII碼格式的序列質(zhì)量。格式同F(xiàn)ASTQ一樣酱床。其中1羊赵、10、11合起來就是fq格式文件扇谣。
第12列: 可選的區(qū)域昧捷。格式類似AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在參考序列上模糊堿基的個數(shù)
XM:i 錯配的個數(shù)
XO:i gap open的個數(shù)
XG:i gap 延伸的個數(shù)
NM:i 經(jīng)過編輯的序列
YF:i 說明為什么這個序列被過濾的字符串
YT:Z 值為UU表示不是pair中一部分(單末端?)靡挥、CP(是pair且可以完美匹配)
DP(是pair但不能很好的匹配)、UP(是pair但是無法比對到參考序列上)
MD:Z 代表序列和參考序列錯配的字符串
線性對齊:一條read比對到參考序列上鸯绿,可以存在插入(insert)跋破、缺失(delete)、跳躍(skip)瓶蝴、剪切(clip)毒返,但是方向不變(不能是一部分和正鏈匹配,另一部分又和負(fù)鏈匹配)舷手,sam文件中只占用一行記錄拧簸。
嵌合比對:由于一條測序read比對到基因組上時分別比對到兩個不同的區(qū)域,而這兩個區(qū)域基本沒有接觸和重疊男窟。因此它在sam文件中需要占用多行記錄顯示盆赤。只有第一個記錄稱作"representative",其他的都是"supplementary"贾富。RNA-seq中的chimeric read或許可以說明有融合基因存在,但在基因組中一般作為結(jié)構(gòu)變異的證據(jù)牺六。
---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------