BAM文件中flag的釋義一直很含糊,看了很多官方文檔和博客都解釋得似懂非懂,今天就詳細地了解了一下,首先:
samtools view *.bam | head -10
# 查看bam文件祟峦,每一行代表一條記錄
圖中有兩條記錄,其中第二列即為flag值徙鱼。
這個值是由多個“基本的”flag值相加得來的宅楞,不同的“基本”flag值代表比對的不同性質(zhì)。
基本flag的賦值為2的n次方袱吆,即1厌衙,2,4绞绒,8...等等等婶希,其它任意數(shù)值的flag值都可以由不同且唯一的基本flag值組合得到。如99只能由1+2+32+64得到蓬衡,則flag99的含義則囊括了1喻杈,2,32狰晚,64這四個“基本”flag的含義筒饰。
基本flag的值和對應(yīng)的含義見下表(https://www.samformat.info/sam-format-flag):
英文的描述過于簡短,我初看也是似懂非懂壁晒,后面會放目前我在苦苦檢索后找到的瓷们,最有助于理解的一些前人總結(jié)。
下面是根據(jù)一個真實的bam文件統(tǒng)計的flag值和該值的總計數(shù)秒咐。統(tǒng)計的代碼為:
samtools view *.bam | awk '{print $2}' | sort | uniq -c
由于基本flag排列組合后得到的flag很多谬晕,這里展示有代表性的一部分,可以發(fā)現(xiàn)83携取,163攒钳,99,147出現(xiàn)的頻次遠多于其他falg值雷滋,事實上不撑,這4個flag值占該bam文件所有記錄的99.2%,可以說是最應(yīng)該熟知的flag值惊豺。
下面是干貨:
-
bam文件結(jié)構(gòu)概覽
-
不僅告訴你flag值燎孟,還告訴你flag是如何相加的禽作,比短短幾個英文字母的解釋要清楚許多
-
個人總結(jié)