Clip 的含義
Clip 作為名詞講朦佩,有剪下來的東西的意義,在SAM/BAM 比對文件里面庐氮,用于描述那些一條序列上语稠,在序列兩端,比對不上的堿基序列(還是很形象的,一條上比對不上的部分仙畦,就給剪下來扔掉的感覺输涕,嚯嚯嚯嚯)。
Clip 分為Soft Clip和Hard Clip慨畸,同樣都是Clip(比對不上的堿基序列)莱坎,兩者有什么區(qū)別呢?先看一下官方的解釋(如下圖1):
- Soft Clip寸士,是指雖然比對不到基因組檐什,但是還是存在于SEQ (segment SEQuence)中的序列,此時CIGAR列對應的S(Soft)的符號弱卡。直白點說乃正,就是雖然比對不上參考基因組,但是在BAM/SAM文件中的reads上還是存在的序列(并沒有被截斷扔掉的序列)谐宙。
-
Hard Clip烫葬,表示比對不上并且不會存在于SAM/BAM文件中的序列(被截斷扔掉了的序列,此時CIGAR列會留下H(Hard)的符號凡蜻,但是序列的那一列卻沒有對應的序列了)搭综。
圖1 CIGAR列說明
什么時候會出現(xiàn)Clip
知道了Clip的含義,再先理解一下Soft Clip划栓,即只要一條序列上兑巾,兩端有比對不上的序列部分,就是Soft Clip忠荞,這個一條序列上有比對不上的部分的現(xiàn)象是必然存在的(比如結(jié)構(gòu)變異的斷點的部分)蒋歌,這種兩端比對不上的read的特殊的表示方法,就是Soft Clip委煤。Soft Clip是可以獨立存在的堂油。
而Hard Clip,相對來說更特殊一點碧绞,是依賴于Soft Clip存在的府框。也就是有Soft Clip不一定有Hard Clip,而有Hard Clip則一定有Soft Clip讥邻。Hard Clip存在的本意迫靖,是減少BAM文件序列的冗余度,比如有一條read兴使,它能比對到A系宜,B兩個地方,在A地方发魄,是60M90S盹牧,在B地方是60H90M,此時一條read其實已經(jīng)在A位置有了完整的序列信息,在B位置的信息其實是冗余的汰寓,所以在B位置可以引入Hard Clip這樣一個標記形式吆寨,就能把B位置的序列標記為secondary。常用的是BWA MEM -H 參數(shù)踩寇,能講剛剛說的B位置的比對,進行Hard Clip標記六水,可參考官方說明俺孙。
舉例再來看一下Soft Clip 與 Hard Clip在SAM/BAM文件中的樣子:
圖3:比對的一對reads的前面部分,從第二列的Flag能知道163與2211對應的行是read2(也就是第一行與第二行是同一條read掷贾,即read two)睛榄,83對應的行是read1。
第一行44S106M
第二行45M105H(也就是第二行的序列只會顯示45bp想帅,不要問我為什么44S變成了45M场靴,因為第二行math的地方就是45M)
圖4:緊接著圖3的后半部分,可以看到第二行港准,只顯示了45M旨剥,Hard Clip部分被切掉了。