SAM/BAM的CIGAR難點(diǎn)

劉小澤寫于2020.4.6
記錄一個(gè)小知識(shí)點(diǎn)突琳,比對(duì)后SAM/BAM的CIGAR這一列中的含義北苟,重點(diǎn)是soft clipping 和 hard clipping的理解

首先了解SAM/BAM中的CIGAR含義

看這篇:再次理解SAM/BAM操作

根據(jù)sam的幫助文檔:http://samtools.sourceforge.net/SAM1.pdf

op    Description
M    Alignment match (can be a sequence match or mismatch
I    Insertion to the reference
D    Deletion from the reference
N    Skipped region from the reference
S    Soft clip on the read (clipped sequence present in <seq>)
H    Hard clip on the read (clipped sequence NOT present in <seq>)
P    Padding (silent deletion from the padded reference sequence)

然后來看什么是clipped alignment和spliced alignment

參考:https://davetang.org/wiki/tiki-index.php?page=SAM

  • clipped alignment:read只有中間部分能比對(duì)上型型,而兩側(cè)在比對(duì)過程中被忽略

    # 3S4M1D5M3S(3 soft, 4 match, 1 deletion, 5 match and 3 soft)
    Read:       CGATTGC-TCCGCCAGG
    |              |||| ||||||
    Ref:CCGATCGAGACTTGCGTCCGCCTCCCGATCA
    
  • spliced alignment:read一端比對(duì)上硕勿,跳過了中間,然后另一端也比對(duì)上【CIGAR中用“N”表示】如果是轉(zhuǎn)錄組數(shù)據(jù)的比對(duì)結(jié)果,N表示內(nèi)含子极阅;其他類型組學(xué)數(shù)據(jù)中N也可以用涨享,但沒有意義筋搏,和deletion一個(gè)意思(參考:https://www.biostars.org/p/96347/

    # 3M1D4M13N5M
    #  This only makes sense when you're aligning things like cDNA/expression data.
    REF:  ATCGATCGATCGATCGATCGATCGATCGATCG
              ||||||||||||||||||||||||||
    QUERY:    ATC-ATCG-------------ATCAT
    # 如果是DNA測(cè)序reads的比對(duì)奔脐,也可以全部用D來表示:即3M1D4M13D3M
    

然后clipped alignment有兩種形式

分為soft和hard(在SAM/BAM的CIGAR列分別用“S”和“H”表示),它們很相似吁讨,不同是:

來自:https://www.biostars.org/p/119537/

  • soft-clipped: bases in 5' and 3' of the read are NOT part of the alignment. 這部分沒比對(duì)上但保留在了SAM/BAM比對(duì)結(jié)果中

  • hard-clipped: bases in 5' and 3' of the read are NOT part of the alignment AND those bases have been removed from the read sequence in the BAM file 這部分沒比對(duì)上并且沒有保留在SAM/BAM比對(duì)結(jié)果中

    # 還是上面??clipped alignment的例子:
    # 如果是:3H4M1D5M3H,那么保留在SAM中的結(jié)果就是:TTGCTCCGCC建丧,而不是CGATTGCTCCGCCAGG(雖然CGA沒有比對(duì)上,但依然在soft clipped結(jié)果中保留下來)
    Read:          TTGC-TCCGCC
    |              |||| ||||||
    Ref:CCGATCGAGACTTGCGTCCGCCTCCCGATCA
    

來自:https://www.biostars.org/p/109333/

  • soft-clipped: if your cigar is 10S10M10S then the SEQ and base-quals will be 30 bases long. 利用soft-clipping算法可以避開由于read兩側(cè)質(zhì)量低而導(dǎo)致整條read比對(duì)不上的現(xiàn)象橄维。不過即使被標(biāo)記為soft clipped保留下來尺铣,依然不會(huì)在找變異争舞、基因組瀏覽器可視化凛忿、計(jì)算覆蓋度等過程中被使用(例如https://www.biostars.org/p/255062/中就提到:在計(jì)算基因組覆蓋度時(shí)竞川,幾乎全部工具bamCoverage/multiBamSummary甚至samtools view -c都會(huì)忽略soft clip情況)
  • hard-clipped: if your cigar is: 10H10M10H then the SEQ will only be 10 bases long.

那么什么時(shí)候標(biāo)記Hard clip,什么時(shí)候標(biāo)記Soft clip呢委乌?

參考:https://www.biostars.org/p/310722/https://www.biostars.org/p/109333/

  • in bwa, HARD clipping is used for supplementary reads.

  • if the read has a chimeric alignment, the paired
    or the top hit uses soft clippingAll the other hits part of the chimeric alignment will use hard clipping

  • chimeric alignment: “嵌合比對(duì)” 的形成是由于一條測(cè)序read比對(duì)到基因組上時(shí)分別比對(duì)到兩個(gè)不同的區(qū)域遭贸,而這兩個(gè)區(qū)域基本沒有overlap戈咳。因此它在sam文件中需要占用多行記錄顯示。只有第一個(gè)記錄被稱作"representative",其他的都是"supplementary"【Chimeric reads are also called split reads】革砸;RNA-seq中的chimeric read或許可以說明有融合基因存在除秀,但在基因組中一般作為結(jié)構(gòu)變異的證據(jù)


歡迎關(guān)注我們的公眾號(hào)~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩糯累,打造生信星球算利,想讓它成為一個(gè)不拽術(shù)語、通俗易懂的生信知識(shí)平臺(tái)泳姐。需要幫助或提出意見請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末效拭,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子胖秒,更是在濱河造成了極大的恐慌缎患,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件阎肝,死亡現(xiàn)場(chǎng)離奇詭異挤渔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)风题,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門判导,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人沛硅,你說我怎么就攤上這事眼刃。” “怎么了摇肌?”我有些...
    開封第一講書人閱讀 164,548評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵擂红,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我围小,道長(zhǎng)昵骤,這世上最難降的妖魔是什么树碱? 我笑而不...
    開封第一講書人閱讀 58,657評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮涉茧,結(jié)果婚禮上赴恨,老公的妹妹穿的比我還像新娘。我一直安慰自己伴栓,他們只是感情好伦连,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著钳垮,像睡著了一般惑淳。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上饺窿,一...
    開封第一講書人閱讀 51,554評(píng)論 1 305
  • 那天歧焦,我揣著相機(jī)與錄音,去河邊找鬼肚医。 笑死绢馍,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的肠套。 我是一名探鬼主播舰涌,決...
    沈念sama閱讀 40,302評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼瓷耙,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼刁赖!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起宇弛,我...
    開封第一講書人閱讀 39,216評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎枪芒,沒想到半個(gè)月后彻况,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體病苗,經(jīng)...
    沈念sama閱讀 45,661評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評(píng)論 3 336
  • 正文 我和宋清朗相戀三年硫朦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,977評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡瞒斩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出涮总,到底是詐尸還是另有隱情,我是刑警寧澤瀑梗,帶...
    沈念sama閱讀 35,697評(píng)論 5 347
  • 正文 年R本政府宣布烹笔,位于F島的核電站抛丽,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏亿鲜。R本人自食惡果不足惜允蜈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 330
  • 文/蒙蒙 一饶套、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧垒探,春花似錦、人聲如沸叛复。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽翘簇。三九已至,卻和暖如春版保,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背彻犁。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汞幢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,138評(píng)論 3 370
  • 正文 我出身青樓输钩,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親买乃。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容