【轉(zhuǎn)】基因組比對文件(SAM/BAM) Soft Clip 與 Hard Clip

Clip 的含義

Clip 作為名詞講朦佩,有剪下來的東西的意義,在SAM/BAM 比對文件里面庐氮,用于描述那些一條序列上语稠,在序列兩端,比對不上的堿基序列(還是很形象的,一條上比對不上的部分仙畦,就給剪下來扔掉的感覺输涕,嚯嚯嚯嚯)。
Clip 分為Soft Clip和Hard Clip慨畸,同樣都是Clip(比對不上的堿基序列)莱坎,兩者有什么區(qū)別呢?先看一下官方的解釋(如下圖1):

  • Soft Clip寸士,是指雖然比對不到基因組檐什,但是還是存在于SEQ (segment SEQuence)中的序列,此時CIGAR列對應的S(Soft)的符號弱卡。直白點說乃正,就是雖然比對不上參考基因組,但是在BAM/SAM文件中的reads上還是存在的序列(并沒有被截斷扔掉的序列)谐宙。
  • Hard Clip烫葬,表示比對不上并且不會存在于SAM/BAM文件中的序列(被截斷扔掉了的序列,此時CIGAR列會留下H(Hard)的符號凡蜻,但是序列的那一列卻沒有對應的序列了)搭综。
    圖1 CIGAR列說明

什么時候會出現(xiàn)Clip

知道了Clip的含義,再先理解一下Soft Clip划栓,即只要一條序列上兑巾,兩端有比對不上的序列部分,就是Soft Clip忠荞,這個一條序列上有比對不上的部分的現(xiàn)象是必然存在的(比如結(jié)構(gòu)變異的斷點的部分)蒋歌,這種兩端比對不上的read的特殊的表示方法,就是Soft Clip委煤。Soft Clip是可以獨立存在的堂油。
而Hard Clip,相對來說更特殊一點碧绞,是依賴于Soft Clip存在的府框。也就是有Soft Clip不一定有Hard Clip,而有Hard Clip則一定有Soft Clip讥邻。Hard Clip存在的本意迫靖,是減少BAM文件序列的冗余度,比如有一條read兴使,它能比對到A系宜,B兩個地方,在A地方发魄,是60M90S盹牧,在B地方是60H90M,此時一條read其實已經(jīng)在A位置有了完整的序列信息,在B位置的信息其實是冗余的汰寓,所以在B位置可以引入Hard Clip這樣一個標記形式吆寨,就能把B位置的序列標記為secondary。常用的是BWA MEM -H 參數(shù)踩寇,能講剛剛說的B位置的比對,進行Hard Clip標記六水,可參考官方說明俺孙。

圖2 BWA MEM -H 參數(shù)說明

舉例再來看一下Soft Clip 與 Hard Clip在SAM/BAM文件中的樣子:

圖3

圖3:比對的一對reads的前面部分,從第二列的Flag能知道163與2211對應的行是read2(也就是第一行與第二行是同一條read掷贾,即read two)睛榄,83對應的行是read1。
第一行44S106M
第二行45M105H(也就是第二行的序列只會顯示45bp想帅,不要問我為什么44S變成了45M场靴,因為第二行math的地方就是45M)


圖4

圖4:緊接著圖3的后半部分,可以看到第二行港准,只顯示了45M旨剥,Hard Clip部分被切掉了。

原文鏈接:人類基因組學與生物信息學

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末浅缸,一起剝皮案震驚了整個濱河市轨帜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌衩椒,老刑警劉巖蚌父,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異毛萌,居然都是意外死亡苟弛,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門阁将,熙熙樓的掌柜王于貴愁眉苦臉地迎上來膏秫,“玉大人,你說我怎么就攤上這事冀痕±蠖茫” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵言蛇,是天一觀的道長僻他。 經(jīng)常有香客問我,道長腊尚,這世上最難降的妖魔是什么吨拗? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上劝篷,老公的妹妹穿的比我還像新娘哨鸭。我一直安慰自己,他們只是感情好娇妓,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布像鸡。 她就那樣靜靜地躺著,像睡著了一般哈恰。 火紅的嫁衣襯著肌膚如雪只估。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天着绷,我揣著相機與錄音蛔钙,去河邊找鬼。 笑死荠医,一個胖子當著我的面吹牛吁脱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播彬向,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼兼贡,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了幢泼?” 一聲冷哼從身側(cè)響起紧显,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缕棵,沒想到半個月后孵班,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡招驴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年篙程,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片别厘。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡虱饿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出触趴,到底是詐尸還是另有隱情氮发,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布冗懦,位于F島的核電站爽冕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏披蕉。R本人自食惡果不足惜颈畸,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一乌奇、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧眯娱,春花似錦礁苗、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至于样,卻和暖如春迁霎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背百宇。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留秘豹,地道東北人携御。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像既绕,于是被迫代替她去往敵國和親啄刹。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容

  • wes定義: 全外顯子組測序凄贩,是利用目標序列捕獲技術(shù)誓军, 將全基因組編碼基因外顯子區(qū)域的DNA捕獲并富集后,進行高通...
    鳳凰_0949閱讀 4,313評論 0 7
  • SAM格式介紹 SAM全稱是Sequence Alignment/Map, 是目前最常用的存放比對或聯(lián)配數(shù)據(jù)的格式...
    xuzhougeng閱讀 2,131評論 0 9
  • SAM及其相關(guān)工具 SAM格式介紹 SAM全稱是Sequence Alignment/Map, 是目前最常用的存放...
    xuzhougeng閱讀 23,436評論 4 52
  • 有人跟我說壶熏,建深句柠,你是現(xiàn)實主義者。 我變了嗎棒假?我一直追求自己喜歡的溯职,好玩有趣的,我一直跟從內(nèi)心帽哑。 他們說谜酒,這是精致...
    Bekey閱讀 668評論 0 0
  • 時光在不經(jīng)意中流逝,翻開舊日的筆記祝拯,字里行間充滿著情深意境的交錯甚带。仿佛回到了那曾經(jīng)經(jīng)歷過的風風雨雨她肯,坎坎坷...
    浩丿浩閱讀 453評論 0 1