BWA_Bowtie1/2 比對(duì)算法【BWT】

參考:

0.bowtie jimmy 介紹
1.BWT算法
2.BWA mem 算法
3.BBQ(生信基礎(chǔ)問題16)-BWA算法原理及軟件實(shí)用
4.20171026-基于BWT算法的比對(duì)軟件原理解析(BWA & Bowtie & Bowtie2)
5.BWT-FM 算法(Burrows-Wheeler Transform And FM Index)
6.【哈佛大學(xué)】2019年生物信息學(xué)與計(jì)算生物學(xué)課程--劉小樂老師--2020 STAT115 || 英文字幕
7.比對(duì)軟件 - 專題


BWT 算法介紹:

BWT(Burrows Wheeler Transform)

BWT辅髓,數(shù)據(jù)轉(zhuǎn)換算法与斤,其實(shí)也是一種壓縮算法锈锤,基本思想就是找到字符串的重復(fù)部分來進(jìn)行壓縮寓落,還可以用來進(jìn)行序列比對(duì)庙睡。BWT會(huì)將字符串轉(zhuǎn)換成一個(gè)類似的字符串,但是轉(zhuǎn)換后的字符串的相同字符是相鄰的凰荚,這樣髓梅,我們就可以對(duì)數(shù)據(jù)進(jìn)行壓縮了。這個(gè)算法的解壓縮也很方便簡(jiǎn)單壳繁。

BWT原理

BWT編碼部分

BWT編碼壓縮步驟如下:

  1. 首先對(duì)要轉(zhuǎn)換的字符串震捣,添加一個(gè)不在字符串里的ASCII碼表里最小的字符。如 AGGAGC ——> AGGAGC闹炉,添加了 蒿赢。
  2. 對(duì)字符串進(jìn)行依次循環(huán)移位,得到一系列的字符串剩胁,如果字符串長(zhǎng)度為 n诉植, 就可以得到n個(gè)字符串,如下面圖里的第二列所示昵观。
  3. 對(duì)2中的位移后的一系列的字符串按照ASCII進(jìn)行排序晾腔,如下圖的第四列所示,第三列是排序后的字符串的原index位置啊犬。
  4. 取位移后的一系列字符串的首字母出來作為 F 列灼擂, 最后一個(gè)字母作為 L 列。如下圖 F 列 和L 列所示觉至。
  5. L 列就是最后的編碼結(jié)果剔应。
No. rotated index sorted F L LF
0 AGGAGC$ 6 $AGGAGC $ C C->$
1 GGAGC$A 3 AGC$AGG A G G->A
2 GAGC$AG 0 AGGAGC$ A $ $->A
3 AGC$AGG 5 C$AGGAG C G G->C
4 GC$AGGA 2 GAGC$AG G G G->G
5 C$AGGAG 4 GC$AGGA G A A->G
6 $AGGAGC 1 GGAGC$A G A A->G

由編碼過程,參考上圖语御,其實(shí)可以發(fā)現(xiàn)BWT編碼有三個(gè)特性(循環(huán)位移決定)峻贮,

  1. L 列的第一個(gè)元素是源字符串的最后一個(gè)元素。
  2. 循環(huán)位移可知应闯,同一行的 F 列和 L 列的元素在源字符串里是相鄰的纤控,而且 L 列元素的下一個(gè)字符就是 同行里 F 列的元素。
  3. 同一種字符在 F 列和 L 列里的rank是一樣的碉纺,比方說船万, F 列里的第二個(gè) A 和 L 列里的第二個(gè) A 在源字符串里是同一個(gè)A刻撒。 F 列里的第一個(gè) G 和 L 列里的第一個(gè) G 在源字符串里是同一個(gè)G,rank如下圖所示。
rank

根據(jù)以上這三個(gè)條件耿导, 我們就可以進(jìn)行BWT解碼声怔,也就是解壓縮。

BWT解碼部分

BWT解碼舱呻,已知 L 列醋火, 推源字符串。

  1. 由 L 列 得到 F 列箱吕。因?yàn)長(zhǎng) 列 和F 列其實(shí)都是源串的字符的不同排列方式胎撇,但是我們知道 F 列是按照 ASCII碼排序的,所以從 L 就可以推出 F 殖氏。
  2. 根據(jù)第一個(gè)性質(zhì),我們可以得到源串的最后一個(gè)字符是 L 列的第一個(gè)字符姻采,作為當(dāng)前字符(下面依次往前遞推)雅采。
  3. 依據(jù)上一步得到的作為當(dāng)前字符, 根據(jù)第三個(gè)性質(zhì)慨亲,我們可以得到同一個(gè)字符在 F 列中的位置婚瓜,作為當(dāng)前字符。
  4. 依據(jù) F 列里的當(dāng)前字符刑棵,根據(jù)第二個(gè)性質(zhì)巴刻,我們可以得到當(dāng)前字符的上一個(gè)字符是同行里的 L 列里的元素,將新增字符作為當(dāng)前字符,然后跳轉(zhuǎn)到第 3 步蛉签。
  5. 直到所有字符全部推算出來胡陪。

整個(gè)過程如下圖所示:


jiema

BWA/Bowtie/Bowtie2 比對(duì)算法

三者比對(duì)都是基于BWT轉(zhuǎn)換算法,或壓縮算法碍舍。
由于二代數(shù)據(jù)數(shù)據(jù)和三代reads特點(diǎn)存在差別柠座。BWA 這些主要是基于二代測(cè)序來設(shè)計(jì)。

image.png

用于二代測(cè)序的比對(duì)軟件分為SOAP類 ;BWA 類
但是SOAP 是將基因組分成很多小讀段片橡,因此內(nèi)存消耗很大妈经,速度不理想。
BWA此類算法捧书,采用BWT方法吹泡,有效節(jié)省空間,及其快速確定比對(duì)位置经瓷。

image.png

下面列出序列建index 過程:


image.png

下面列出用index,獲取query 比對(duì)位置過程


image.png

一些補(bǔ)充問題:


image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末爆哑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子了嚎,更是在濱河造成了極大的恐慌泪漂,老刑警劉巖廊营,帶你破解...
    沈念sama閱讀 222,590評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異萝勤,居然都是意外死亡露筒,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門敌卓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慎式,“玉大人,你說我怎么就攤上這事趟径”窭簦” “怎么了?”我有些...
    開封第一講書人閱讀 169,301評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵蜗巧,是天一觀的道長(zhǎng)掌眠。 經(jīng)常有香客問我,道長(zhǎng)幕屹,這世上最難降的妖魔是什么蓝丙? 我笑而不...
    開封第一講書人閱讀 60,078評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮望拖,結(jié)果婚禮上渺尘,老公的妹妹穿的比我還像新娘。我一直安慰自己说敏,他們只是感情好鸥跟,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著盔沫,像睡著了一般医咨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上迅诬,一...
    開封第一講書人閱讀 52,682評(píng)論 1 312
  • 那天腋逆,我揣著相機(jī)與錄音,去河邊找鬼侈贷。 笑死惩歉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的俏蛮。 我是一名探鬼主播撑蚌,決...
    沈念sama閱讀 41,155評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼搏屑!你這毒婦竟也來了争涌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,098評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤辣恋,失蹤者是張志新(化名)和其女友劉穎亮垫,沒想到半個(gè)月后模软,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,638評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饮潦,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評(píng)論 3 342
  • 正文 我和宋清朗相戀三年燃异,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片继蜡。...
    茶點(diǎn)故事閱讀 40,852評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡回俐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出稀并,到底是詐尸還是另有隱情仅颇,我是刑警寧澤,帶...
    沈念sama閱讀 36,520評(píng)論 5 351
  • 正文 年R本政府宣布碘举,位于F島的核電站忘瓦,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏引颈。R本人自食惡果不足惜政冻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望线欲。 院中可真熱鬧,春花似錦汽摹、人聲如沸李丰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,674評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽趴泌。三九已至,卻和暖如春拉庶,著一層夾襖步出監(jiān)牢的瞬間嗜憔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,788評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工氏仗, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吉捶,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,279評(píng)論 3 379
  • 正文 我出身青樓皆尔,卻偏偏與公主長(zhǎng)得像呐舔,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子慷蠕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評(píng)論 2 361