基于BWT算法的比對(duì)軟件原理解析（BWA & Bowtie & Bowtie2）

參考：
踏踏實(shí)實(shí)做技術(shù)：BWA排惨，Bowtie弱卡，Bowtie2的比對(duì)算法推導(dǎo)

mapping pipline

remove multiple mapping reads的方法

CHIP-seq: Bowtie2遥倦、BWA用的比較多
RNA-seq: Tophat囊蓝、Bsmap
甲基化：BS-seeker

其中BWA & Bowtie & Bowtie2軟件均是基于BWT算法

二代測(cè)序的特點(diǎn)：
1. 短 250bp
2. 相對(duì)較高的精度 1% = Q30（不懂）

三代測(cè)序的特點(diǎn)：
1. 長(zhǎng)抖拦，有structure variation (這也是為什么要做三代測(cè)序算法開(kāi)發(fā)的原因之一)
2. 不穩(wěn)定

1. pairwise alignment

global---NW
local--SW

1. backtrack算法：
$ bwa aln genome read1.fq > aln_sa1.sai
$ bwa aln genome read2.fq > aln_sa2.sai
$ bwa samse genome aln_sa1.sai read1.fq > aln_se.sam
$ bwa sampe genome aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln_pe.sam

2. 比對(duì)算法原理：
BWT算法
Seq1
Seq2
兩條序列比對(duì)：pairwise alignment方法
全局比對(duì)：NM算法 局部比對(duì)：SW算法

3. 比對(duì)到reference基因組的方法：
1)在seq中取出一個(gè)較小的seed(30bp?)
2)通過(guò)seed找到ref的index,通過(guò)index去和附近的序列做pairwise比對(duì)
3)通過(guò)seed找ref的index的過(guò)程有兩個(gè)算法（短序列比對(duì)到基因組）

- 華大SOAP久又，MAQ。將基因組打斷成小段励两，將位置和序列存成HASH字典黎茎。
- BWA，bowtie算法当悔。解決速度問(wèn)題傅瞻。

BWT算法：
raw:ACAACG 添加$
M矩陣：
ACAACG$  平移
$ACAACG
G$ACAAC
CG$ACAA
ACG$ACA
AACG$AC
CAACG$A 
M首字母進(jìn)行排序
T矩陣：
$ACAACG
AACG$AC
ACAACG$
ACG$ACA
CAACG$A
CG$ACAA
G$ACAAC 
T矩陣第一列為F列,最后一列為L(zhǎng)列

F列： $AAACCG
L列： GC$AAAC 
關(guān)系：對(duì)應(yīng)L是F的前一個(gè)。L排序得到F盲憎。單字母相對(duì)位置不變（L中的第一個(gè)C對(duì)應(yīng)F第一個(gè)C嗅骄，以此類(lèi)推。）
保留L和L中每一個(gè)字母的相對(duì)位置饼疙，1.L可以推出F溺森。2.根據(jù)L、F相對(duì)位置可以還原ref

image.png

好處是能夠窮舉出所有的比對(duì)情況窑眯，所以可以選擇全局最優(yōu)的結(jié)果屏积；最大的缺點(diǎn)是比對(duì)的非常慢。

2.將query seq打斷成seed磅甩，比對(duì)ref index經(jīng)歷了兩代算法

1. 第一代：華大基因--SOAP MAQ  # 缺點(diǎn)是內(nèi)存占用大肾请，慢，但是找的準(zhǔn)
2. 第二代：BWA更胖，Bowtie铛铁，Bowtie2 # 解決了速度慢的問(wèn)題

image.png

3.BWT 最初用于數(shù)據(jù)壓縮

BWT（Burrows-Wheeler Transform ）

假設(shè)原始的序列是
（1）Raw ACAACG # 壓縮后能還原，且比對(duì)次數(shù)盡可能少

第一步却妨，在raw seq中加$符號(hào)饵逐，并平移，形成一個(gè) raw matrix

image.png

第二步彪标，根據(jù)Raw Matrix的首字母進(jìn)行排序倍权，得到轉(zhuǎn)換矩陣Matrix’，默認(rèn)$符號(hào)排在第一位，

image.png

第一列為First 列薄声，F(xiàn)列
最后一列為L(zhǎng)ast列当船，L列

F和L的關(guān)系

F是L的前面一列；
對(duì)L拍完序以后就是F默辨；
單字母的相對(duì)位置不變

所以最后只用保存L列和每個(gè)字母的相對(duì)位置就可以了德频，根據(jù)L列和每個(gè)字母的相對(duì)位置可以干兩件事情：

推出F列
根據(jù)L和F列的相對(duì)位置可以完整地還原ref相對(duì)位置

例如：第一個(gè)是L- $,L-$ 對(duì)應(yīng)F- $；F-$ 的前一個(gè)是G缩幸，L-G對(duì)應(yīng)F-G壹置；F-G的前一個(gè)是L-C，依次類(lèi)推表谊，得到原來(lái)的ref：ACAACG$

image.png

bowtie和bowtie2兩個(gè)版本之間的區(qū)別--gap

1. bowtie/BWA # bowtie只允許mismatch钞护，不允許gap；BWA都允許
2. 用bowtie的話是看不到gap open的

bowtie1 不支持gap open

14bp（high quality）---14bp（low quality of high quality）--8bp（real low quality）
分成三斷seed爆办，seed1+seed2比對(duì)總共的mismatch <= 2难咕，則繼續(xù)8bp的比對(duì)；如果 > 2 直接放棄后面的比對(duì)距辆；

bowtie2 支持gap open

第一步步藕，選擇seed區(qū)域；
20里面選18---
（18+2）+（18+2）+（18+2）+...+(18+2)
保證一個(gè)fragment是20挑格，seed 是18bp
或者，10里面選16--
fragment = 16沾歪，overlap = 6漂彤，

image.png

那么根據(jù)BWT算法，就把拆分的seed mapping到基因組的大概位置灾搏；
然后把基因組可能mapping上的那段區(qū)域挑出來(lái)挫望，和query seq做比對(duì)（用NW或者SW算法），因?yàn)閝uery seq NW和SW允許gap open

image.png

注意

根據(jù)gap或者reads quality罰分得到MAPQ狂窑，當(dāng)MAPQ高于一個(gè)閾值是認(rèn)為可以比對(duì)上的媳板，低于閾值就認(rèn)為比對(duì)不上，那如果有20個(gè)高于閾值的就認(rèn)為有20個(gè)比對(duì)結(jié)果泉哈。
unique map
1）只有一個(gè)seq map上
2）只有一段MAPQ特別高蛉幸，其他的MAPQ特別小，
這兩種情況認(rèn)為是unique map
只有一個(gè)map的結(jié)果怎么處理丛晦；

最后編輯于：2020.05.20 10:23:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末奕纫，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子烫沙，更是在濱河造成了極大的恐慌匹层，老刑警劉巖，帶你破解...
沈念sama閱讀 217,277評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件锌蓄，死亡現(xiàn)場(chǎng)離奇詭異升筏，居然都是意外死亡撑柔，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)您访，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)铅忿，“玉大人，你說(shuō)我怎么就攤上這事洋只×韭伲” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵识虚，是天一觀的道長(zhǎng)肢扯。經(jīng)常有香客問(wèn)我，道長(zhǎng)担锤，這世上最難降的妖魔是什么蔚晨？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮肛循，結(jié)果婚禮上铭腕，老公的妹妹穿的比我還像新娘。我一直安慰自己多糠，他們只是感情好累舷，可當(dāng)我...
茶點(diǎn)故事閱讀 67,402評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著夹孔，像睡著了一般被盈。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上搭伤，一...
開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1贊 301
城市分裂傳說(shuō)
那天只怎，我揣著相機(jī)與錄音，去河邊找鬼怜俐。笑死身堡，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的拍鲤。我是一名探鬼主播贴谎，決...
沈念sama閱讀 40,135評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼季稳！你這毒婦竟也來(lái)了赴精？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤绞幌，失蹤者是張志新（化名）和其女友劉穎蕾哟，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,429評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡谭确，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,636評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年帘营，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逐哈。...
茶點(diǎn)故事閱讀 39,785評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡芬迄，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出昂秃，到底是詐尸還是另有隱情禀梳，我是刑警寧澤，帶...
沈念sama閱讀 35,492評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布肠骆，位于F島的核電站算途，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏蚀腿。R本人自食惡果不足惜嘴瓤，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,092評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望莉钙。院中可真熱鬧廓脆，春花似錦、人聲如沸磁玉。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蚊伞。三九已至席赂，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間厚柳，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工沐兵，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留别垮，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,891評(píng)論 2贊 370
代替公主和親
正文我出身青樓扎谎，卻偏偏與公主長(zhǎng)得像碳想，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子毁靶，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,713評(píng)論 2贊 354