基于BWT算法的比對(duì)軟件原理解析(BWA & Bowtie & Bowtie2)

參考:
踏踏實(shí)實(shí)做技術(shù):BWA排惨,Bowtie弱卡,Bowtie2的比對(duì)算法推導(dǎo)

mapping pipline

mapping pipline

remove multiple mapping reads的方法

CHIP-seq: Bowtie2遥倦、BWA用的比較多
RNA-seq: Tophat囊蓝、Bsmap
甲基化:BS-seeker

其中BWA & Bowtie & Bowtie2軟件均是基于BWT算法

二代測(cè)序的特點(diǎn):
1. 短 250bp
2. 相對(duì)較高的精度 1% = Q30(不懂)

三代測(cè)序的特點(diǎn):
1. 長(zhǎng)抖拦,有structure variation (這也是為什么要做三代測(cè)序算法開(kāi)發(fā)的原因之一)
2. 不穩(wěn)定

1. pairwise alignment

global---NW
local--SW

1. backtrack算法:
$ bwa aln genome read1.fq > aln_sa1.sai
$ bwa aln genome read2.fq > aln_sa2.sai
$ bwa samse genome aln_sa1.sai read1.fq > aln_se.sam
$ bwa sampe genome aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln_pe.sam

2. 比對(duì)算法原理:
BWT算法
Seq1
Seq2
兩條序列比對(duì):pairwise alignment方法
全局比對(duì):NM算法 局部比對(duì):SW算法

3. 比對(duì)到reference基因組的方法:
1)在seq中取出一個(gè)較小的seed(30bp?)
2)通過(guò)seed找到ref的index,通過(guò)index去和附近的序列做pairwise比對(duì)
3)通過(guò)seed找ref的index的過(guò)程有兩個(gè)算法(短序列比對(duì)到基因組)

- 華大SOAP久又,MAQ。將基因組打斷成小段励两,將位置和序列存成HASH字典黎茎。
- BWA,bowtie算法当悔。解決速度問(wèn)題傅瞻。

BWT算法:
raw:ACAACG 添加$
M矩陣:
ACAACG$  平移
$ACAACG
G$ACAAC
CG$ACAA
ACG$ACA
AACG$AC
CAACG$A 
M首字母進(jìn)行排序
T矩陣:
$ACAACG
AACG$AC
ACAACG$
ACG$ACA
CAACG$A
CG$ACAA
G$ACAAC 
T矩陣第一列為F列,最后一列為L(zhǎng)列

F列: $AAACCG
L列: GC$AAAC 
關(guān)系:對(duì)應(yīng)L是F的前一個(gè)。L排序得到F盲憎。單字母相對(duì)位置不變(L中的第一個(gè)C對(duì)應(yīng)F第一個(gè)C嗅骄,以此類(lèi)推。)
保留L和L中每一個(gè)字母的相對(duì)位置饼疙,1.L可以推出F溺森。2.根據(jù)L、F相對(duì)位置可以還原ref
image.png

好處是能夠窮舉出所有的比對(duì)情況窑眯,所以可以選擇全局最優(yōu)的結(jié)果屏积;最大的缺點(diǎn)是比對(duì)的非常慢。

2.將query seq打斷成seed磅甩,比對(duì)ref index經(jīng)歷了兩代算法

1. 第一代:華大基因--SOAP MAQ  # 缺點(diǎn)是內(nèi)存占用大肾请,慢,但是找的準(zhǔn)
2. 第二代:BWA更胖,Bowtie铛铁,Bowtie2 # 解決了速度慢的問(wèn)題
image.png

3.BWT 最初用于數(shù)據(jù)壓縮

BWT(Burrows-Wheeler Transform )

假設(shè)原始的序列是
(1)Raw ACAACG # 壓縮后能還原,且比對(duì)次數(shù)盡可能少

第一步却妨,在raw seq中加$符號(hào)饵逐,并平移,形成一個(gè) raw matrix


image.png

第二步彪标,根據(jù)Raw Matrix的首字母進(jìn)行排序倍权,得到轉(zhuǎn)換矩陣Matrix’,默認(rèn)$符號(hào)排在第一位,


image.png
第一列為First 列薄声,F(xiàn)列
最后一列為L(zhǎng)ast列当船,L列

F和L的關(guān)系

  1. F是L的前面一列;
  2. 對(duì)L拍完序以后就是F默辨;
  3. 單字母的相對(duì)位置不變

所以最后只用保存L列和每個(gè)字母的相對(duì)位置就可以了德频,根據(jù)L列和每個(gè)字母的相對(duì)位置可以干兩件事情:

  1. 推出F列
  2. 根據(jù)L和F列的相對(duì)位置可以完整地還原ref相對(duì)位置

例如:第一個(gè)是L-,L-對(duì)應(yīng)F-;F-的前一個(gè)是G缩幸,L-G對(duì)應(yīng)F-G壹置;F-G的前一個(gè)是L-C,依次類(lèi)推表谊,得到原來(lái)的ref:ACAACG$

image.png

image.png
image.png

bowtie和bowtie2兩個(gè)版本之間的區(qū)別--gap

1. bowtie/BWA # bowtie只允許mismatch钞护,不允許gap;BWA都允許
2. 用bowtie的話是看不到gap open的

bowtie1 不支持gap open

14bp(high quality)---14bp(low quality of high quality)--8bp(real low quality)
分成三斷seed爆办,seed1+seed2比對(duì)總共的mismatch <= 2难咕,則繼續(xù)8bp的比對(duì);如果 > 2 直接放棄后面的比對(duì)距辆;

bowtie2 支持gap open

第一步步藕,選擇seed區(qū)域;
20里面選18---
(18+2)+(18+2)+(18+2)+...+(18+2)
保證一個(gè)fragment是20挑格,seed 是18bp
或者,10里面選16--
fragment = 16沾歪,overlap = 6漂彤,


image.png

那么根據(jù)BWT算法,就把拆分的seed mapping到基因組的大概位置灾搏;
然后把基因組可能mapping上的那段區(qū)域挑出來(lái)挫望,和query seq做比對(duì)(用NW或者SW算法),因?yàn)閝uery seq NW和SW允許gap open

image.png

注意

  1. 根據(jù)gap或者reads quality罰分得到MAPQ狂窑,當(dāng)MAPQ高于一個(gè)閾值是認(rèn)為可以比對(duì)上的媳板,低于閾值就認(rèn)為比對(duì)不上,那如果有20個(gè)高于閾值的就認(rèn)為有20個(gè)比對(duì)結(jié)果泉哈。

  2. unique map
    1)只有一個(gè)seq map上
    2)只有一段MAPQ特別高蛉幸,其他的MAPQ特別小,
    這兩種情況認(rèn)為是unique map
    只有一個(gè)map的結(jié)果怎么處理丛晦;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末奕纫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子烫沙,更是在濱河造成了極大的恐慌匹层,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锌蓄,死亡現(xiàn)場(chǎng)離奇詭異升筏,居然都是意外死亡撑柔,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)您访,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)铅忿,“玉大人,你說(shuō)我怎么就攤上這事洋只×韭伲” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵识虚,是天一觀的道長(zhǎng)肢扯。 經(jīng)常有香客問(wèn)我,道長(zhǎng)担锤,這世上最難降的妖魔是什么蔚晨? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮肛循,結(jié)果婚禮上铭腕,老公的妹妹穿的比我還像新娘。我一直安慰自己多糠,他們只是感情好累舷,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著夹孔,像睡著了一般被盈。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上搭伤,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天只怎,我揣著相機(jī)與錄音,去河邊找鬼怜俐。 笑死身堡,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的拍鲤。 我是一名探鬼主播贴谎,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼季稳!你這毒婦竟也來(lái)了赴精?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤绞幌,失蹤者是張志新(化名)和其女友劉穎蕾哟,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谭确,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年帘营,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逐哈。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡芬迄,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出昂秃,到底是詐尸還是另有隱情禀梳,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布肠骆,位于F島的核電站算途,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蚀腿。R本人自食惡果不足惜嘴瓤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望莉钙。 院中可真熱鬧廓脆,春花似錦、人聲如沸磁玉。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蚊伞。三九已至席赂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間厚柳,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工沐兵, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留别垮,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓扎谎,卻偏偏與公主長(zhǎng)得像碳想,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子毁靶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354