比對(duì)軟件BWA(Burrows-Wheeler Aligner)

BWA (Burrows-Wheeler Aligner)

BWA主要是將reads比對(duì)到大型基因組上字支,主要功能是:序列比對(duì)。首先通過(guò)BWT(Burrows-Wheeler Transformation涛酗,BWT壓縮算法)為大型參考基因組建立索引,然后將reads比對(duì)到基因組扰才。特點(diǎn)是快速仑濒、準(zhǔn)確汽馋、省內(nèi)存。由三種類(lèi)似算法組成:BWA-backtrack粱年,BWA-SW和BWA-MEM售滤。首推BWA-MEM。

三種算法的適用范圍

  • BWA-backtrack:reads長(zhǎng)度<70bp時(shí)台诗,推薦本算法完箩,建議輸入reads長(zhǎng)度 < 100bp。
  • BWA-SW:在reads具有頻繁的gap時(shí)拉队,比對(duì)更敏感弊知,推薦本算法。reads長(zhǎng)度一般為70bp-1Mbp粱快,支持long-reads秩彤,split alignment。
  • BWA-MEM(首推):在reads長(zhǎng)度在70bp-1Mbp范圍時(shí)事哭,推薦本算法(除了上面兩種情況)漫雷。支持long-reads,split alignment鳍咱。

語(yǔ)法

  • bwa index ref.fa #首先建立基因組索引
  • bwa mem ref.fa reads.fq > aln-se.sam # 調(diào)用BWA-MEM
  • bwa mem ref.fa read1.fq read2.fq > aln-pe.sam # 調(diào)用BWA-MEM
  • bwa aln ref.fa short_read.fq > aln_sa.sai # 調(diào)用BWA-backtrack
  • bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam # 調(diào)用BWA-backtrack
  • bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam # 調(diào)用BWA-backtrack
  • bwa bwasw ref.fa long_read.fq > aln.sam # 調(diào)用BWA-SW
  • 注意:BWA輸入的是fastq/fq的原始測(cè)序數(shù)據(jù)降盹。

BWA參數(shù)

SAM格式

short-reads比對(duì)

  • 比對(duì)精度
  • 評(píng)估插入長(zhǎng)度分布
  • 比對(duì)速度
    比對(duì)速度很大程度取決于請(qǐng)求序列的錯(cuò)誤率(r)。當(dāng)接近完全匹配時(shí)谤辜,BWA速度最快蓄坏。當(dāng)允許多個(gè)失配時(shí),BWA需要尋找更多的候選位點(diǎn)丑念。允許太多失配時(shí)涡戳,不建議采用BWA。

BWA-0.6的改變

0.6版本以來(lái)渠欺,BWA可以處理長(zhǎng)度在4G以上的基因組妹蔽。這樣有可能將正負(fù)鏈互補(bǔ)的基因組序列整合到一個(gè)索引(FM-index)中去,可以使BWA-short和BWA-SW更快。
最新版本BWA-SW同樣可以處理長(zhǎng)度大于100bp的pair-end reads胳岂。與BWA-short相比编整,BWA-SW對(duì)高度唯一的reads準(zhǔn)確性更高和相對(duì)更長(zhǎng)的插入與結(jié)構(gòu)突變時(shí)更穩(wěn)健。盡管如此乳丰,從許多次優(yōu)比對(duì)中選取最優(yōu)比對(duì)時(shí)掌测,BWA-short更好。

其他情況

  1. 一個(gè)read有多部分匹配
    BWA-MEM / BWA-SW可以報(bào)告單個(gè)reads分段比對(duì)到基因組上不同位置产园。在結(jié)構(gòu)變異汞斧,基因融合或參考序列錯(cuò)誤組合等情況下,多部分比對(duì)是可能的什燕。這需要后續(xù)分析粘勒。可使用選項(xiàng)'-M'將附加匹配標(biāo)記為次要屎即。
  2. BWA是否可以發(fā)現(xiàn)嵌合reads(chimeric reads)庙睡?
    是的,BWA-SW和BWA-MEM都能找到嵌合reads技俐。 BWA通常為每次讀取報(bào)告一個(gè)比對(duì)乘陪,但如果read/config是嵌合reads,則可以輸出兩個(gè)或多個(gè)比對(duì)雕擂。(我想:應(yīng)與上面的1相同)
  3. BWA是否分析SNP啡邑?
    不,BWA只比對(duì)井赌。其SAM格式輸出結(jié)果谤逼,可通過(guò)如samtoolsGATK分析SNP。
  4. paired-end數(shù)據(jù)中一條reads具有很高的比對(duì)質(zhì)量(high mapping quality)族展,另一條是0
    這是對(duì)的森缠。比對(duì)質(zhì)量是分配給單個(gè)read,而不是讀read pair仪缸。
  5. BWA是否能處理長(zhǎng)度超過(guò)4GB的參考序列贵涵?
    是。自0.6.x以來(lái)恰画,所有BWA算法都可以處理總長(zhǎng)度超過(guò)4GB的基因組宾茂。但是,單個(gè)染色體不應(yīng)超過(guò)2GB拴还。
  6. 測(cè)序錯(cuò)誤的容忍度是多少跨晴?
    Bwa-back主要為reads錯(cuò)誤率小于2%而設(shè)計(jì)∑郑可通過(guò)命令行參數(shù)調(diào)整算法對(duì)錯(cuò)誤率的容忍度端盆,但其性能會(huì)迅速降低怀骤。對(duì)于Illumina讀取,bwa-backtrack可以在比對(duì)前將3'端低質(zhì)量堿基修剪焕妙,3'尾部有高錯(cuò)誤率的很多reads能夠完成比對(duì)蒋伦,這是Illumina數(shù)據(jù)的典型特征。
    BWA-SW和BWA-MEM在給定較長(zhǎng)對(duì)準(zhǔn)的情況下都容忍更多的錯(cuò)誤焚鹊。仿真表明痕届,如果100bp對(duì)齊誤差為2%,200bp誤差為3%末患,500bp誤差為5%研叫,1000bp或更長(zhǎng)對(duì)齊誤差為10%,則仿真結(jié)果可能會(huì)很好璧针。
  7. 有reads比對(duì)出染色體末端嚷炉,并被標(biāo)記為未映射(標(biāo)志0x4)。這里發(fā)生了什么探橱?
    BWA內(nèi)部實(shí)現(xiàn)時(shí)渤昌,會(huì)將所有參考序列先連接成一個(gè)長(zhǎng)序列。reads可以被映射到兩個(gè)相鄰參考序列的交點(diǎn)走搁。在這種情況下,BWA會(huì)將讀取標(biāo)記為未映射迈窟,不過(guò)你會(huì)看到位置私植,CIGAR和所有標(biāo)記。一個(gè)更好的解決方案是選擇一個(gè)替代的位置或者調(diào)整最終的比對(duì)方式车酣,但是這在編程中非常復(fù)雜曲稼,目前尚未實(shí)現(xiàn)。

本文主要參考BWA官方說(shuō)明文檔BWA手冊(cè)

Published Articles:

  • The short read alignment component (bwa-short) has been published:
    Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler Transform. Bioinformatics, 25:1754-60. [PMID: 19451168]
  • If you use BWA-SW, please cite:
    Li H. and Durbin R. (2010) Fast and accurate long-read alignment with Burrows-Wheeler Transform. Bioinformatics, Epub. [PMID: 20080505]
  • If you use the fastmap component of BWA, please cite:
    Li H. (2012) Exploring single-sample SNP and INDEL calling with whole-genome de novo assembly. Bioinformatics, 28, 1838-1844. [PMID: 22569178]
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末湖员,一起剝皮案震驚了整個(gè)濱河市贫悄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌娘摔,老刑警劉巖窄坦,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異凳寺,居然都是意外死亡鸭津,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)挥转,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)食拜,“玉大人枉昏,你說(shuō)我怎么就攤上這事∥攀椋” “怎么了名斟?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)魄眉。 經(jīng)常有香客問(wèn)我砰盐,道長(zhǎng),這世上最難降的妖魔是什么杆融? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任楞卡,我火速辦了婚禮,結(jié)果婚禮上脾歇,老公的妹妹穿的比我還像新娘蒋腮。我一直安慰自己,他們只是感情好藕各,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布池摧。 她就那樣靜靜地躺著,像睡著了一般激况。 火紅的嫁衣襯著肌膚如雪作彤。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,692評(píng)論 1 305
  • 那天乌逐,我揣著相機(jī)與錄音竭讳,去河邊找鬼。 笑死浙踢,一個(gè)胖子當(dāng)著我的面吹牛绢慢,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播洛波,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼胰舆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了蹬挤?” 一聲冷哼從身側(cè)響起缚窿,我...
    開(kāi)封第一講書(shū)人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎焰扳,沒(méi)想到半個(gè)月后倦零,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡吨悍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年光绕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片畜份。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡诞帐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出爆雹,到底是詐尸還是另有隱情停蕉,我是刑警寧澤愕鼓,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站慧起,受9級(jí)特大地震影響菇晃,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蚓挤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一磺送、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧灿意,春花似錦估灿、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至荒辕,卻和暖如春汗销,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背抵窒。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工弛针, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人李皇。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓钦奋,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親疙赠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355