BWA使用詳解

參考來(lái)源http://starsyi.github.io/2016/05/24/BWA-%E5%91%BD%E4%BB%A4%E8%AF%A6%E8%A7%A3/

一、BWA 簡(jiǎn)介

BWA针肥,即Burrows-Wheeler-Alignment Tool拓巧。BWA 的學(xué)習(xí)主要來(lái)自參考網(wǎng)站使用手冊(cè)闸度;BWA 是一種能夠?qū)⒉町惗容^小的序列比對(duì)到一個(gè)較大的參考基因組上的軟件包。它由三個(gè)不同的算法:

BWA-backtrack: 是用來(lái)比對(duì) Illumina 的序列的,reads 長(zhǎng)度最長(zhǎng)能到 100bp酱虎。-
BWA-SW: 用于比對(duì) long-read ,支持的長(zhǎng)度為 70bp-1Mbp擂涛;同時(shí)支持剪接性比對(duì)读串。
BWA-MEM: 推薦使用的算法,支持較長(zhǎng)的read長(zhǎng)度撒妈,同時(shí)支持剪接性比對(duì)(split alignments)恢暖,但是BWA-MEM是更新的算法,也更快狰右,更準(zhǔn)確杰捂,且 BWA-MEM 對(duì)于 70bp-100bp 的 Illumina 數(shù)據(jù)來(lái)說(shuō),效果也更好些棋蚌。

二嫁佳、 BWA 使用

在運(yùn)用這三種算法之前挨队,需要先利用 BWA 的 index 命令,構(gòu)建出參考基因組的 FM-index蒿往,而對(duì)與上述的三種不同的算法而言盛垦,又有不同的命令:

aln/samse/sampe ----> BWA-backtrack (samse 中的 se 是 single-end 的簡(jiǎn)寫(xiě),而 sampe 中的 pe 是 paired-end 的簡(jiǎn)寫(xiě))瓤漏。
bwasw ----> BWA-SW
mem ----> BWA-MEM
3.1 建立索引 index

在進(jìn)行 reads 的比對(duì)前情臭,需要對(duì) fasta 文件構(gòu)建 FM-index。用法和參數(shù)如下:

index Usage:
      bwa index [ –p prefix ] [ –a algoType ] <in.db.fasta>
OPTIONS: 
      -p STR   輸出數(shù)據(jù)庫(kù)的前綴赌蔑;【默認(rèn)和輸入的文件名一致俯在,輸出的數(shù)據(jù)庫(kù)在其輸入文件所在的文件夾,并以該文件名為前綴娃惯□卫郑】
      -a [is|bwtsw]   構(gòu)建index的算法,有兩個(gè)算法: is 是默認(rèn)的算法趾浅,雖然相對(duì)較快愕提,但是需要較大的內(nèi)存,當(dāng)構(gòu)建的數(shù)據(jù)庫(kù)大于
               2GB的時(shí)候就不能正常工作了皿哨。 bwtsw 對(duì)于短的參考序列式不工作的浅侨,必須要大于等于10MB, 但能用于較大的基因組數(shù)據(jù),比如人的全基因組证膨。

#根據(jù)reference genome data(e.g. ref.fa) 建立 Index File例子:
$ bwa index ref.fa -p genome###可以不加-p genome如输,這樣建立索引都是以ref.fa為前綴
3.2 mem比對(duì)

該算法先使用 MEM(maximal exact matches) 進(jìn)行 seeding alignments,再使用 SW(affine-gap Smith-Waterman) 算法進(jìn)行 seeds 的延伸央勒。BWA–MEM 算法執(zhí)行局部比對(duì)和剪接性不见。可能會(huì)出現(xiàn) query 序列的多個(gè)不同的部位出現(xiàn)各自的最優(yōu)匹配崔步,導(dǎo)致 reads 有多個(gè)最佳匹配位點(diǎn)稳吮。這對(duì) long reads 的比對(duì)時(shí)比較重要的結(jié)果。但是卻會(huì)和 Picard 的 markDuplicates 程序不兼容井濒。使用方法如下:

mem Usage: bwa mem [options] ref.fa reads.fq [mates.fq]

簡(jiǎn)單的來(lái)講灶似,mem 使用的 MEMs(maximal exact matches) 進(jìn)行seedling alignments, 再使用 SW(affine-gap Smith-Waterman 算法)進(jìn)行seeding extending.
mem 進(jìn)行局部比對(duì),因此瑞你,對(duì)于一條序列的不同區(qū)域可能會(huì)產(chǎn)生多種最優(yōu)匹配結(jié)果酪惭, 這對(duì)于long reads 來(lái)說(shuō)尤為重要。 有些軟件如 Picard’s markDuplicates 跟 mem 的這種剪接性比對(duì)不兼容,在這種情況下捏悬,可以使用 –M 選項(xiàng)來(lái)將 shorter split hits 標(biāo)記為次優(yōu)撞蚕。
特別說(shuō)明
如果 mates.fq 缺省,且參數(shù) –p 未設(shè)定过牙,那么 reads.fq 被認(rèn)為是 single-end;如果 mates.fq 存在甥厦,且參數(shù) –p 未設(shè)定纺铭,那么 mem 命令會(huì)認(rèn)為 read.fq 和 mates.fq 中的 i-th reads 組成一個(gè)read對(duì) (a read pair),這個(gè)模式是常用的 paired-end mode刀疙。如果參數(shù) –p 被設(shè)定舶赔,那么, mem 命令會(huì)認(rèn)為 read.fq 中的 第 2i-th 和 第 (2i + 1)-th 的 reads 組成一個(gè) read 對(duì) (a read pair)谦秧,這種方式也被成為交錯(cuò)式的(interleaved paired-end)竟纳。 在這種情況下,即使有 mates.fq疚鲤,也會(huì)被忽略锥累。
常用的參數(shù)如下

-t   INT 線(xiàn)程數(shù),默認(rèn)是1集歇。
-M   將 shorter split hits 標(biāo)記為次優(yōu)桶略,以兼容 Picard’s markDuplicates 軟件。
-p   若無(wú)此參數(shù):輸入文件只有1個(gè)诲宇,則進(jìn)行單端比對(duì)际歼;若輸入文件有2個(gè),則作為paired reads進(jìn)行比對(duì)姑蓝。若加入此參數(shù):則僅以第1個(gè)文件作為輸入(輸入的文件若有2個(gè)鹅心,則忽略之),該文件必須是read1.fq和read2.fa進(jìn)行reads交叉的數(shù)據(jù)纺荧。
-R   STR 完整的read group的頭部旭愧,可以用 '\t' 作為分隔符, 在輸出的SAM文件中被解釋為制表符TAB. read group 的ID虐秋,會(huì)被添加到輸出文件的每一個(gè)read的頭部榕茧。
-T   INT   當(dāng)比對(duì)的分值比 INT 小時(shí),不輸出該比對(duì)結(jié)果客给,這個(gè)參數(shù)只影響輸出的結(jié)果,不影響比對(duì)的過(guò)程肢簿。-a 將所有的比對(duì)結(jié)果都輸出靶剑,包括 single-end 和 unpaired paired-end的 reads,但是這些比對(duì)的結(jié)果會(huì)被標(biāo)記為次優(yōu)池充。

#例子:
$ bwa mem ref.fa reads.fq > mem-se.sam
$ bwa mem ref.fa read1.fq read2.fq > mem-pe.sam
$ bwa mem -t 4 -M -R "\@RG\tID:{library}\tLB:{library}\tPL:Illumina\tPU:{sample}\tSM:{sample}\" ref.fa read1.fastq read2.fastq > mem-pe.sam 2> ./mem-pe.log
3.3 align/samse/sampe比對(duì)

用法如下:

#對(duì)于single-read
bwa aln [options] ref.fa read.fq > aln_sa.sai
bwa samse [options] ref.fa aln_sa.sai read.fq > aln-se.sam
#對(duì)于pair-reads:
bwa aln [options] ref.fa read1.fq > aln_sa1.sai
bwa aln [options] ref.fa read2.fq > aln_sa2.sai
bwa sampe [options] ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam
3.4 bwasw

對(duì)輸入的第1個(gè)文件的所有序列進(jìn)行比對(duì)桩引。如果輸如有 2 個(gè)文件,則進(jìn)行 paired-end 比對(duì)收夸,此模式僅對(duì) Illumina 的 short-insert 數(shù)據(jù)進(jìn)行比對(duì)坑匠。在 Paired-end 模式下,BWA-SW依然輸出剪接性比對(duì)結(jié)果卧惜,但是這些結(jié)果會(huì)標(biāo)記為 not properly paired; 同時(shí)如果有多個(gè)匹配位點(diǎn)厘灼,則不會(huì)寫(xiě)入 mate 的匹配位置夹纫。常用參數(shù)如下:

bwasw Usage: bwa bwasw [ options ] ref.fasta reads.fq [mate.fq] > aln.sam
-t INT 使用的線(xiàn)程數(shù)

例子:
$ bwa bwasw genome long_read.fq > aln.sam$ bwa bwasw genome read1.fq read2.fq > aln-pe.sam
3.5 backtrack

經(jīng)典的 bwa 先使用 aln 命令將單獨(dú)的 reads 比對(duì)到參考序列,再使用 samse 或 sampe 生成 sam 文件设凹。常用例子:

$ bwa aln genome read1.fq > aln_sa1.sai$ bwa aln genome read2.fq > aln_sa2.sai
$ bwa samse genome aln_sa1.sai read1.fq > aln_se.sam
$ bwa sampe genome aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln_pe.sam
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末舰讹,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子闪朱,更是在濱河造成了極大的恐慌月匣,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奋姿,死亡現(xiàn)場(chǎng)離奇詭異锄开,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)称诗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)萍悴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人粪狼,你說(shuō)我怎么就攤上這事退腥。” “怎么了再榄?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵狡刘,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我困鸥,道長(zhǎng)嗅蔬,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任疾就,我火速辦了婚禮澜术,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘猬腰。我一直安慰自己鸟废,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布姑荷。 她就那樣靜靜地躺著盒延,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鼠冕。 梳的紋絲不亂的頭發(fā)上添寺,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音懈费,去河邊找鬼计露。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的票罐。 我是一名探鬼主播叉趣,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼胶坠!你這毒婦竟也來(lái)了君账?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤沈善,失蹤者是張志新(化名)和其女友劉穎乡数,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體闻牡,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡净赴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了罩润。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片玖翅。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖割以,靈堂內(nèi)的尸體忽然破棺而出金度,到底是詐尸還是另有隱情,我是刑警寧澤严沥,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布猜极,位于F島的核電站,受9級(jí)特大地震影響消玄,放射性物質(zhì)發(fā)生泄漏跟伏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一翩瓜、第九天 我趴在偏房一處隱蔽的房頂上張望受扳。 院中可真熱鬧,春花似錦兔跌、人聲如沸勘高。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)相满。三九已至,卻和暖如春桦卒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背匿又。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工方灾, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓裕偿,卻偏偏與公主長(zhǎng)得像洞慎,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子嘿棘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容