生信筆記18-BWA的安裝和使用

簡(jiǎn)介

BWA傍睹,即Burrows-Wheeler-Alignment Tool隔盛。BWA 是一種能夠?qū)⒉町惗容^小的序列比對(duì)到一個(gè)較大的參考基因組上的軟件包。它有三個(gè)不同的算法:

  • BWA-backtrack: 是用來比對(duì) Illumina 的序列的焰望,reads 長(zhǎng)度最長(zhǎng)能到 100bp骚亿。-
  • BWA-SW: 用于比對(duì) long-read ,支持的長(zhǎng)度為 70bp-1Mbp熊赖;同時(shí)支持剪接性比對(duì)来屠。
  • BWA-MEM: 推薦使用的算法,支持較長(zhǎng)的read長(zhǎng)度震鹉,同時(shí)支持剪接性比對(duì)(split alignments)俱笛,BWA-MEM是更新的算法,也更快传趾,更準(zhǔn)確迎膜,且 BWA-MEM 對(duì)于 70bp-100bp 的 Illumina 數(shù)據(jù)來說,效果也更好些浆兰。

對(duì)于上述三種算法磕仅,首先需要使用索引命令構(gòu)建參考基因組的索引,用于后面的比對(duì)簸呈。所以榕订,使用BWA整個(gè)比對(duì)過程主要分為兩步,第一步建索引蜕便,第二步使用BWA MEM進(jìn)行比對(duì)劫恒。


bwa安裝

直接使用mamba安裝即可

mamba install bwa

建立參考基因組索引

bwa index [ –p prefix ] [ –a algoType ] <in.db.fasta>

用法說明

  • -p STR 輸出數(shù)據(jù)庫的前綴;【默認(rèn)和輸入的文件名一致轿腺,輸出的數(shù)據(jù)庫在其輸入文件所在的文件夾两嘴,并以該文件名為前綴∽蹇牵】
  • -a [algoType] 構(gòu)建index的算法憔辫,有以下兩個(gè)選項(xiàng):
    • -a is 是默認(rèn)的算法,雖然相對(duì)較快仿荆,但是需要較大的內(nèi)存螺垢,當(dāng)構(gòu)建的數(shù)據(jù)庫大于2GB的時(shí)候就不能正常工作了;
    • -a bwtsw 對(duì)于短的參考序列式不工作的,必須要大于等于10MB, 但能用于較大的基因組數(shù)據(jù)赖歌,比如人的全基因組。

示例代碼

bwa index GRCh38.primary_assembly.genome.fa

BWA-MEM 算法

該算法先使用 MEM(maximal exact matches) 進(jìn)行 seeding alignments功茴,再使用 SW(affine-gap Smith-Waterman) 算法進(jìn)行 seeds 的延伸庐冯。BWA–MEM 算法執(zhí)行局部比對(duì)和剪接性】泊可能會(huì)出現(xiàn) query 序列的多個(gè)不同的部位出現(xiàn)各自的最優(yōu)匹配展父,導(dǎo)致 reads 有多個(gè)最佳匹配位點(diǎn)返劲。有些軟件如 Picard’s markDuplicates 跟 mem 的這種剪接性比對(duì)不兼容,在這種情況下,可以使用 –M 選項(xiàng)來將 shorter split hits 標(biāo)記為次優(yōu)栖茉。

對(duì)應(yīng)的子命令為mem, 基本用法如下

bwa mem [options] ref.fa reads.fq [mates.fq]

參數(shù)說明

  • -t INT:線程數(shù)篮绿,默認(rèn)是1,增加線程數(shù)吕漂,會(huì)減少運(yùn)行時(shí)間亲配。
  • -M:將 shorter split hits 標(biāo)記為次優(yōu),以兼容 Picard’s markDuplicates 軟件惶凝。
  • -p:若無此參數(shù):輸入文件只有1個(gè)吼虎,則進(jìn)行單端比對(duì);輸入文件有2個(gè)苍鲜,則作為paired reads進(jìn)行比對(duì)思灰。若有此參數(shù):則僅以第1個(gè)文件作為輸入(會(huì)忽略第二個(gè)輸入序列文件,把第一個(gè)文件當(dāng)做單端測(cè)序的數(shù)據(jù)進(jìn)行比對(duì))混滔,該文件必須是read1.fq和read2.fa進(jìn)行reads交叉的數(shù)據(jù)洒疚。
  • -R STR: 完整的read group的頭部,可以用 '\t' 作為分隔符坯屿, 在輸出的SAM文件中被解釋為制表符TAB. read group 的ID油湖,會(huì)被添加到輸出文件的每一個(gè)read的頭部。
  • -T INT: 當(dāng)比對(duì)的分值比 INT 小時(shí)愿伴,不輸出該比對(duì)結(jié)果肺魁,這個(gè)參數(shù)只影響輸出的結(jié)果,不影響比對(duì)的過程隔节。
  • -a: 將所有的比對(duì)結(jié)果都輸出鹅经,包括 single-end 和 unpaired paired-end的 reads,但是這些比對(duì)的結(jié)果會(huì)被標(biāo)記為次優(yōu)怎诫。
  • -Y: 對(duì)數(shù)據(jù)進(jìn)行soft clipping, 當(dāng)錯(cuò)配或者gap數(shù)過多比對(duì)不上時(shí)瘾晃,會(huì)對(duì)序列進(jìn)行切除,這里的切除并只是在比對(duì)時(shí)去掉這部分序列幻妓,最終輸出結(jié)果中序列還是存在的蹦误,所以稱為soft clipping。

特別說明

  • 如果 mates.fq 缺省肉津,且參數(shù) –p 未設(shè)定强胰,那么 reads.fq 被認(rèn)為是 single-end;
  • 如果 mates.fq 存在,且參數(shù) –p 未設(shè)定妹沙,那么 mem 命令會(huì)認(rèn)為 read.fq 和 mates.fq 中的 i-th reads 組成一個(gè)read對(duì) (a read pair)偶洋,這個(gè)模式是常用的 paired-end mode。
  • 如果參數(shù) –p 被設(shè)定距糖,那么玄窝,mem 命令會(huì)認(rèn)為 read.fq 中的 第 2i-th 和 第 (2i + 1)-th 的 reads 組成一個(gè) read 對(duì) (a read pair)牵寺,這種方式也被成為交錯(cuò)式的(interleaved paired-end)。 在這種情況下恩脂,即使有 mates.fq帽氓,也會(huì)被忽略。

示例代碼

# single end
bwa mem ref.fa reads.fq > mem-se.sam

# paired end
$ bwa mem ref.fa read1.fq read2.fq > mem-pe.sam
$ bwa mem -t 4 -M -R "\@RG\tID:{library}\tLB:{library}\tPL:Illumina\tPU:{sample}\tSM:{sample}\" ref.fa read1.fastq read2.fastq > mem-pe.sam 2> ./mem-pe.log

參考

http://www.reibang.com/p/19f58a07e6f4
https://blog.csdn.net/weixin_42192188/article/details/132286609

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末俩块,一起剝皮案震驚了整個(gè)濱河市黎休,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌典阵,老刑警劉巖奋渔,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異壮啊,居然都是意外死亡嫉鲸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門歹啼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來玄渗,“玉大人,你說我怎么就攤上這事狸眼√偈鳎” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵拓萌,是天一觀的道長(zhǎng)岁钓。 經(jīng)常有香客問我,道長(zhǎng)微王,這世上最難降的妖魔是什么屡限? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮炕倘,結(jié)果婚禮上钧大,老公的妹妹穿的比我還像新娘。我一直安慰自己罩旋,他們只是感情好啊央,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著涨醋,像睡著了一般瓜饥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上浴骂,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天压固,我揣著相機(jī)與錄音,去河邊找鬼靠闭。 笑死帐我,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的愧膀。 我是一名探鬼主播拦键,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼檩淋!你這毒婦竟也來了芬为?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤蟀悦,失蹤者是張志新(化名)和其女友劉穎媚朦,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體日戈,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡询张,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了浙炼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片份氧。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖弯屈,靈堂內(nèi)的尸體忽然破棺而出蜗帜,到底是詐尸還是另有隱情,我是刑警寧澤资厉,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布厅缺,位于F島的核電站,受9級(jí)特大地震影響宴偿,放射性物質(zhì)發(fā)生泄漏湘捎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一酪我、第九天 我趴在偏房一處隱蔽的房頂上張望消痛。 院中可真熱鬧,春花似錦都哭、人聲如沸秩伞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纱新。三九已至,卻和暖如春穆趴,著一層夾襖步出監(jiān)牢的瞬間脸爱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工未妹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留簿废,地道東北人空入。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像族檬,于是被迫代替她去往敵國和親歪赢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容