BWA
bwa 是一款將序列比對(duì)到參考基因組上的軟件,包含了以下3種算法
BWA-backtrack
BWA-SW
BWA-MEM
BWA-backtrack適合比對(duì)長(zhǎng)度不超過(guò)100bp的序列贞绵;BWA-SW和BWA-MEM適合于長(zhǎng)度為70-1M bp的序列孵构;其中BWA-MEM是最新開(kāi)發(fā)的算法,對(duì)于高質(zhì)量的測(cè)序數(shù)據(jù)贬循,其比對(duì)的速度更快咸包,精確度更高,對(duì)于70-100bp的reads, BWA-MEM算法在比對(duì)長(zhǎng)度為70-100bp的序列時(shí)杖虾,效果比BWA-backtrack 算法的效果更好烂瘫。總而言之奇适,通常情況下坟比,選擇BWA-MEM算法就好。
安裝
git clone https://github.com/lh3/bwa.git
cd bwa
make
使用
bwa的使用需要兩中輸入文件:
Reference genome data(fasta格式 .fa, .fasta, .fna)
Short reads data (fastaq格式 .fastaq, .fq)
step 1: 建立 Index
根據(jù)reference genome data(e.g. reference.fa) 建立 Index File
bwa index -a bwtsw reference.fa
-a [is|bwtsw] : 輸入構(gòu)建Index的算法嚷往。is算法快速簡(jiǎn)單葛账,是默認(rèn)選項(xiàng),但是不能用于基因組大于2GB的數(shù)據(jù)庫(kù)皮仁。bwtsw適用于大基因組籍琳。
-p STR :輸出的數(shù)據(jù)庫(kù)的前綴菲宴。默認(rèn)與輸入的文件名一致。
BWA-MEM
bwa mem -t 4 -M genome read1.fq read2.fq > aln-pe.sam
-t 使用的線程數(shù)
-p 若無(wú)此參數(shù)趋急,輸入文件只有1個(gè)喝峦,則進(jìn)行單端比對(duì),輸出文件有兩個(gè)呜达,則作為paired reads進(jìn)行比對(duì)谣蠢。若加入此參數(shù),則僅以第一個(gè)文件作為輸入查近,該文件必須是read1.fq和read2.fq進(jìn)行reads交叉的數(shù)據(jù)