一腕巡、bowtie2的基本概念
1. 比對(duì)
全局比對(duì) End to end列荔,也叫雙端比對(duì)玩郊。把read作為一個(gè)整體,不可分割斷裂蛔溃。
局部比對(duì)local alignment example绰沥,把reference作為整體,read可以分割贺待。
bowtie2默認(rèn)全局比對(duì)徽曲,也稱作 "untrimmed " or "unclopped" alignment 。就是認(rèn)為read是完整的麸塞,看看能對(duì)上哪些reference秃臣。
2. 比對(duì)計(jì)分
規(guī)則還沒(méi)搞懂。慢慢琢磨哪工。奥此。。雁比。
3.參考索引還可以自己建立
索引可以直接從官網(wǎng)下載(昨天學(xué)習(xí)到了)稚虎,也可以自己構(gòu)建
bowtie2-build <fasta文件> <要生成的索引文件前綴名>
類似下面的代碼,但是這個(gè)過(guò)程大約要1-4小時(shí)偎捎,很耽誤時(shí)間蠢终,一定要后臺(tái)運(yùn)行——服務(wù)器上要通過(guò)腳本提交。
ref=~/refdata-gex-GRCh38-2020-A/fasta/genome.fa
bowtie-build $ref hg38
生成的6個(gè)后綴為.bt2 的文件和fa文件在同一個(gè)目錄下茴她。
也可以指定保存目錄~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/
ref=~/refdata-gex-GRCh38-2020-A/fasta/genome.fa
bowtie-build $ref ~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38
二寻拂、運(yùn)行比對(duì)程序
1.雙端測(cè)序
bowtie2 <-x 索引的位置和名稱前綴> <-1 fq格式的測(cè)序結(jié)果文件1> <-2 fq格式的測(cè)序結(jié)果文件2> <-S 輸出的sam文件>
-x 基因組索引文件前綴,不寫路徑表示當(dāng)前路徑下
-S 是輸出sam文件的路徑
-1和-2分別為雙端測(cè)序的兩個(gè)fq文件丈牢。-1(文件名通常包含_1)
-2(文件名通常包括_2)
比如:
index=~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38
bowtie2 -x $index -1 ~/data/example_1.fq -2 ~/data/example_2.fq -S ~/data/result.sam
就會(huì)得到sam文件了祭钉。
2.單端測(cè)序single end
bowtie2 -x ~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38 -U ~/data/example.fq -S ~/data/result.sam
-U為單端測(cè)序read文件
三、結(jié)果解讀
1. 比對(duì)后結(jié)果顯示:最后一行是比對(duì)率
雙端結(jié)果里面分割線分成三部分己沛。
part1:總共有多少對(duì)reads參加比對(duì)慌核;合理比對(duì)aligned concordantly 的情況。合理比對(duì)意思是兩端都比對(duì)上了申尼,且合理遂铡。
如上圖有650對(duì)reads沒(méi)有合理比對(duì)上,其余的比對(duì)上1次或多次晶姊。
part2:650對(duì)中扒接,有34對(duì)reads雙端比對(duì)上了,但是不合理们衙,可能是兩條reads之間距離過(guò)大钾怔,或者兩條reads居然在同一條鏈上。(合理的情況應(yīng)該是兩個(gè)reads在不同鏈上蒙挑,且能距離很近宗侦。
part3:這些都是沒(méi)有雙端比對(duì)成功的。616對(duì)忆蚀,就是1232條矾利,這些里面有606條姑裂,
2. SAM (The Sequence Alignment / Map format)格式文件的解讀
SAM是短序列比對(duì)默認(rèn)的標(biāo)準(zhǔn)格式,是以TAB為分割符的文本格式男旗。BAM就是SAM的二進(jìn)制文件舶斧,具有更小的存儲(chǔ)空間,并且許多下游分析工具使用的是BAM格式察皇。
SAM文件
頭部區(qū):以’@'開(kāi)始茴厉,體現(xiàn)了比對(duì)的一些總體信息。比如比對(duì)的SAM格式版本什荣,比對(duì)的參考序列矾缓,比對(duì)使用的軟件等。
主體區(qū):比對(duì)結(jié)果稻爬,每一個(gè)比對(duì)結(jié)果是一行嗜闻,有11個(gè)主列和一個(gè)可選列。
第一列:QNAME桅锄,比對(duì)的序列名稱泞辐,就是fq文件中的read ID,是一條測(cè)序read的名稱竞滓。
第二列:FLAG咐吼,比對(duì)上的情況
第三列:染色體名稱
第四列:POS,比對(duì)上的最左面的定位
第五列:MAPQ商佑,比對(duì)的質(zhì)量值锯茄。越高說(shuō)明比對(duì)的越唯一,最高60
第六列:CIGAR Extended CIGAR string茶没,M表示匹配肌幽、I表示插入、D表示刪除抓半、N表示內(nèi)含子和D類似喂急、S表示替換、H表示剪切笛求。87M表示87個(gè)堿基在比對(duì)時(shí)完全匹配廊移。
第七列:MRNM,這條reads第二次比對(duì)的位置探入,是比對(duì)上的參考序列名 狡孔。=表示參考序列與reads一模一樣,*表示沒(méi)有完全一模一樣的參考序列蜂嗽。
第八列:MPOS苗膝,與該reads對(duì)應(yīng)的mate pair reads的比對(duì)位置(即mate),若無(wú)mate,則為0植旧。
第九列:ISIZE 插入片段長(zhǎng)度 例如:200辱揭。如果R1端的read和R2端的read能夠mapping到同一條Reference序列上(即第三列RNAME相同)离唐,則該列的值表示第8列減去第4列加上第6列的值,
第十列:SEQ问窃,和參考序列在同一個(gè)鏈上比對(duì)的序列亥鬓,即read的序列。
第十一列:比對(duì)序列的質(zhì)量(ASCII-33=Phred base quality)reads堿基質(zhì)量值 例如:-8CCCGFCCCF7@E-
四泡躯、BAM文件
1. SAM 文件轉(zhuǎn)為 BAM 文件
得到的sam文件可以用semtools專程bam文件贮竟。
samtools sort example.sam>example.bam
2. 通過(guò)管道命令直接鏈接samtools
bowtie2 -x genome_index -1 input_1.fq -2 input_2.fq | samtools view -bS | samtools sort > output.bam
這條命令把bowtie2 生成的sam文件通過(guò)管道|傳遞到samtools丽焊,將sam轉(zhuǎn)換為bam文件较剃,省去中間sam文件的空間占用