測序數(shù)據(jù)分析軟件皇筛,Bowtie是一個超快的,存儲高效的短序列片段比對程序。它能夠以每小時處理2500萬35bp reads的速度仔雷,將短的DNA序列片段(reads)比對到人類基因組上。
一舔示、安裝
- conda安裝
conda install -y bowtie2
- 傳統(tǒng)安裝
1碟婆、下載源碼包
nohup wget https://nchc.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.3.5.1/bowtie2-2.3.5.1-linux-x86_64.zip
2、解壓
unzip bowtie2-2.3.5.1-linux-x86_64.zip
3惕稻、添加環(huán)境變量
vim ~/.bashrc
export PATH="/data/hushy/tools/bowtie2:$PATH"
source ~/.bashrc # source命令通常用于重新執(zhí)行剛修改的初始化文件
4竖共、測試
bowtie2 --help
二、創(chuàng)建索引
1俺祠、下載參考基因組
less -S /data/database/kraken2/NT/library/nt/library.fna
2公给、創(chuàng)建索引
nohup bowtie2-build /data/database/kraken2/NT/library/nt/library.fna index & #內存很大,可能會把服務器節(jié)點搞掛
三锻煌、下載官方索引
nohup wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip &
unzip mm10.zip
rm mm10.zip make_mm10.sh
四妓布、基本用法
- 語法
Usage:
bowtie2 [options]* -x <index> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]
- 參數(shù)選項
- 必選參數(shù)
-x 由bowtie2-build所生成的索引文件的前綴,需要指定路徑及其共用文件名
-1 使用trimmomatic質控后與read2配對(paired)的read1∷挝啵可以為多個文件匣沼,并用逗號分開;多個文件必須和 -2 <m2> 中制定的文件一一對應捂龄。
-2 使用trimmomatic質控后與read1配對的read2
-U 使用trimmomatic質控后未配對(unpaired)的reads释涛。可以為多個文件倦沧,并用逗號分開唇撬,測序文件中的reads的長度可以不一樣。
-S 所生成的SAM格式的文件前綴展融。默認是輸入到標準輸出窖认。
-
可選參數(shù)
- 輸入?yún)?shù)
-q 輸入的文件為FASTQ格式文件,此項為默認值
-f 輸入的文件為FASTA格式文件
-5/--trim5 <int> 剪掉5'端<int>長度的堿基,再用于比對扑浸。(default: 0)
-3/--trim3 <int> 剪掉3'端<int>長度的堿基烧给,再用于比對。(default: 0).
--phred33 輸入的堿基質量等于ASCII+33
- Paired-end 參數(shù)
--no-mixed 默認設置下, 一對reads不能成對比對到參考序列上, 則單獨對每個read進行比對. 該選項則阻止此行為.
--no-discordant 默認設置下, 一對reads不能和諧比對(concordant alignment,即滿足-I, -X, --fr/--rf/--ff的條件)到參考序列上, 則搜尋其不和諧比對(disconcordant alignment, 即兩條reads都能獨一無二地比對到參考序列上, 但是不滿足-I,-X,--fr/--rf/--ff的條件). 該選項阻止此行為.
- –end-to-end模式下的預設參數(shù)
--end-to-end 比對是將整個read和參考序列進行比對. 該模式--ma的值為0. 該模式為默認模式, --local模式?jīng)_突.
--local 該模式下對read進行局部比對, 從而, read兩端的一些堿基不比對喝噪,從而使比對得分滿足要求. 該模式下 –ma默認為2.
--very-fast Same as: -D 5 -R 1 -N 0 -L 22 -i S,0,2.50
--fast Same as: -D 10 -R 2 -N 0 -L 22 -i S,0,2.50
--sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode)
--very-sensitive Same as: -D 20 -R 3 -N 0 -L 20 -i S,1,0.50
- 報告參數(shù)
-k 默認設置下, bowtie2搜索出了一個read不同的比對結果, 并報告其中最好的比對結果(如果好幾個最好的比對結果得分一致, 則隨機挑選出其中一個). 而在該模式下, bowtie2最多搜索出一個read <int>個比對結果, 并將這些結果按得分降序報告出來.
-a 和-k參數(shù)一樣, 不過不限制搜索的結果數(shù)目. 并將所有的比對結果都按降序報告出來. 此參數(shù)和-k參數(shù)沖突. 值得注意的是: 如果基因組含有很多重復序列時, 該參數(shù)會導致程序運行極其緩慢.
- Sam 參數(shù)
--no-unal 不記錄沒比對上的reads.
--no-hd 不記錄SAM header lines (以@開頭).
--no-sq 不記錄@SQ的SAM header lines.
--rg-id <text> 設定read group Id到<text>.
--rg <text> 增加<text>作為一行@RG.
- 輸出參數(shù)
-t/--time --un <path> 將unpaired reads寫入到<path>.
--no-unal 不能map到GENOME的reads,不保留sam記錄
--un-conc <path> 不能map到GENOME的reads础嫡,fasta格式.
--un-conc-gz <path> 不能map到GENOME的reads,fasta格式, gzip壓縮.
--al-conc <path> 能map到GENOME的reads酝惧,fasta格式.
--al-conc-gz <path> 能map到GENOME的reads榴鼎,fasta格式, gzip壓縮.
-p/--threads NTHREADS 設置線程數(shù). Default: 1 如果你的計算機有多個CPU或者CPU內核,那么請使用-p參數(shù)晚唇。-p參數(shù)會讓bowtie進入多線程模式巫财。每一個線程都會使用單獨的CPU或者CPU內核。這種并行的運算模式也會大大加快運算速度哩陕。
- 示例
bowtie2 -p 10 -x /data/ref/bowtie2/mm10/mm10 -1 input_1.fq -2 input_2.fq | samtools sort -O bam -@ 10 -o - > output.bam
##雙端測序數(shù)據(jù)去宿主:
bowtie2 --end-to-end --no-mixed --no-discordant --no-unal --sensitive --threads 8 \
-x /data/hostClean/Index/host.fa \
-1 /data/hospital_microbiome/trimmed_reads/ERR320975-trimmed-pair1.fastq.gz \
-2 /data/hospital_microbiome/trimmed_reads/ERR320975-trimmed-pair2.fastq.gz \
--un-conc-gz /data/hospital_microbiome/cleanData/ERR320975.clean.fastq.gz \