基因組比對軟件常用bwa,轉(zhuǎn)錄組比對軟件常用bowtie2红碑、hisat2等舞吭,其中有參考基因組的常用hisat2泡垃,沒有參考基因組的常用bowtie2。
一羡鸥、建立索引
建立基因組索引
* hisat2-build –p 4 genome.fa genome
建立基因組+轉(zhuǎn)錄組+SNP索引:
bowtie2的索引只有基因組序列信息蔑穴,tophat2比對時,轉(zhuǎn)錄組信息通過-G參數(shù)指定惧浴。HISAT2建立索引時存和,就應(yīng)該把轉(zhuǎn)錄組信息加進去。
HISAT2提供兩個Python腳本將GTF文件轉(zhuǎn)換成hisat2-build能使用的文件:
extract_exons.py Homo_sapiens.GRCh38.83.chr.gtf > genome.exon
extract_splice_sites.py Homo_sapiens.GRCh38.83.chr.gtf > genome.ss
此外衷旅,HISAT2還支持將SNP信息加入到索引中捐腿,這樣比對的時候就可以考慮SNP的情況。這仍然需要將SNP文件轉(zhuǎn)換成hisat2-build能使用的文件:
extract_snps.py snp142Common.txt > genome.snp
最后柿顶,將基因組茄袖、轉(zhuǎn)錄組、SNP建立索引:
* hisat2-build -p4 genome.fa --snp genome.snp --ss genome.ss --exon genome.exon genome_snp_tran
官網(wǎng)提供了人和小鼠的索引文件下載嘁锯,壓縮包有make_grch38_tran.sh文件绞佩,詳細記錄了創(chuàng)建索引的過程。
二猪钮、運行HISAT2
* hisat2 -p10 -x ./genome -1 Sample.R1.fastq -2 Sample.R2.fastq --rna-strandness RF --fr–S Sample.sam
-p 線程數(shù)
--rna-strandness RF 鏈特異性
-x 指定基因組索引
-1 指定第一個fastq文件
-2 指定第二個fastq文件
-S 指定輸出的SAM文件
最終品山,我們需要使用samtools軟件,對sam排序得到一個sorted.bam文件烤低,用于后面的定量肘交,AS等分析;
* samtools view -uS Sample.hisat2.sam |samtools sort - -o Sample.sorted.bam && samtools index NC5.sorted.bam
官方操作手冊簡要版
用法:
hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> |[-S <hit>]
主要參數(shù):
-x <hisat2-idx>
參考基因組索引文件的前綴扑馁。
-1 <m1>
雙端測序結(jié)果的第一個文件涯呻。若有多組數(shù)據(jù),使用逗號將文件分隔腻要。Reads的長度可以不一致复罐。
-2 <m2>
雙端測序結(jié)果的第二個文件。若有多組數(shù)據(jù)雄家,使用逗號將文件分隔效诅,并且文件順序要和-1參數(shù)對應(yīng)。Reads的長度可以不一致趟济。
-U <r>
單端數(shù)據(jù)文件乱投。若有多組數(shù)據(jù),使用逗號將文件分隔顷编∑蒽牛可以和-1、-2參數(shù)同時使用媳纬。Reads的長度可以不一致双肤。
–sra-acc <SRA accession number>
輸入SRA登錄號施掏,比如SRR353653,SRR353654茅糜。多組數(shù)據(jù)之間使用逗號分隔七芭。HISAT將自動下載并識別數(shù)據(jù)類型,進行比對限匣。
-S <hit>
指定輸出的SAM文件抖苦。
輸入選項:
-q:輸入文件為FASTQ格式毁菱。FASTQ格式為默認參數(shù)米死。
-qseq :輸入文件為QSEQ格式。
-f:輸入文件為FASTA格式贮庞。
-r:輸入文件中峦筒,每一行代表一條序列,沒有序列名和測序質(zhì)量等窗慎。選擇此項時物喷,–ignore-quals參數(shù)也會被選擇。
-c:此參數(shù)后是直接比對的序列遮斥,而不是包含序列的文件名峦失。序列間用逗號隔開。選擇此項時术吗,–ignore-quals參數(shù)也會被選擇尉辑。
-s/–skip <int>:跳過輸入文件中前條序列進行比對。
-u/–qupto <int>:只使用輸入文件中前條序列進行比對较屿,默認是沒有限制隧魄。
-5/–trim5 <int>:比對前去除每條序列5’端個堿基
-3/–trim3 <int>:比對前去除每條序列3’端個堿基
–phred33:輸入的FASTQ文件堿基質(zhì)量值編碼標準為phred33,phred33為默認參數(shù)隘蝎。
–phred64:輸入的FASTQ文件堿基質(zhì)量值編碼標準為phred64购啄。
–solexa-quals:將Solexa的堿基質(zhì)量值編碼標準轉(zhuǎn)換為phred。