Hisat2和STAR是目前轉(zhuǎn)錄組分析過程中用來做比對(duì)的兩款主要工具,記得有一篇好像是2017年的文章專門比較了幾款轉(zhuǎn)錄組比對(duì)工具對(duì)結(jié)果的影響惧所,結(jié)論中認(rèn)為兩款軟件在實(shí)際使用過程中對(duì)結(jié)果影響及耗時(shí)區(qū)別不大锐锣,我認(rèn)為選一款就可以饲窿,之前總是用STAR,今天試一下Hisat2轧苫。
一光督、官網(wǎng)下載軟件及安裝:
https://daehwankimlab.github.io/hisat2/
在Download頁面阳距,可以看到Hisat2非常友好地提供了二進(jìn)制的程序及Index(比對(duì)時(shí)的索引文件),省去了后續(xù)的一些小麻煩结借。
下載完后unzip進(jìn)行解壓筐摘,一開始報(bào)錯(cuò):
原來依賴的libstdc++.so.6需要高版本的庫,我沒有root權(quán)限船老,更新的話會(huì)很麻煩咖熟,果斷降版本,下載的hisat2-2.1.0后柳畔,解壓馍管,嘗試了一下,安裝成功:
二薪韩、構(gòu)建索引Index
Hisat2和STAR在比對(duì)時(shí)都需要索引文件确沸,對(duì)于人及小鼠及常用模式生物,Hisat2官網(wǎng)提供了相應(yīng)的索引文件俘陷,下載后就能用罗捎,對(duì)于非模式生物,需要自己建立索引文件拉盾。
區(qū)別于bowtie2的索引只有基因組序列信息桨菜,Hisat2建立索引時(shí),應(yīng)該把轉(zhuǎn)錄組信息加進(jìn)去捉偏,此外倒得,Hisat2還支持將SNP信息加入到索引中,這樣比對(duì)的時(shí)候就可以考慮SNP的情況,需要通過下面命令將SNP文件轉(zhuǎn)換成hisat2-build能使用的文件:
extract_snps.py snp142Common.txt >genome.snp
因?yàn)槲已芯康奈锓N還沒有集合SNP信息的文件夭禽,我只能建立涵蓋基因組+轉(zhuǎn)錄組的索引:
Hisat2提供兩個(gè)Python腳本將GTF文件轉(zhuǎn)換成hisat2-build能使用的文件,依次運(yùn)行下面三個(gè)命令:
extract_exons.py *.gtf > genome.exon
extract_splice_sites.py *.gtf > genome.ss
hisat2-build genome.fa -p 10 --ss genome.ss--exon genome.exon /path/to/genome_snp_tran
最終生成的8個(gè)*.ht是我們比對(duì)時(shí)需要的索引文件:
三屎暇、Hisat2比對(duì):
-x? 指定索引文件所在路徑及前綴
-p? 線程數(shù)
hisat2輸出文件為sam格式,sam文件格式比較大驻粟,通常會(huì)直接通過“|”傳輸給samtools轉(zhuǎn)為bam文件根悼,并對(duì)bam文件進(jìn)行sort排序,以便后面處理(此步驟通過生信技能樹-健明老師帖子進(jìn)行改進(jìn)蜀撑,在此致謝)挤巡。
四、結(jié)果
?????? 結(jié)果會(huì)生成bam文件酷麦,為二進(jìn)制格式矿卑,無法直接查看,可以導(dǎo)入IGV進(jìn)行可視化沃饶,一般后面結(jié)果沒有異常時(shí)母廷,我不會(huì)去用IGV去看看比對(duì)結(jié)果去轻黑。而比對(duì)過程中的日志結(jié)果需要我們記錄一下:
我的總體比對(duì)率是73.19%,是比較低的琴昆,人的話得90%以上才認(rèn)為是比較好氓鄙,我的是非模式生物,目前也只能先接受這個(gè)結(jié)果了业舍,后面得想辦法再優(yōu)化抖拦。
參考
Kim, D., Paggi,J.M., Park, C.?et al.?Graph-based genome alignment andgenotyping with HISAT2 and HISAT-genotype.?Nat Biotechnol?37,907–915 (2019).?https://doi.org/10.1038/s41587-019-0201-4
http://www.360doc.com/content/21/0714/12/76149697_986501798.shtml
本文使用 文章同步助手 同步