HISAT: 一款快速的低內(nèi)存的基因組比對軟件
HISAT是一個高效的RNA序列比對軟件斯嚎。HISAT使用了基于Burrows-Wheeler transform 和 the Ferragina-Manzini (FM) index的索引組合针饥,使用了兩種類型的索引:基于全基因組區(qū)域的FM索引和局部的FM索引淘这。與其他比對軟件相比袁梗,HISAT具有速度快鲁猩,準確率高等特點。HISAT支持不同長度的基因組序列岖沛,包括大于40億堿基基因組暑始。
HISAT算法設(shè)計
HISAT使用Bowtie2實現(xiàn)許多低一級的功能,比如FM index的構(gòu)建和查詢婴削。HISAT使用了兩種不同類型的索引:
- 基于全局的FM 索引覆蓋全部的基因組
- 眾多小的FM索引廊镜,每個索引覆蓋64000bp。
對于人基因組唉俗,HISAT創(chuàng)建了~4800個局部FM索引嗤朴,每個索引之間有1024bp的overlap,共覆蓋約三十一堿基虫溜。
? RNA-seq序列可能會跨越很大的區(qū)域(超過1M bp)雹姊。并且會跨越多個外顯子。HISAT將包含這種現(xiàn)象的reads分成了三種類型:
long-anchored reads: 兩個外顯子至少比對上16bp.
intermediate-anchored reads:有一個外顯子比對了8-15bp
short-anchored reads: 有一個外顯子僅比對1-7bp
全局FM索引對于short-anchored reads比對很困難衡楞,而局部FM index在比對這類reads時有很大優(yōu)勢吱雏。在將reads比對到一段較長的區(qū)域中時,HISAT可以使用局部索引比對剩余的區(qū)域寺酪,而不是使用全局索引坎背。
很多比對工具,大量的時間都消耗在這樣的short-anchored reads和intermediate-anchored reads上(30%~60%)寄雀,但是比對準確度或者成功率都不是很高,而HISAT在這一塊很有優(yōu)勢陨献。
與其他比對工具的速度和準確度比較
? HISAT盒犹,HISATx1, HISATx2分別使用了不同的參數(shù)。HISATx1使用one-pass方法眨业,HISATx2使用了two-pass方法急膀。模擬數(shù)據(jù)是100-bp rads,包含20 million挑reads龄捡。下圖是不同軟件每分鐘處理的reads數(shù)卓嫂。從圖上看,HISAT速度有明顯優(yōu)勢聘殖。
? 檢測準確度方面晨雳,HISAT靈敏度達到了93%以上行瑞,而HISATx2更是達到了99%以上
? 剪切位點精度方面,模擬數(shù)據(jù)包含87944個剪切位點餐禁,HISAT的靈敏度高達97.3%血久,并且精度也高達04.8%
參考文獻:
- HISAT: a fast spliced aligner with low memory requirements