HISAT2:比對到基因組
TopHat首次被發(fā)表已經(jīng)是7年前喂很,STAR的比對速度是TopHat的50倍娃殖,HISAT更是STAR的1.2倍。HISAT2是TopHat2/Bowti2的繼任者饭尝,使用改進的BWT算法募闲,實現(xiàn)了更快的速度和更少的資源占用,作者推薦TopHat2/Bowti2和HISAT的用戶轉(zhuǎn)換到HISAT2罗捎。
官網(wǎng):https://ccb.jhu.edu/software/hisat2/index.shtml(學習一個軟件最好的方法就是結合現(xiàn)有中文資料观谦,加上閱讀官方說明書和HELP文檔,一般剛開始學習的時候先使用默認參數(shù)桨菜,不要亂調(diào)參數(shù))
直接去hisat2的主頁下載index文件即可豁状,然后把fastq格式的reads比對上去得到sam文件。 接著用samtools把它轉(zhuǎn)為bam文件倒得,并且排序(注意N和P兩種排序區(qū)別)索引好泻红,載入IGV,再截圖幾個基因看看霞掺! 順便對bam文件進行簡單QC
-
下載index文件(小鼠)
axel ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
tar -xvzf mm10.tar.gz下載注釋文件
axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_mouse/release_M10/gencode.vM10.annotation.gtf.gz -
序列比對
a. 配置 1核8G內(nèi)存
hisat2 -t -x ref/mm10/genome -1 rawdata/SRR3589960.sra_1.fastq.gz -2 rawdata/SRR3589960.sra_2.fastq.gz -S align/SRR3589960.sam
111111111111.jpg
運行時間38分鐘谊路,源文件1.6G
更改配置4核32G
for ((i=60;i<=62;i=i++));do hisat2 -t -x ref/mm10/genome -1 rawdata/SRR35899${i}.sra_1.fastq.gz -2 rawdata/SRR35899${i}.sra_2.fastq.gz -S align/SRR35899${i}.sam;done
注釋: -t 記錄時間 -x hg19(index)文件路徑 -1 -2 測序的兩個fastq文件 -S 比對結果輸出路徑 -U 單端測序文件
reference=~/wikiwei/human/ref/index/hg19/genome
hisat2 -t -x $reference -U SRR957679.fastq -S siSUZ12_1.sam 2>siSUZ12_1.log
參考文章
- 轉(zhuǎn)錄組入門(mac版本)
- https://www.cnblogs.com/freescience/p/7342895.html