發(fā)現(xiàn)服務(wù)器上沒有安裝STAR (Spliced Transcripts Alignment to a Reference)恬吕,這個轉(zhuǎn)錄組最常用的比對工具之一锚贱,也是我之前一直的用的轉(zhuǎn)錄組比對工具字柠,今天安裝一下并重新學(xué)習(xí),好好理解之前設(shè)置的參數(shù)是否正確渠退。
STAR是ENCODE計劃(ENCyclopedia Of DNA Elements,人類基因組DNA元件百科全書計劃)的御用pipeline工具攘乒,在轉(zhuǎn)錄組的文章中出鏡率極高,別人說其準(zhǔn)確率高,映射速度快王暗,但需要占用大量內(nèi)存悔据,對計算資源有較高的要求。在之前Hisat2安裝使用過程中俗壹,提到了2017年的一篇NC比較轉(zhuǎn)錄組比對工具的文章科汗,又查了一下,這樣總結(jié)的:STAT相比較TopHat和Hisat2绷雏,有較高的唯一比對率肛捍;STAR會將沒有paired mapping上的reads都剔除,避免single reads比對到基因組上之众;并且STAR對lower-quality(包括more soft-clipped和錯配堿基)比對有較高的容忍度拙毫,這對一些雜合率較高的基因組優(yōu)勢比較明顯;這次注意到棺禾,在用GATK對RNA-Seq進(jìn)行 Call Variants時缀蹄,采用STAR的STAR 2-pass模式,估計以后也會用到膘婶。
下載安裝軟件
https://github.com/alexdobin/STAR
選擇其中一個版本下載后缺前, tar -zxvf 進(jìn)行解壓:
tar -zxvf STAR-2.7.9a.tar.gz
cd STAR/source
?make STAR
二、構(gòu)建基因組索引Index
和Hisat2一樣悬襟,需要先構(gòu)建基因組索引衅码,索引文件作用現(xiàn)在還只記得是在比對過程中,我們并不是把幾十萬條reads直接比對到基因組上去脊岳,而是和Index進(jìn)行比較逝段,使比對過程變地可行,希望等課題結(jié)束后割捅,再回過頭來好好學(xué)習(xí)一下索引文件作用的原理奶躯,先上腳本:
參數(shù)解釋:
--runThreadN:線程數(shù)為10
--runMode:genomeGenerate,構(gòu)建基因組索引亿驾;
--genomeDir:指定索引生成目錄嘹黔;
--genomeFastaFiles:指定參考基因組;
--sjdbGTFfile:指定參考基因組的注釋文件莫瞬;
--sjdbOverhang:這個是reads長度的最大值減1儡蔓,默認(rèn)是100,我不是很理解很多人分析的學(xué)習(xí)方法中都設(shè)置100疼邀,二代測序都是150bp的序列長度喂江,我設(shè)置了149 (有時間時改一下數(shù)值比較一下對結(jié)果是否有影響);
發(fā)現(xiàn)有三個反斜杠“\”異常成了黃色,暫時不清楚原因檩小,結(jié)果報錯了:
其實我也不知道為啥开呐,將運行命令行的反斜杠去掉,再試一下:
剛才的問題解決了,又報了其它錯誤信息:
居然是gtf文件的錯誤筐付,第一次遇見這個問題卵惦,然后找原因:
我們看一下gtf的開頭是CM023448.1,如下圖:
我的參考基因組開頭是>GWHAMMI00000001瓦戚,如下圖:
原來是染色體的命名方式不一樣沮尿,一個是CM開頭,另一個是GWHAMMI開頭较解,我回到NCBI去下載序列文件又看了一下,居然是我之前下錯文件了(從另一個數(shù)據(jù)庫下載的參考基因組畜疾,兩個數(shù)據(jù)庫同一物種染色體編號規(guī)則不同),之前做的工作又浪費了印衔,重新下載啡捶,指定序列文件,30min后奸焙,成功建立索引瞎暑,索引目錄如下:
reads比對:
相比于Hisat2,STAR太多的參數(shù)設(shè)置了与帆,對于模式生物還好了赌,很多默認(rèn)參數(shù)就可以,但對于我的課題研究玄糟,就得仔細(xì)看看這些參數(shù)了勿她,著實用去了我不少時間,先上我的腳本阵翎,如下圖:
我的參數(shù)設(shè)置:
未用的其它參數(shù):
--outFilterMismatchNmax:比對時允許的最大錯配數(shù)(可根據(jù)結(jié)果修改);
--outSAMmapqUnique60:將uniquelymapping reads的MAPQ值調(diào)整為60逢并,滿足下游使用GATK進(jìn)行分析的需要;
--readFilesCommand:對FASTQ文件進(jìn)行操作;
--readFilesIn:輸入FASTQ文件的路徑;
--outSJfilterReadsUnique:對于跨越剪切位點的reads(junction reads),只考慮跨越唯一剪切位點的reads;
--alignIntronMin:最短的內(nèi)含子長度設(shè)定了20贮喧,(根據(jù)GTF文件計算);
--alignIntronMax:最長的內(nèi)含子長度設(shè)定了50000筒狠,(根據(jù)GTF文件計算);
--bamRemoveDuplicatesType?? 輸出BAM文件時,STAR還可以對BAM進(jìn)行一些預(yù)處理箱沦,用于去重。
四:結(jié)果如下圖雇庙,
1谓形、使用samtools查看生成的BAM文件。
samtoolsview sample_Aligned.sortedByCoord.out.bam |head -n 5
2疆前、結(jié)果內(nèi)容:
Aligned.sortedByCoord.out.bam:reads比對到基因組的位置;
Aligned.toTranscriptome.out.bam:reads比對到轉(zhuǎn)錄本的位置寒跳;
Log.final.out:統(tǒng)計了比對情況的信息,是非常重要的結(jié)果;
SJ.out.tab:splice junctions的一些信息,其中需要注意的是:對于junction的位置信息竹椒,STAR則是按照intron的起始和終止位置來定童太,而其他的一些軟件則是按照exon的位置來決定的
附:我比較了一下star和Hisat2的結(jié)果差異,在運行時間和比對率上,star并沒有表現(xiàn)出明顯的優(yōu)越性上书释。
參考:
https://blog.csdn.net/weixin_28913137/article/details/112281831
本文使用 文章同步助手 同步