轉(zhuǎn)錄組比對軟件STAR安裝及使用

發(fā)現(xiàn)服務(wù)器上沒有安裝STAR (Spliced Transcripts Alignment to a Reference)恬吕,這個轉(zhuǎn)錄組最常用的比對工具之一锚贱,也是我之前一直的用的轉(zhuǎn)錄組比對工具字柠,今天安裝一下并重新學(xué)習(xí),好好理解之前設(shè)置的參數(shù)是否正確渠退。

STAR是ENCODE計劃(ENCyclopedia Of DNA Elements,人類基因組DNA元件百科全書計劃)的御用pipeline工具攘乒,在轉(zhuǎn)錄組的文章中出鏡率極高,別人說其準(zhǔn)確率高,映射速度快王暗,但需要占用大量內(nèi)存悔据,對計算資源有較高的要求。在之前Hisat2安裝使用過程中俗壹,提到了2017年的一篇NC比較轉(zhuǎn)錄組比對工具的文章科汗,又查了一下,這樣總結(jié)的:STAT相比較TopHat和Hisat2绷雏,有較高的唯一比對率肛捍;STAR會將沒有paired mapping上的reads都剔除,避免single reads比對到基因組上之众;并且STAR對lower-quality(包括more soft-clipped和錯配堿基)比對有較高的容忍度拙毫,這對一些雜合率較高的基因組優(yōu)勢比較明顯;這次注意到棺禾,在用GATK對RNA-Seq進(jìn)行 Call Variants時缀蹄,采用STAR的STAR 2-pass模式,估計以后也會用到膘婶。

下載安裝軟件

https://github.com/alexdobin/STAR

選擇其中一個版本下載后缺前, tar -zxvf 進(jìn)行解壓:

tar -zxvf STAR-2.7.9a.tar.gz

cd STAR/source

?make STAR

二、構(gòu)建基因組索引Index

和Hisat2一樣悬襟,需要先構(gòu)建基因組索引衅码,索引文件作用現(xiàn)在還只記得是在比對過程中,我們并不是把幾十萬條reads直接比對到基因組上去脊岳,而是和Index進(jìn)行比較逝段,使比對過程變地可行,希望等課題結(jié)束后割捅,再回過頭來好好學(xué)習(xí)一下索引文件作用的原理奶躯,先上腳本:

參數(shù)解釋:

--runThreadN:線程數(shù)為10

--runMode:genomeGenerate,構(gòu)建基因組索引亿驾;

--genomeDir:指定索引生成目錄嘹黔;

--genomeFastaFiles:指定參考基因組;

--sjdbGTFfile:指定參考基因組的注釋文件莫瞬;

--sjdbOverhang:這個是reads長度的最大值減1儡蔓,默認(rèn)是100,我不是很理解很多人分析的學(xué)習(xí)方法中都設(shè)置100疼邀,二代測序都是150bp的序列長度喂江,我設(shè)置了149 (有時間時改一下數(shù)值比較一下對結(jié)果是否有影響);

發(fā)現(xiàn)有三個反斜杠“\”異常成了黃色,暫時不清楚原因檩小,結(jié)果報錯了:

其實我也不知道為啥开呐,將運行命令行的反斜杠去掉,再試一下:

剛才的問題解決了,又報了其它錯誤信息:

居然是gtf文件的錯誤筐付,第一次遇見這個問題卵惦,然后找原因:

我們看一下gtf的開頭是CM023448.1,如下圖:

我的參考基因組開頭是>GWHAMMI00000001瓦戚,如下圖:

原來是染色體的命名方式不一樣沮尿,一個是CM開頭,另一個是GWHAMMI開頭较解,我回到NCBI去下載序列文件又看了一下,居然是我之前下錯文件了(從另一個數(shù)據(jù)庫下載的參考基因組畜疾,兩個數(shù)據(jù)庫同一物種染色體編號規(guī)則不同),之前做的工作又浪費了印衔,重新下載啡捶,指定序列文件,30min后奸焙,成功建立索引瞎暑,索引目錄如下:

  • reads比對:

  • 相比于Hisat2,STAR太多的參數(shù)設(shè)置了与帆,對于模式生物還好了赌,很多默認(rèn)參數(shù)就可以,但對于我的課題研究玄糟,就得仔細(xì)看看這些參數(shù)了勿她,著實用去了我不少時間,先上我的腳本阵翎,如下圖:

    我的參數(shù)設(shè)置:

    未用的其它參數(shù):

    --outFilterMismatchNmax:比對時允許的最大錯配數(shù)(可根據(jù)結(jié)果修改);

    --outSAMmapqUnique60:將uniquelymapping reads的MAPQ值調(diào)整為60逢并,滿足下游使用GATK進(jìn)行分析的需要;

    --readFilesCommand:對FASTQ文件進(jìn)行操作;

    --readFilesIn:輸入FASTQ文件的路徑;

    --outSJfilterReadsUnique:對于跨越剪切位點的reads(junction reads),只考慮跨越唯一剪切位點的reads;

    --alignIntronMin:最短的內(nèi)含子長度設(shè)定了20贮喧,(根據(jù)GTF文件計算);

    --alignIntronMax:最長的內(nèi)含子長度設(shè)定了50000筒狠,(根據(jù)GTF文件計算);

    --bamRemoveDuplicatesType?? 輸出BAM文件時,STAR還可以對BAM進(jìn)行一些預(yù)處理箱沦,用于去重。

    四:結(jié)果如下圖雇庙,

    1谓形、使用samtools查看生成的BAM文件。

    samtoolsview sample_Aligned.sortedByCoord.out.bam |head -n 5

    2疆前、結(jié)果內(nèi)容:

    Aligned.sortedByCoord.out.bam:reads比對到基因組的位置;

    Aligned.toTranscriptome.out.bam:reads比對到轉(zhuǎn)錄本的位置寒跳;

    Log.final.out:統(tǒng)計了比對情況的信息,是非常重要的結(jié)果;

    SJ.out.tab:splice junctions的一些信息,其中需要注意的是:對于junction的位置信息竹椒,STAR則是按照intron的起始和終止位置來定童太,而其他的一些軟件則是按照exon的位置來決定的


    附:我比較了一下star和Hisat2的結(jié)果差異,在運行時間和比對率上,star并沒有表現(xiàn)出明顯的優(yōu)越性上书释。

    參考:

    https://blog.csdn.net/weixin_28913137/article/details/112281831

    本文使用 文章同步助手 同步

    ?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
    • 序言:七十年代末翘贮,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子爆惧,更是在濱河造成了極大的恐慌狸页,老刑警劉巖,帶你破解...
      沈念sama閱讀 216,544評論 6 501
    • 序言:濱河連續(xù)發(fā)生了三起死亡事件扯再,死亡現(xiàn)場離奇詭異芍耘,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)熄阻,發(fā)現(xiàn)死者居然都...
      沈念sama閱讀 92,430評論 3 392
    • 文/潘曉璐 我一進(jìn)店門斋竞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人秃殉,你說我怎么就攤上這事窃页。” “怎么了复濒?”我有些...
      開封第一講書人閱讀 162,764評論 0 353
    • 文/不壞的土叔 我叫張陵脖卖,是天一觀的道長。 經(jīng)常有香客問我巧颈,道長畦木,這世上最難降的妖魔是什么? 我笑而不...
      開封第一講書人閱讀 58,193評論 1 292
    • 正文 為了忘掉前任砸泛,我火速辦了婚禮十籍,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘唇礁。我一直安慰自己勾栗,他們只是感情好,可當(dāng)我...
      茶點故事閱讀 67,216評論 6 388
    • 文/花漫 我一把揭開白布盏筐。 她就那樣靜靜地躺著围俘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪琢融。 梳的紋絲不亂的頭發(fā)上界牡,一...
      開封第一講書人閱讀 51,182評論 1 299
    • 那天,我揣著相機(jī)與錄音漾抬,去河邊找鬼宿亡。 笑死,一個胖子當(dāng)著我的面吹牛纳令,可吹牛的內(nèi)容都是我干的挽荠。 我是一名探鬼主播克胳,決...
      沈念sama閱讀 40,063評論 3 418
    • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼圈匆!你這毒婦竟也來了漠另?” 一聲冷哼從身側(cè)響起,我...
      開封第一講書人閱讀 38,917評論 0 274
    • 序言:老撾萬榮一對情侶失蹤臭脓,失蹤者是張志新(化名)和其女友劉穎酗钞,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體来累,經(jīng)...
      沈念sama閱讀 45,329評論 1 310
    • 正文 獨居荒郊野嶺守林人離奇死亡砚作,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
      茶點故事閱讀 37,543評論 2 332
    • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了嘹锁。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片葫录。...
      茶點故事閱讀 39,722評論 1 348
    • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖领猾,靈堂內(nèi)的尸體忽然破棺而出米同,到底是詐尸還是另有隱情,我是刑警寧澤摔竿,帶...
      沈念sama閱讀 35,425評論 5 343
    • 正文 年R本政府宣布面粮,位于F島的核電站,受9級特大地震影響继低,放射性物質(zhì)發(fā)生泄漏熬苍。R本人自食惡果不足惜,卻給世界環(huán)境...
      茶點故事閱讀 41,019評論 3 326
    • 文/蒙蒙 一袁翁、第九天 我趴在偏房一處隱蔽的房頂上張望柴底。 院中可真熱鬧,春花似錦粱胜、人聲如沸柄驻。這莊子的主人今日做“春日...
      開封第一講書人閱讀 31,671評論 0 22
    • 文/蒼蘭香墨 我抬頭看了看天上的太陽鸿脓。三九已至,卻和暖如春冗恨,著一層夾襖步出監(jiān)牢的瞬間答憔,已是汗流浹背。 一陣腳步聲響...
      開封第一講書人閱讀 32,825評論 1 269
    • 我被黑心中介騙來泰國打工掀抹, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人心俗。 一個月前我還...
      沈念sama閱讀 47,729評論 2 368
    • 正文 我出身青樓傲武,卻偏偏與公主長得像蓉驹,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子揪利,可洞房花燭夜當(dāng)晚...
      茶點故事閱讀 44,614評論 2 353

    推薦閱讀更多精彩內(nèi)容