轉(zhuǎn)錄組分析 | 使用STAR進(jìn)行比對(duì)

歡迎關(guān)注微信公眾號(hào)“生信小王子”障般!

前幾期,小編已經(jīng)教大家完成了RNA-seq數(shù)據(jù)的質(zhì)控棘幸,下面就要正式開始轉(zhuǎn)錄組分析啦焰扳!

通過(guò)二代測(cè)序我們可以獲得150bp左右的reads,如果想要知道reads是從哪個(gè)轉(zhuǎn)錄本上測(cè)出來(lái)的,就需要將reads比對(duì)到參考基因組上吨悍。比對(duì)的算法很復(fù)雜扫茅,但簡(jiǎn)單理解就是看reads與基因組上哪個(gè)區(qū)域一致。

常用的比對(duì)工具有Tophat2育瓜、Hisat2和STAR葫隙。不同的工具有各自的優(yōu)勢(shì),目前比較流行的工具是Hisat2和STAR躏仇,它倆的比對(duì)速度都比較快恋脚,STAR的uniquely mapping reads比例較高,對(duì)于我們做多倍體物種分析的人來(lái)說(shuō)焰手,STAR的優(yōu)勢(shì)非常大糟描,所以小編以STAR為例教大家進(jìn)行reads比對(duì)

## 下載 STAR
wget -c https://github.com/alexdobin/STAR/archive/2.7.3a.tar.gz
## 解壓 STAR
tar -xvzf 2.7.3a.tar.g
z## 運(yùn)行 STAR
./STAR-2.7.3a/bin/Linux_x86_64/STAR

在進(jìn)行reads比對(duì)前书妻,我們需要先構(gòu)建基因組索引船响。

##?構(gòu)建基因組索引
STAR --runThreadN 6 --runMode genomeGenerate --genomeDir index_dir --genomeFastaFiles genome.fasta --sjdbGTFfile genome.gtf --sjdbOverhang 149

--runThreadN:線程數(shù)。

--runMode genomeGenerate:構(gòu)建基因組索引驻子。

--genomeDir:索引目錄灿意。(index_dir一定要是存在的文件夾,需提前建好

--genomeFastaFiles:基因組文件崇呵。

--sjdbGTFfile:基因組注釋文件缤剧。

--sjdbOverhang:reads長(zhǎng)度減1。

索引構(gòu)建完成后域慷,就可以看到index_dir中生成了以下文件:

有了索引后荒辕,我們就可以進(jìn)行reads比對(duì)了。

## 進(jìn)行 reads 比對(duì)
STAR?--twopassMode?Basic --quantMode?TranscriptomeSAM?GeneCounts?--runThreadN?6?--genomeDir index_dir --alignIntronMin 20 --alignIntronMax 50000 --outSAMtype?BAM?SortedByCoordinate?--sjdbOverhang 149 --outSAMattrRGline ID:sample SM:sample PL:ILLUMINA --outFilterMismatchNmax 2 --outSJfilterReads Unique --outSAMmultNmax 1 --outFileNamePrefix out_prefix --outSAMmapqUnique 60 --readFilesCommand gunzip -c --readFilesIn seq1.fq.gz seq2.fq.gz

--twopassMode Basic:使用two-pass模式進(jìn)行reads比對(duì)犹褒。簡(jiǎn)單來(lái)說(shuō)就是先按索引進(jìn)行第一次比對(duì)抵窒,而后把第一次比對(duì)發(fā)現(xiàn)的新剪切位點(diǎn)信息加入到索引中進(jìn)行第二次比對(duì)。

--quantMode TranscriptomeSAM GeneCounts:將reads比對(duì)至轉(zhuǎn)錄本序列叠骑。

--runThreadN:線程數(shù)李皇。

--genomeDir:索引目錄。

--alignIntronMin:最短的內(nèi)含子長(zhǎng)度宙枷。(根據(jù)GTF文件計(jì)算)

--alignIntronMax:最長(zhǎng)的內(nèi)含子長(zhǎng)度掉房。(根據(jù)GTF文件計(jì)算)

--outSAMtype BAM SortedByCoordinate:輸出BAM文件并進(jìn)行排序。

--sjdbOverhang:reads長(zhǎng)度減1慰丛。

--outSAMattrRGline:ID代表樣本ID卓囚,SM代表樣本名稱,PL為測(cè)序平臺(tái)诅病。在使用GATK進(jìn)行SNP Calling時(shí)同一SM的樣本可以合并在一起哪亿。

--outFilterMismatchNmax:比對(duì)時(shí)允許的最大錯(cuò)配數(shù)粥烁。

--outSJfilterReads Unique:對(duì)于跨越剪切位點(diǎn)的reads(junction reads),只考慮跨越唯一剪切位點(diǎn)的reads蝇棉。

--outSAMmultNmax:每條reads輸出比對(duì)結(jié)果的數(shù)量讨阻。

--outFileNamePrefix:輸出文件前綴。

--outSAMmapqUnique 60:將uniquely mapping reads的MAPQ值調(diào)整為60篡殷,滿足下游使用GATK進(jìn)行分析的需要变勇。

--readFilesCommand:對(duì)FASTQ文件進(jìn)行操作。

--readFilesIn:輸入FASTQ文件的路徑贴唇。

比對(duì)完成后,我們可以看到輸出目錄下有以下文件:

我們可以使用samtools查看生成的BAM文件飞袋。

##?查看 BAM 文件
samtools?view?CK-1_Aligned.sortedByCoord.out.bam?|head?-n 5

可以看到戳气,以"Aligned.sortedByCoord.out.bam"為后綴的BAM文件中,reads比對(duì)到的位置是基因組位置巧鸭。

以"Aligned.toTranscriptome.out.bam"為后綴的BAM文件中瓶您,reads比對(duì)到的位置是轉(zhuǎn)錄本位置。

"Log.final.out"里記錄了許多比對(duì)情況的統(tǒng)計(jì)信息纲仍。

STAR的參數(shù)非常多呀袱,大家在實(shí)際應(yīng)用過(guò)程中可以參考它的Manual。

雖然STAR的uniquely mapping?reads比例比較高郑叠,但運(yùn)行時(shí)所需的內(nèi)存非常大夜赵,大家在使用時(shí)一定要注意提供足夠大的內(nèi)存。

參考資料:

https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf

歡迎關(guān)注微信公眾號(hào)“生信小王子”乡革!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末寇僧,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子沸版,更是在濱河造成了極大的恐慌嘁傀,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件视粮,死亡現(xiàn)場(chǎng)離奇詭異细办,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蕾殴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門笑撞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人区宇,你說(shuō)我怎么就攤上這事娃殖。” “怎么了议谷?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵炉爆,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng)芬首,這世上最難降的妖魔是什么赴捞? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮郁稍,結(jié)果婚禮上赦政,老公的妹妹穿的比我還像新娘。我一直安慰自己耀怜,他們只是感情好恢着,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著财破,像睡著了一般掰派。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上左痢,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天靡羡,我揣著相機(jī)與錄音,去河邊找鬼俊性。 笑死略步,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的定页。 我是一名探鬼主播趟薄,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼典徊!你這毒婦竟也來(lái)了竟趾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宫峦,失蹤者是張志新(化名)和其女友劉穎岔帽,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體导绷,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡犀勒,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了妥曲。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贾费。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖檐盟,靈堂內(nèi)的尸體忽然破棺而出褂萧,到底是詐尸還是另有隱情,我是刑警寧澤葵萎,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布导犹,位于F島的核電站唱凯,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏谎痢。R本人自食惡果不足惜磕昼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望节猿。 院中可真熱鬧票从,春花似錦、人聲如沸滨嘱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)太雨。三九已至先馆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間躺彬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工梅惯, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留宪拥,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓铣减,卻偏偏與公主長(zhǎng)得像她君,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子葫哗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容