Bulk RNAseq上游比對(duì)1:大致流程與conda環(huán)境 - 簡(jiǎn)書(shū) (jianshu.com)
Bulk RNAseq上游比對(duì)2:下載數(shù)據(jù)许饿、質(zhì)控 - 簡(jiǎn)書(shū) (jianshu.com)
Bulk RNAseq上游比對(duì)3:比對(duì)mapping - 簡(jiǎn)書(shū) (jianshu.com)
要點(diǎn)一至朗、大致流程
如上流程圖所示趴久,一般包括三大步驟:下載數(shù)據(jù)--質(zhì)控--比對(duì)
1赢织、下載數(shù)據(jù)
主要包括兩類(lèi)數(shù)據(jù):一是測(cè)序fastq.gz數(shù)據(jù)签杈,二是參考基因組及相關(guān)數(shù)據(jù)集
1.1 fastq.gz
- 這里主要是指挖掘公共數(shù)據(jù)庫(kù)的fastq.gz數(shù)據(jù)集诀诊;
- 按照下載速度采桃,依次推薦ascp的aspera途徑橙凳、wget ftp方式、prefetch下載.sra文件三種方法彭羹。
1.2 參考數(shù)據(jù)
- 基因組fasta文件(optional)
- 基因組gtf注釋文件
- 比對(duì)軟件的索引文件黄伊。
雖然可以自己構(gòu)建索引,這里推薦直接使用refgenie:參考基因組下載商店 - 簡(jiǎn)書(shū) (jianshu.com)建立好的各個(gè)比對(duì)軟件的索引文件派殷。其實(shí)还最,gtf文件與fasta文件也是可以從refgenie下載墓阀。
2、質(zhì)控
這一步主要使用trim-galore
軟件對(duì)fastq.gz的reads測(cè)序文件進(jìn)行質(zhì)控拓轻、過(guò)濾斯撮,主要包括以下三個(gè)過(guò)程:
- (1)reads的低質(zhì)量測(cè)序堿基;
- (2)reads的接頭序列扶叉;
- (3)經(jīng)過(guò)上述兩個(gè)步驟后勿锅,再進(jìn)一步過(guò)濾長(zhǎng)度過(guò)短的reads
具體可參考幫助文檔:https://github.com/FelixKrueger/TrimGalore/blob/master/Docs/Trim_Galore_User_Guide.md
3、比對(duì)
雖然各個(gè)比對(duì)軟件(hisat2, star, bowtie2, bwa)具體調(diào)用方式不同枣氧,但基本是如下三個(gè)過(guò)程
- (1)fastq.gz比對(duì)至參考基因組溢十,生成sam文件
- (2)使用samtools,sam轉(zhuǎn)為bam
- (3)featurecount從bam文件提取樣本的基因表達(dá)信息
值得注意的是salmon軟件的比對(duì)方式是基于轉(zhuǎn)錄本信息达吞,可使用tximport R包定量基因表達(dá)信息
要點(diǎn)二张弛、conda環(huán)境
結(jié)合個(gè)人使用經(jīng)驗(yàn)與習(xí)慣,建立的兩個(gè)conda環(huán)境
1酪劫、環(huán)境1:download
conda activate download
#ascp的aspera高速下載
conda install -c hcc aspera-cli
#prefech下載sra文件
conda install -c bioconda sra-tools
# 基因組下載商店
# conda install refgenie
# QC質(zhì)控
conda install -c bioconda trim-galore
conda install -c bioconda multiqc
2吞鸭、環(huán)境2:fq_map
conda activate fq_map
#不同類(lèi)型的比對(duì)軟件
conda install -c bioconda hisat2
conda install -c bioconda star=2.7.1a
conda install -c bioconda bwa
conda install -c bioconda bowtie2
conda install -c bioconda salmon=1.5.2
# 匯總比對(duì)結(jié)果
conda install -c bioconda multiqc
# 基因組下載商店
# conda install refgenie
# sam2bam轉(zhuǎn)換
conda install -c bioconda samtools
# 基因表達(dá)定量
conda install -c bioconda subread
如上,默認(rèn)下載軟件的最新版本即可覆糟,但結(jié)合嘗試刻剥、探索,star與salmon比對(duì)軟件的版本信息必須與構(gòu)建對(duì)應(yīng)索引文件的軟件版本一致(refgenie構(gòu)建)搪桂。因此安裝了上述指定的版本透敌。