RNA-seq轉(zhuǎn)錄組數(shù)據(jù)分析思路
數(shù)據(jù)產(chǎn)生
-測(cè)序的平臺(tái)和測(cè)序的類型
-測(cè)序基本原理
1.single end 蒋失、2.pair end測(cè)序卸伞、3.mate pair測(cè)序
-實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)處理
-數(shù)據(jù)誤差來(lái)源
-質(zhì)量控制軟件FastQC結(jié)果解讀
-數(shù)據(jù)過(guò)濾軟件Trimmomatic
有參轉(zhuǎn)錄組序列比對(duì)hisat2
-不同軟件的比較
-常用高通量序列比對(duì)算法
-基因組
1.STAR、2.
-轉(zhuǎn)錄本
RSEM
無(wú)參轉(zhuǎn)錄組
-轉(zhuǎn)錄本從頭拼接原理
-拼接方法 Trinity
表達(dá)定量
-RNA-seq常用的統(tǒng)計(jì)定量單位
-基因組比對(duì)
1.Htseq-Count淘太、2.FeatureCount
-轉(zhuǎn)綠本比對(duì)
Rsem
無(wú)比對(duì)快速定量
kallisto
數(shù)據(jù)如何分析
差異表達(dá)
-Deseq標(biāo)準(zhǔn)化原理
-結(jié)果解讀
8.富集分析
-Go常用網(wǎng)站和工具
-通路富集分析
9.數(shù)據(jù)可視化展示
-IGV
-基因?yàn)g覽器
實(shí)戰(zhàn)演練
數(shù)據(jù)預(yù)處理
構(gòu)建目錄
-原始數(shù)據(jù)目錄
-基因組文件
-注釋信息文件
-結(jié)果文件
參考序列下載
-參考基因組fasta
去相關(guān)數(shù)據(jù)庫(kù)下載參考基因組的fasta文件
-注釋信息 gtf、gff
ensembl、jgl等數(shù)據(jù)庫(kù)沦疾,araport數(shù)據(jù)網(wǎng)站
原始數(shù)據(jù)上傳
檢測(cè)數(shù)據(jù)完整性md5值
md5sum *gz>md5.txt
md5sum -c md5.txt #比對(duì)已經(jīng)有點(diǎn)數(shù)據(jù)
質(zhì)量控制
-安裝conda使用fastQC
which fastqc #查找是否有該軟件
fastqc 序列文件名.fastqc.gz 進(jìn)行處理
fastqc *.gz #進(jìn)行多個(gè)處理
或者
for i in ls *gz
;do fastqc $i ;done #for循環(huán)實(shí)現(xiàn)批處理
或者(將文件放入后臺(tái)并行處理)
ls *.gz |xargs -I [] echo 'nohup fastqc [] &' >fastqc.sh
bash fastqc.sh
Multiqc進(jìn)行多個(gè)質(zhì)控結(jié)果可視化
multiqc ./ #在當(dāng)前文件下進(jìn)行比對(duì)
質(zhì)量過(guò)濾-Trimmomatic(需要java的環(huán)境)
對(duì)illumina測(cè)序文件的接頭進(jìn)行開(kāi)頭結(jié)尾進(jìn)行切除
接頭的序列信息不同,采用不同的命令進(jìn)行處理
illumina Single End/illumina Paired End : TruSeq2-SE.fa/TruSeq2-PE.fa
TruSeq Universal Adapter/TruSeq Adapter,index: TruSeq3-SE.fa TruSeq3-PE.fa
接頭參數(shù)的選擇
TRUE/FALSE
雙端測(cè)序用TRUE
序列比對(duì)
-無(wú)參分析:轉(zhuǎn)錄本拼接——trinity
-以轉(zhuǎn)錄本和基因組分別進(jìn)行比對(duì)
轉(zhuǎn)錄本
RASE
基因組
-STAR實(shí)例
1.建立索引
STAR --runThreadN 6 --runMode genomeGenerate
--genomeDir arab_STAR_genome(比對(duì)的文件輸出目錄)
--genomeFastaFiles /目錄/文件 (比對(duì)的參考文件)
--sidbGTFfile /目錄/文件 (比對(duì)的注釋文件)
--sidbOverhang 149^C (比對(duì)reads的長(zhǎng)度-1)
2.進(jìn)行比對(duì)
3.查看比對(duì)文件
-Hisat2
表達(dá)定量分析
-處理原始比對(duì)文件
picard第队、samtools
將sam文件變成bam文件
-先比對(duì)再定量STAR+RSEM/STAR+HTSeq
構(gòu)建準(zhǔn)備環(huán)境
參考基因組轉(zhuǎn)錄本文件
查看
主要關(guān)注的是基因和轉(zhuǎn)錄本的信息哮塞。
-非比對(duì)的定量表達(dá)分析Kallisto(free-alignment)
構(gòu)建索引
定量
觀察.tsv文件
差異分析
featureCounts+STAR軟件能夠提升表達(dá)定量的速度
conda install subread
查看文件內(nèi)容
表達(dá)定量結(jié)果轉(zhuǎn)換為表達(dá)矩陣
到RESM的輸出文件目錄操作
生成基因表達(dá)矩陣
查看之后剔除表達(dá)量為0的命令
進(jìn)入R之后操作...
-edgeR
-DESeq2
。凳谦。忆畅。。尸执。家凯。。
由于配置環(huán)境未成功如失,后續(xù)操作做不了绊诲。
詳情參見(jiàn)于:
RNA-seq轉(zhuǎn)錄組數(shù)據(jù)分析入門實(shí)戰(zhàn)07-差異分析_嗶哩嗶哩_bilibili