初學(xué)RNA-seq,用于有參原核轉(zhuǎn)錄組的分析洛心,主要參照DESeq2說明書:(Analyzing RNA-seq data with DESeq2)和(RNA-seq workflow: gene-level exploratory
analysis and differential expression)斯撮。reads的count矩陣來源于featureCounts的結(jié)果寡夹,為原始mapping上的reads數(shù)锨侯,其格式如下:
readscount.png
接下來構(gòu)建DESeq2分析所需的分組信息,分組信息包括了實(shí)驗(yàn)的分組情況和平行樣的情況早抠。比如在我使用的數(shù)據(jù)中R0_1和R0_2是同一個(gè)處理的兩個(gè)平行樣,而R0撬讽,R16蕊连,R24和R32是不同的處理(就是不同培養(yǎng)時(shí)間的樣本)。那么分組信息可以按照如下格式構(gòu)建為dataframe
coldata<-data.frame(batch=c("r1", "r2", "r1", "r2", "r1", "r2", "r1", "r2"), condition=c("R0", "R0", "R16", "R16", "R24", "R24", "R32", "R32"), stringsAsFactors = T)
格式如下:
image.png
在構(gòu)建DESeq數(shù)據(jù)集時(shí)游昼,使用design參數(shù)告訴DESeq分組信息:
library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData, colData=coldata, design= ~ batch+condition)
至此甘苍,完成了從featureCounts原始數(shù)據(jù)到R中DESeq2分析所需數(shù)據(jù)集的建立『嫱悖可以使用colData命令查看分組是否正確:
image.png
也可以直接運(yùn)行dds顯示數(shù)據(jù)集的信息:
image.png
其中:
class:DESeqDataSet #類別為DEseq數(shù)據(jù)集
dim:5846 8 #數(shù)據(jù)集共5846行载庭,8列
assays(1): counts # 分析數(shù)據(jù)為readscount
colData names(2): batch condition #分組信息的名字