準備工作
需要你先安裝好R-3.6.0 奔滑、Rtools-3.5茎杂、Rstudio,這是基本的運行環(huán)境理澎。
然后再此基礎上安裝DESeq2 的R包逞力。
>Install.packages(” BiocManager” )
>BiocManager::install(version=”3.10”)
>BiocManager::install(” DESeq2”)
>library(DESeq2)
這一步?jīng)]什么提示或者只是warning提示,就是安裝成功了糠爬。
后續(xù)就可以開始一步一步的進行差異基因分析了寇荧。
準備好的數(shù)據(jù)有兩個:(1)readcount數(shù)據(jù)文件,example.count.txt
(2)樣品分組信息文件执隧,example.group.txt揩抡。
這里ck-1、ck-2镀琉、 ck-3是對照的三個生物學重復峦嗤,屬于ck組;
case1屋摔、case2烁设、case3是研究對象的三個生物學重復,屬于case組钓试。
分組信息的內(nèi)容如下:
#設置工作目錄装黑,所有的數(shù)據(jù)和輸出結果都放在這里。
setwd("D:/R.workspace")
#加載DESeq2包
library(DESeq2)
第1步弓熏,構建eg_dds對象恋谭,具體過程如下:
#read.table()函數(shù)可直接讀取txt文本。
eg_count <-read.table("example.count.txt", header = T,sep="\t",row.names = 1, comment.char = "", check.names = F)
#預處理挽鞠,過濾低豐度的數(shù)據(jù)疚颊,這里的條件是所有樣板的readcount之和>0
#apply(b,1,sum)經(jīng)常用來計算矩陣中行或列的平均值或總和狈孔。b,代表矩陣;1=對行操作材义,2=對列操作除抛;sum=求和,mean=求平均值
eg_countData<-eg_count[apply(eg_count,1,sum)>0,]
#讀取樣本分組信息
group_list=read.table("example.group.txt",header= T, sep="\t",row.names = 1, comment.char = "", check.names= F)
#構建DESeq2中的dds對象
eg_dds <-DESeqDataSetFromMatrix(countData = eg_countData,colData = group_list, design =~ eg_cond)
#在做差異分析時母截,指定哪一組作為對照數(shù)據(jù)control到忽。
eg_dds$eg_cond<-relevel(eg_dds$eg_cond,ref="ck")
第2步:樣本數(shù)據(jù)進行歸一標準化
eg_dds <-estimateSizeFactors(eg_dds)
第3步:估計基因的離散程度
eg_dds <-estimateDispersions(eg_dds)
第4步:差異表達分析
eg_dds <- nbinomWaldTest(eg_dds)
res <-results(eg_dds)
#把計算得到的結果輸出到指定文件中。
write.table(res,"example.out2.txt",sep="\t",quote=F,col.names = NA)
為了簡化代碼調(diào)用清寇,已經(jīng)將下面三個函數(shù)的處理過程封裝入函數(shù)DESeq()中喘漏。
=====dds <-DESeq(dds)函數(shù)等于下面三個函數(shù)的處理過程=====
dds <-estimateSizeFactors(dds)
dds <-estimateDispersions(dds)
dds <-nbinomWaldTest(dds)
==========================================
需要注意的是:
將自己計算的結果與DESeq2進行對比,可以發(fā)現(xiàn)华烟,baseMean的結果是一致的翩迈,而log2Foldchange的差異則很大,有的差異連正負都能出現(xiàn)
log2FC反映的是不同分組間表達量的差異盔夜,這個差異包含兩部分:(1)樣本間本身的差異负饲,如生物學重復樣本間基因的表達量會有一定程度的差異;(2)由于分組不同或者實驗條件不同造成的差異喂链,這類差異是我們感興趣的返十。
用歸一化后的數(shù)值直接計算出的log2Foldchange包含了以上提到的兩種差異,我們真正感興趣的只有分組不同導致的差異椭微,DESeq2在分析過程中洞坑,已考慮到了樣本本身的差異,所以最后得到的log2FC與手動計算的會出現(xiàn)差異蝇率。
參考網(wǎng)頁:http://www.360doc.com/content/19/1224/14/68068867_881789440.shtml
http://www.reibang.com/p/3a0e1e3e41d0
http://www.reibang.com/p/699b945f8e01?from=singlemessage