DESeq2的基本使用

DEseq預(yù)熱

主要就是這幾個(gè)步驟了蛛株。

#準(zhǔn)備count tables
cnts <- matrix(rnbinom(n=1000, mu=100, size=1/0.5),ncol = 10) #構(gòu)建滿足隨機(jī)負(fù)二項(xiàng)分布的一組數(shù)
cond <- factor(rep(1:2,each=5))

#創(chuàng)建DEseqDataSet
dds2 <- DESeqDataSetFromMatrix(cnts,DataFrame(cond), ~cond)

#標(biāo)準(zhǔn)分析
dds2 <- DESeq(dds2)
res <- results(dds2)
##另一種檢驗(yàn)积糯，LRT，似然率檢驗(yàn)
#ddsLRT <- DESeq(dds2,test="LRT",reduced=~1)
#resLRT <- results(ddsLRT)

#moderate lfc
resultsNames(dds2)
resLFC <- lfcShrink(dds2,coef = 2,type = "apeglm")

#提取結(jié)果
summary()、subset()

1. counts: 查看每個(gè)樣本在每個(gè)基因上的counts數(shù)

library(DESeq2)

> dds <- makeExampleDESeqDataSet(m=4)
> head(counts(dds))
      sample1 sample2 sample3 sample4
gene1       0       0       2       1
gene2      14      56      50      47
gene3       5       3       3       8
gene4      70     105     116     125
gene5       5       2       2      12
gene6     153      70      70      53
> dds1 <- estimateSizeFactors(dds)
> head(counts(dds1,normalized=TRUE)) #通過估計(jì)size對(duì)counts數(shù)進(jìn)行標(biāo)準(zhǔn)化
         sample1   sample2    sample3     sample4
gene1   0.000000  0.000000   1.883002   0.9839948
gene2  14.041418 53.289007  47.075041  46.2477573
gene3   5.014792  2.854768   2.824502   7.8719587
gene4  70.207091 99.916889 109.214095 122.9993545
gene5   5.014792  1.903179   1.883002  11.8079380
gene6 153.452641 66.611259  65.905057  52.1517263

2. 構(gòu)建DESeqDataSet

> #from matrix：從數(shù)值矩陣得到，比如用featurecount統(tǒng)計(jì)得到的數(shù)值矩陣
> a <- as.matrix(read.table("6sample_count_matrix.txt",sep="\t",header = T,row.names=1))
> head(a)
           WT1  WT2  WT3 acc1.51 acc1.52 acc1.53
AT1G01010  226  183  247     514     353     383
AT1G01020  386  364  453     369     483     443
AT1G01030   77   65   87      52      62      74
AT1G01040 1322 1258 1621    1333    1526    1641
AT1G01050 1531 1518 2029    1573    1888    1987
AT1G01060  124  151  823     146     197     297
> b <- read.table("coldata.txt",header = T,row.names = 1)
> b
        condition
WT1            WT
WT2            WT
WT3            WT
acc1.51    acc1.5
acc1.52    acc1.5
acc1.53    acc1.5
> all(rownames(b) == colnames(a)) #make sure that it's true
[1] TRUE
> dds3 <- DESeqDataSetFromMatrix(countData = a,
+                                DataFrame(b),
+                                design = ~ condition)
> #from htseq-count：由單個(gè)htseq-count結(jié)果文件合并得到
> c <- read.table("sampletable_for_htseq.txt.txt",sep = "\t", header = F)
> c
       V1                V2     V3
1     WT1 SRR3286802.count2     WT
2     WT2 SRR3286803.count2     WT
3     WT3 SRR3286804.count2     WT
4 acc1.51 SRR3286805.count2 acc1.5
5 acc1.52 SRR3286806.count2 acc1.5
6 acc1.53 SRR3286807.count2 acc1.5
> colnames(c) <- c("samplename","filename","condition")
> dds4 <- DESeqDataSetFromHTSeqCount(c, directory = ".", design = ~condition)

3. run DESeq() & results()——主要分析步驟

#是否需要初步過濾一下
#keep <- rowSums(counts(dds4)) >= 20 # 對(duì)counts數(shù)進(jìn)行初步的過濾
#dds4 <- dds4[keep,]
> dds4 <- DESeq(dds4) #三步走：文庫(kù)大小估計(jì)；離散程度估計(jì)蜂科；統(tǒng)計(jì)檢驗(yàn)
estimating size factors
estimating dispersions
gene-wise dispersion estimates
mean-dispersion relationship
final dispersion estimates
fitting model and testing
> res4 <- results(dds4) #結(jié)果呈現(xiàn)
> res4
log2 fold change (MLE): condition WT vs acc1.5 
Wald test p-value: condition WT vs acc1.5 
DataFrame with 37884 rows and 6 columns
                  baseMean      log2FoldChange             lfcSE               stat               pvalue                padj
                 <numeric>           <numeric>         <numeric>          <numeric>            <numeric>           <numeric>
AT1G01010  308.89691311743  -0.873161860576389 0.235593150198139  -3.70622770586514 0.000210369178701959 0.00230248659971188
AT1G01020 392.486827906655  -0.014533822556904 0.140844859602549 -0.103190294611512     0.91781194256941    0.95926533475846
AT1G01030 63.2288140763626   0.399739741186851 0.255254339106486   1.56604484212152    0.117338119589006   0.275094993904629
......

4. LFC校正

resultsNames(dds4) #顯示誰(shuí)和誰(shuí)比較
res.shr <- lfcShrink(dds4,coef = 2) #2表示第2列顽决，即LFC這一列
res.shr
res.shr2 <- lfcShrink(dds4,contrast = c("condition","acc1.5","WT")) #contrast和coef不能同時(shí)存在
res.shr2
#更換校正模型
res.ape <- lfcShrink(dds4,coef = 2, type = "apeglm")
res.ash <- lfcShrink(dds4, coef = 2, type = "ashr")
res.ash2 <- lfcShrink(dds4, contrast = c("condition","acc1.5","WT"), type = "ashr")

#這一步只會(huì)對(duì)LFC的值產(chǎn)生影響，p值是沒有改變的

5. 簡(jiǎn)單作圖

plotCounts: 用以檢驗(yàn)單個(gè)基因在組間的reads數(shù)有多少

plotCounts(dds4,"AT1G01010")

plotMA: 所有樣本normalized counts的平均值和LFC的關(guān)系

從整體上來看gene的上調(diào)下調(diào)情況导匣，注意用resultsNames()看一下是誰(shuí)和誰(shuí)比較

res.shr2 <- lfcShrink(dds4,coef = 2,type = "apeglm") #校正LFC
plotMA(res.shr2,alpha=0.01,main="apeglm") #alpha=0.01才菠，定義顯著水平

6. results()——從DESeq分析中提取結(jié)果

> res4 <- results(dds4,contrast = c("condition","acc1.5","WT"),alpha = 0.001,tidy = F)
> # dds4經(jīng)過了DESeq()分析
> # contrast: 定義誰(shuí)和誰(shuí)比較
> # lfcThreshold: 定義了lfc閾值，從MA圖中可以看到紅點(diǎn)減少贡定，此外results()結(jié)果中不滿足lfc閾值的gene的p值都是1
> # alpha: 定義顯著水平
> # tidy: 是否將結(jié)果輸出為data.frame格式
> summary(res4,alpha=0.001)

out of 27432 with nonzero total read count
adjusted p-value < 0.001
LFC > 0 (up)       : 1198, 4.4%
LFC < 0 (down)     : 554, 2%
outliers [1]       : 63, 0.23%
low counts [2]     : 6254, 23%
(mean count < 7)
[1] see 'cooksCutoff' argument of ?results
[2] see 'independentFiltering' argument of ?results

> # res4經(jīng)過了results()操作
> # alpha: 校正p值的閾值赋访，如果沒有設(shè)置，會(huì)沿用results()中的alpha參數(shù)

#按照自定義的閾值提取差異基因并導(dǎo)出
#diff_gene_deseq2 <-subset(res, padj < 0.001 & abs(log2FoldChange) > 1)
#write.csv(diff_gene_deseq2,file= "DEG_acc1.5_vs_WT.csv")

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末缓待，一起剝皮案震驚了整個(gè)濱河市蚓耽，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌旋炒，老刑警劉巖步悠，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異瘫镇，居然都是意外死亡鼎兽，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門铣除，熙熙樓的掌柜王于貴愁眉苦臉地迎上來接奈，“玉大人，你說我怎么就攤上這事通孽⌒蚧拢” “怎么了？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵背苦，是天一觀的道長(zhǎng)互捌。經(jīng)常有香客問我，道長(zhǎng)行剂，這世上最難降的妖魔是什么秕噪？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮厚宰，結(jié)果婚禮上腌巾，老公的妹妹穿的比我還像新娘。我一直安慰自己铲觉，他們只是感情好澈蝙，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著撵幽，像睡著了一般灯荧。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上盐杂，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說
那天逗载，我揣著相機(jī)與錄音哆窿，去河邊找鬼。笑死厉斟，一個(gè)胖子當(dāng)著我的面吹牛挚躯，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播擦秽，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼秧均，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了号涯？” 一聲冷哼從身側(cè)響起目胡，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎链快，沒想到半個(gè)月后誉己，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡域蜗，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年巨双，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片霉祸。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡筑累，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出丝蹭，到底是詐尸還是另有隱情慢宗，我是刑警寧澤，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布奔穿，位于F島的核電站镜沽，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏贱田。R本人自食惡果不足惜缅茉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望男摧。院中可真熱鬧蔬墩，春花似錦、人聲如沸耗拓。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)帆离。三九已至蔬蕊，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間哥谷，已是汗流浹背岸夯。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留们妥，地道東北人猜扮。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像监婶，于是被迫代替她去往敵國(guó)和親旅赢。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

DESeq2的基本使用

DEseq預(yù)熱

1. counts: 查看每個(gè)樣本在每個(gè)基因上的counts數(shù)

2. 構(gòu)建DESeqDataSet

3. run DESeq() & results()——主要分析步驟

4. LFC校正

5. 簡(jiǎn)單作圖

plotCounts: 用以檢驗(yàn)單個(gè)基因在組間的reads數(shù)有多少

plotMA: 所有樣本normalized counts的平均值和LFC的關(guān)系

6. results()——從DESeq分析中提取結(jié)果

推薦閱讀更多精彩內(nèi)容