一文掌握R包DESeq2的差異基因分析過(guò)程

轉(zhuǎn)錄組測(cè)序的最直接目的赏酥,就是設(shè)法尋找組間顯著表達(dá)變化的基因赖淤,解釋基因表達(dá)水平的變化對(duì)生物功能的影響医增。例如慎皱,腫瘤患者與正常人群相比哪些編碼蛋白或非編碼RNA分子發(fā)生了失調(diào),這些失調(diào)分子是否是引發(fā)或加速腫瘤進(jìn)程的潛在因素叶骨?逆境脅迫下的植物體中哪些基因表達(dá)顯著激活茫多,這些激活的基因是否有利于植物應(yīng)對(duì)高溫、干旱忽刽、鹽脅迫等不利環(huán)境天揖。

那么夺欲,如何基于轉(zhuǎn)錄組測(cè)序獲得的定量表達(dá)值,識(shí)別差異表達(dá)變化的基因或其它非編碼RNA分子呢今膊?

查閱相關(guān)文獻(xiàn)尋找思路的習(xí)慣是一定要養(yǎng)成的些阅,文獻(xiàn)的材料方法或者正文部分都會(huì)有相關(guān)的描述,使用了哪個(gè)工具(例如DESeq2)作差異表達(dá)分析斑唬,閾值是什么(例如倍數(shù)變化≥2市埋,p<0.05等)。本篇就以R包DESeq2的差異表達(dá)基因分析方法為例做個(gè)簡(jiǎn)單演示恕刘,這是目前使用頻率最高的鑒定差異分子的R包之一缤谎。

相關(guān)文獻(xiàn)描述

1 關(guān)于DESeq2包的安裝

對(duì)于DESeq2的安裝也很簡(jiǎn)單,一般情況下褐着,直接通過(guò)Bioconductor安裝DESeq2就可以了坷澡。

考慮到19年下半年的時(shí)候,DESeq2做過(guò)重大更新和優(yōu)化献起,核心算法沒(méi)變洋访,但是運(yùn)行速率相對(duì)于先前的版本提升了幾十倍!小編不清楚最新版本的DESeq2是否已經(jīng)添加至Bioconductor中谴餐,因此如果想安裝最新版本提高計(jì)算效率姻政,而又不確定Bioconductor的DESeq2是否是新版本的情況下,建議直接鏈接至作者的github庫(kù)中直接安裝岂嗓。

##以下兩種安裝 DESeq2 的方法二選一

#(1)常規(guī)方法 bioconductor 安裝
#install.packages('BiocManager')  #需要首先安裝 BiocManager汁展,如果尚未安裝請(qǐng)先執(zhí)行該步
BiocManager::install('DESeq2')

#(2)在 GitHub 中獲取最新版本的方式
#install.packages('devtools')  #需要首先安裝 devtools,如果尚未安裝請(qǐng)先執(zhí)行該步
devtools::install_github('mikelove/DESeq2@ae7c6bd')

#其它備注項(xiàng):若中間提示有其它依賴(lài) R 包的舊版包沖突的話厌殉,先刪除舊包再安裝新的
remove.packages('xxx')
BiocManager::install('xxx')


2 DESeq2分析差異表達(dá)基因的一般過(guò)程

DESeq2是一種基于負(fù)二項(xiàng)式分布的方法食绿,使用局部回歸推算均值和方差,通過(guò)離散度和倍數(shù)變化的收縮率估計(jì)以提高穩(wěn)定性公罕。定量分析關(guān)注的更多是差異表達(dá)的“強(qiáng)度”器紧,而非“存在”。

以下是DESeq2分析差異表達(dá)基因的一般過(guò)程楼眷。

2.1 準(zhǔn)備數(shù)據(jù)和文件讀取

首先準(zhǔn)備基因表達(dá)值矩陣铲汪。
本文的所有測(cè)試數(shù)據(jù)和R代碼,可在文末獲取

  • “control_treat.count.txt”罐柳,是6個(gè)測(cè)序樣本的基因表達(dá)值矩陣掌腰,包括3個(gè)處理組(treat)和3個(gè)對(duì)照組(control)。第1列是基因名稱(chēng)张吉,注意不能有重復(fù)值齿梁。


    示例文件樣式,行是基因,列是樣本勺择,內(nèi)容為基因表達(dá)值

然后將準(zhǔn)備好的基因表達(dá)值矩陣讀到R中创南,并預(yù)定義樣本分組信息。

#讀取基因表達(dá)矩陣
dat <- read.delim('control_treat.count.txt', row.names = 1, sep = '\t', check.names = FALSE)

#指定分組因子順序
#注意要保證表達(dá)矩陣中的樣本順序和這里的分組順序是一一對(duì)應(yīng)的
coldata <- data.frame(condition = factor(rep(c('control', 'treat'), each = 3), levels = c('control', 'treat')))


2.2 計(jì)算差異倍數(shù)列表

整體過(guò)程非常簡(jiǎn)單酵幕,因?yàn)樽髡咭呀?jīng)將多步過(guò)程整合到一個(gè)函數(shù)中扰藕,因此使用起來(lái)非常的方便。大致上芳撒,DESeq2兩步就完成分析了邓深。

  • 第1步是構(gòu)建DESeqDataSet對(duì)象,包括對(duì)表達(dá)值的標(biāo)準(zhǔn)化以及存儲(chǔ)輸入值和中間結(jié)果等笔刹。
  • 第2步芥备,函數(shù)DESeq()是一個(gè)包含因子大小估計(jì)、離散度估計(jì)舌菜、負(fù)二項(xiàng)模型擬合萌壳、Wald統(tǒng)計(jì)等多步在內(nèi)的過(guò)程,結(jié)果將返回至DESeqDataSet對(duì)象日月。最后獲得各基因的差異倍數(shù)變化和顯著性p值袱瓮,用于后續(xù)的差異基因篩選。
##DESeq2 默認(rèn)流程
library(DESeq2)

#第一步爱咬,構(gòu)建 DESeqDataSet 對(duì)象
dds <- DESeqDataSetFromMatrix(countData = dat, colData = coldata, design= ~condition)

#第二步尺借,計(jì)算差異倍數(shù)并獲得 p 值
#備注:parallel = TRUE 可以多線程運(yùn)行,在數(shù)據(jù)量較大時(shí)建議開(kāi)啟
dds1 <- DESeq(dds, fitType = 'mean', minReplicatesForReplace = 7, parallel = FALSE)

#注意精拟,需將 treat 在前燎斩,control 在后,意為 treat 相較于 control 中哪些基因上調(diào)/下調(diào)
res <- results(dds1, contrast = c('condition', 'treat', 'control'))

res
DESeq2默認(rèn)輸出

差異分析結(jié)果保存在“res”中蜂绎,包含了基因id栅表、標(biāo)準(zhǔn)化后的基因表達(dá)值、log2轉(zhuǎn)化后的差異倍數(shù)(Fold Change)值师枣、顯著性p值以及校正后p值(默認(rèn)FDR校正)等主要信息怪瓶。

如果期望將該表格輸出到本地,轉(zhuǎn)化為數(shù)據(jù)框結(jié)構(gòu)后直接write.table()就可以了践美。

#輸出表格至本地
res1 <- data.frame(res, stringsAsFactors = FALSE, check.names = FALSE)
write.table(res1, 'control_treat.DESeq2.txt', col.names = NA, sep = '\t', quote = FALSE)
DESeq2結(jié)果的本地輸出

2.3 篩選差異表達(dá)基因

后續(xù)通過(guò)該表劳殖,即可自定義閾值篩選差異表達(dá)基因了。

  • 例如這里期望根據(jù)|log2FC|≥1以及padj<0.01篩選拨脉,并通過(guò)“up”和“down”分別區(qū)分上、下調(diào)的基因宣增。
##篩選差異表達(dá)基因
#首先對(duì)表格排個(gè)序玫膀,按 padj 值升序排序,相同 padj 值下繼續(xù)按 log2FC 降序排序
res1 <- res1[order(res1$padj, res1$log2FoldChange, decreasing = c(FALSE, TRUE)), ]

#log2FC≥1 & padj<0.01 標(biāo)識(shí) up爹脾,代表顯著上調(diào)的基因
#log2FC≤-1 & padj<0.01 標(biāo)識(shí) down帖旨,代表顯著下調(diào)的基因
#其余標(biāo)識(shí) none箕昭,代表非差異的基因
res1[which(res1$log2FoldChange >= 1 & res1$padj < 0.01),'sig'] <- 'up'
res1[which(res1$log2FoldChange <= -1 & res1$padj < 0.01),'sig'] <- 'down'
res1[which(abs(res1$log2FoldChange) <= 1 | res1$padj >= 0.01),'sig'] <- 'none'

#輸出選擇的差異基因總表
res1_select <- subset(res1, sig %in% c('up', 'down'))
write.table(res1_select, file = 'control_treat.DESeq2.select.txt', sep = '\t', col.names = NA, quote = FALSE)

#根據(jù) up 和 down 分開(kāi)輸出
res1_up <- subset(res1, sig == 'up')
res1_down <- subset(res1, sig == 'down')

write.table(res1_up, file = 'control_treat.DESeq2.up.txt', sep = '\t', col.names = NA, quote = FALSE)
write.table(res1_down, file = 'control_treat.DESeq2.down.txt', sep = '\t', col.names = NA, quote = FALSE)
篩選的顯著上下調(diào)基因

2.4 差異表達(dá)火山圖示例

已經(jīng)識(shí)別了顯著差異表達(dá)的基因,最后期望通過(guò)火山圖將它們表示出來(lái)解阅,火山圖是文獻(xiàn)中常見(jiàn)統(tǒng)計(jì)圖表之一落竹。

  • ggplot2為此提供了優(yōu)秀的作圖方案,參考以下示例货抄。
##ggplot2 差異火山圖
library(ggplot2)

#默認(rèn)情況下述召,橫軸展示 log2FoldChange,縱軸展示 -log10 轉(zhuǎn)化后的 padj
p <- ggplot(data = res1, aes(x = log2FoldChange, y = -log10(padj), color = sig)) +
geom_point(size = 1) +  #繪制散點(diǎn)圖
scale_color_manual(values = c('red', 'gray', 'green'), limits = c('up', 'none', 'down')) +  #自定義點(diǎn)的顏色
labs(x = 'log2 Fold Change', y = '-log10 adjust p-value', title = 'control vs treat', color = '') +  #坐標(biāo)軸標(biāo)題
theme(plot.title = element_text(hjust = 0.5, size = 14), panel.grid = element_blank(), #背景色蟹地、網(wǎng)格線积暖、圖例等主題修改
    panel.background = element_rect(color = 'black', fill = 'transparent'), 
    legend.key = element_rect(fill = 'transparent')) +
geom_vline(xintercept = c(-1, 1), lty = 3, color = 'black') +  #添加閾值線
geom_hline(yintercept = 2, lty = 3, color = 'black') +
xlim(-12, 12) + ylim(0, 35)  #定義刻度邊界

p
差異表達(dá)火山圖示例


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市怪与,隨后出現(xiàn)的幾起案子夺刑,更是在濱河造成了極大的恐慌,老刑警劉巖分别,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件遍愿,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡耘斩,警方通過(guò)查閱死者的電腦和手機(jī)沼填,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)煌往,“玉大人倾哺,你說(shuō)我怎么就攤上這事」舨保” “怎么了羞海?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)曲管。 經(jīng)常有香客問(wèn)我却邓,道長(zhǎng),這世上最難降的妖魔是什么院水? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任腊徙,我火速辦了婚禮,結(jié)果婚禮上檬某,老公的妹妹穿的比我還像新娘撬腾。我一直安慰自己,他們只是感情好恢恼,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布民傻。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪漓踢。 梳的紋絲不亂的頭發(fā)上牵署,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音喧半,去河邊找鬼奴迅。 笑死,一個(gè)胖子當(dāng)著我的面吹牛挺据,可吹牛的內(nèi)容都是我干的取具。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼吴菠,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼者填!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起做葵,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤占哟,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后酿矢,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體榨乎,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年瘫筐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蜜暑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡策肝,死狀恐怖肛捍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情之众,我是刑警寧澤拙毫,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站棺禾,受9級(jí)特大地震影響缀蹄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜膘婶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一缺前、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧悬襟,春花似錦衅码、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)筛璧。三九已至,卻和暖如春惹恃,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背棺牧。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工巫糙, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人颊乘。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓参淹,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親乏悄。 傳聞我的和親對(duì)象是個(gè)殘疾皇子浙值,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容