edgeR差異基因分析的一般過程

基于轉(zhuǎn)錄組測(cè)序獲得的定量表達(dá)值但指,識(shí)別差異表達(dá)變化的基因或其它非編碼RNA分子谎柄,實(shí)際上方法還是非常多的。但就目前來看朋鞍,DESeq2和edgeR是出現(xiàn)頻率最高的兩種方法了已添。

DESeq2已經(jīng)在上一篇文章中作了簡(jiǎn)介,本篇繼續(xù)展示R包edgeR的差異基因分析流程滥酥。類似DESeq2更舞,edgeR作為被廣泛使用的R包,文獻(xiàn)中經(jīng)常能看到它的身影坎吻,如下舉例缆蝉。

相關(guān)文獻(xiàn)描述

1 安裝edgeR

edgeR可直接使用Bioconductor安裝,還是非常簡(jiǎn)單的禾怠。

#Bioconductor 安裝 edgeR
#install.packages('BiocManager')  #需要首先安裝 BiocManager返奉,如果尚未安裝請(qǐng)先執(zhí)行該步
BiocManager::install('edgeR')


2 使用edgeR鑒定差異表達(dá)基因

edgeR使用經(jīng)驗(yàn)貝葉斯估計(jì)和基于負(fù)二項(xiàng)模型的精確檢驗(yàn)來確定差異基因,通過在基因之間來調(diào)節(jié)跨基因的過度離散程度吗氏,使用類似于Fisher精確檢驗(yàn)但適應(yīng)過度分散數(shù)據(jù)的精確檢驗(yàn)用于評(píng)估每個(gè)基因的差異表達(dá)。

以下是edgeR分析差異表達(dá)基因的一般過程雷逆。

2.1 準(zhǔn)備數(shù)據(jù)和文件讀取

首先準(zhǔn)備基因表達(dá)值矩陣弦讽。
本文的所有測(cè)試數(shù)據(jù)和R代碼,可在文末獲取

  • “control_treat.count.txt”,是6個(gè)測(cè)序樣本的基因表達(dá)值矩陣往产,包括3個(gè)處理組(treat)和3個(gè)對(duì)照組(control)被碗,需注意將對(duì)照組在前,處理組在后仿村。第1列是基因名稱锐朴,注意不能有重復(fù)值。


    示例文件樣式蔼囊,行是基因焚志,列是樣本,內(nèi)容為基因表達(dá)值

    然后將準(zhǔn)備好的基因表達(dá)值矩陣讀到R中畏鼓,并預(yù)定義樣本分組信息酱酬。

#讀取基因表達(dá)矩陣
targets <- read.delim('control_treat.count.txt', row.names = 1, sep = '\t', check.names = FALSE)

#指定分組,注意要保證表達(dá)矩陣中的樣本順序和這里的分組順序是一一對(duì)應(yīng)的
#對(duì)照組在前云矫,處理組在后
group <- rep(c('control', 'treat'), each = 3)


2.2 表達(dá)值預(yù)處理和標(biāo)準(zhǔn)化

在執(zhí)行差異表達(dá)基因分析前膳沽,將輸入的基因表達(dá)矩陣和分組信息構(gòu)建edgeR的DGEList對(duì)象,便于儲(chǔ)存數(shù)據(jù)和中間運(yùn)算让禀;并對(duì)表達(dá)值標(biāo)準(zhǔn)化挑社,以消除由于樣品制備或建庫測(cè)序過程中帶來的影響。

同時(shí)巡揍,需要手動(dòng)過濾一些低表達(dá)量的基因滔灶。可能會(huì)有同學(xué)疑問吼肥,為什么上一篇DESeq2中無需手動(dòng)過濾呢录平?這是因?yàn)镈ESeq2設(shè)計(jì)之初就將自動(dòng)過濾步驟封裝在函數(shù)中,可以實(shí)現(xiàn)對(duì)低表達(dá)基因的自動(dòng)處理缀皱;而edgeR則沒有斗这,因此需額外操作一下。推薦根據(jù)CPM(count-per-million啤斗,每百萬堿基中目標(biāo)基因的read count值)值進(jìn)行過濾表箭,例如使用CPM值為1作為標(biāo)準(zhǔn),即當(dāng)某個(gè)基因在read count最低的樣本(文庫)中的count值大于(read count最低的樣品count總數(shù)/1000000)钮莲,則保留免钻。

library(edgeR)

#數(shù)據(jù)預(yù)處理
#(1)構(gòu)建 DGEList 對(duì)象
dgelist <- DGEList(counts = targets, group = group)

#(2)過濾 low count 數(shù)據(jù),例如 CPM 標(biāo)準(zhǔn)化(推薦)
keep <- rowSums(cpm(dgelist) > 1 ) >= 2
dgelist <- dgelist[keep, , keep.lib.sizes = FALSE]

#(3)標(biāo)準(zhǔn)化崔拥,以 TMM 標(biāo)準(zhǔn)化為例
dgelist_norm <- calcNormFactors(dgelist, method = 'TMM')


2.3 計(jì)算差異倍數(shù)列表

整體過程分為兩步极舔。

  • 一是估計(jì)離散度。根據(jù)試驗(yàn)設(shè)計(jì)的樣本分組链瓦,通過加權(quán)似然經(jīng)驗(yàn)貝葉斯模型拆魏,估算每個(gè)基因表達(dá)的離散度盯桦,其代表了基因表達(dá)值在個(gè)體間的差異。
  • 二是模型擬合渤刃。edgeR包中提供了多種計(jì)算差異基因的算法模型拥峦,之間略有不同,如下展示了兩種卖子。
#差異表達(dá)基因分析
#首先根據(jù)分組信息構(gòu)建試驗(yàn)設(shè)計(jì)矩陣略号,分組信息中一定要是對(duì)照組在前,處理組在后
design <- model.matrix(~group)

#(1)估算基因表達(dá)值的離散度
dge <- estimateDisp(dgelist_norm, design, robust = TRUE)

#(2)模型擬合洋闽,edgeR 提供了多種擬合算法
#負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型
fit <- glmFit(dge, design, robust = TRUE)
lrt <- topTags(glmLRT(fit), n = nrow(dgelist$counts))

write.table(lrt, 'control_treat.glmLRT.txt', sep = '\t', col.names = NA, quote = FALSE)

#擬似然負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型
fit <- glmQLFit(dge, design, robust = TRUE)
lrt <- topTags(glmQLFTest(fit), n = nrow(dgelist$counts))

write.table(lrt, 'control_treat.glmQLFit.txt', sep = '\t', col.names = NA, quote = FALSE)

最后輸出了各基因的差異表達(dá)倍數(shù)表玄柠。

以負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型的結(jié)果為例,包含了基因id喊递、log2轉(zhuǎn)化后的差異倍數(shù)(Fold Change)值随闪、顯著性p值以及校正后p值(默認(rèn)FDR校正)等主要信息。


差異表達(dá)基因分析結(jié)果

2.4 篩選差異表達(dá)基因

通過輸出的差異表達(dá)倍數(shù)表骚勘,即可自定義閾值篩選差異表達(dá)基因了铐伴。

例如這里以上述輸出的負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型的結(jié)果為例,將它再次讀入到R中俏讹,并根據(jù)|log2FC|≥1以及FDR<0.01定義顯著變化的基因当宴,以及通過“up”和“down”分別區(qū)分上、下調(diào)的基因泽疆。

##篩選差異表達(dá)基因
#讀取上述輸出的差異倍數(shù)計(jì)算結(jié)果
gene_diff <- read.delim('control_treat.glmLRT.txt', row.names = 1, sep = '\t', check.names = FALSE)

#首先對(duì)表格排個(gè)序户矢,按 FDR 值升序排序,相同 FDR 值下繼續(xù)按 log2FC 降序排序
gene_diff <- gene_diff[order(gene_diff$FDR, gene_diff$logFC, decreasing = c(FALSE, TRUE)), ]

#log2FC≥1 & FDR<0.01 標(biāo)識(shí) up殉疼,代表顯著上調(diào)的基因
#log2FC≤-1 & FDR<0.01 標(biāo)識(shí) down梯浪,代表顯著下調(diào)的基因
#其余標(biāo)識(shí) none,代表非差異的基因
gene_diff[which(gene_diff$logFC >= 1 & gene_diff$FDR < 0.01),'sig'] <- 'up'
gene_diff[which(gene_diff$logFC <= -1 & gene_diff$FDR < 0.01),'sig'] <- 'down'
gene_diff[which(abs(gene_diff$logFC) <= 1 | gene_diff$FDR >= 0.01),'sig'] <- 'none'

#輸出選擇的差異基因總表
gene_diff_select <- subset(gene_diff, sig %in% c('up', 'down'))
write.table(gene_diff_select, file = 'control_treat.glmQLFit.select.txt', sep = '\t', col.names = NA, quote = FALSE)

#根據(jù) up 和 down 分開輸出
gene_diff_up <- subset(gene_diff, sig == 'up')
gene_diff_down <- subset(gene_diff, sig == 'down')

write.table(gene_diff_up, file = 'control_treat.glmQLFit.up.txt', sep = '\t', col.names = NA, quote = FALSE)
write.table(gene_diff_down, file = 'control_treat.glmQLFit.down.txt', sep = '\t', col.names = NA, quote = FALSE)

標(biāo)識(shí)顯著上下調(diào)的基因瓢娜,添加在最后一列

新獲得的3個(gè)表格中挂洛,分別包含了根據(jù)自定義閾值篩選的所有差異基因、上調(diào)基因或下調(diào)基因列表眠砾,最后一列標(biāo)注了上下調(diào)概況虏劲。

2.5 差異表達(dá)火山圖示例

已經(jīng)識(shí)別了顯著差異表達(dá)的基因,最后期望通過火山圖將它們表示出來褒颈,火山圖是文獻(xiàn)中常見統(tǒng)計(jì)圖表之一柒巫。

ggplot2為此提供了優(yōu)秀的作圖方案,參考以下示例谷丸。

##ggplot2 差異火山圖
library(ggplot2)

#默認(rèn)情況下堡掏,橫軸展示 log2FoldChange,縱軸展示 -log10 轉(zhuǎn)化后的 FDR
p <- ggplot(data = gene_diff, aes(x = logFC, y = -log10(FDR), color = sig)) +
geom_point(size = 1) +  #繪制散點(diǎn)圖
scale_color_manual(values = c('red', 'gray', 'green'), limits = c('up', 'none', 'down')) +  #自定義點(diǎn)的顏色
labs(x = 'log2 Fold Change', y = '-log10 FDR', title = 'control vs treat', color = '') +  #坐標(biāo)軸標(biāo)題
theme(plot.title = element_text(hjust = 0.5, size = 14), panel.grid = element_blank(), #背景色淤井、網(wǎng)格線布疼、圖例等主題修改
    panel.background = element_rect(color = 'black', fill = 'transparent'), 
    legend.key = element_rect(fill = 'transparent')) +
geom_vline(xintercept = c(-1, 1), lty = 3, color = 'black') +  #添加閾值線
geom_hline(yintercept = 2, lty = 3, color = 'black') +
xlim(-12, 12) + ylim(0, 35)  #定義刻度邊界

p
差異表達(dá)基因火山圖


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末摊趾,一起剝皮案震驚了整個(gè)濱河市币狠,隨后出現(xiàn)的幾起案子游两,更是在濱河造成了極大的恐慌,老刑警劉巖漩绵,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件贱案,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡止吐,警方通過查閱死者的電腦和手機(jī)宝踪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碍扔,“玉大人瘩燥,你說我怎么就攤上這事〔煌” “怎么了厉膀?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長二拐。 經(jīng)常有香客問我服鹅,道長,這世上最難降的妖魔是什么百新? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任企软,我火速辦了婚禮,結(jié)果婚禮上饭望,老公的妹妹穿的比我還像新娘仗哨。我一直安慰自己铣鹏,他們只是感情好脂新,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著板辽,像睡著了一般巷挥。 火紅的嫁衣襯著肌膚如雪桩卵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天倍宾,我揣著相機(jī)與錄音雏节,去河邊找鬼。 笑死高职,一個(gè)胖子當(dāng)著我的面吹牛钩乍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播怔锌,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼寥粹,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼变过!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起涝涤,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤媚狰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后阔拳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崭孤,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年糊肠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辨宠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡货裹,死狀恐怖嗤形,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情弧圆,我是刑警寧澤赋兵,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站墓阀,受9級(jí)特大地震影響毡惜,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜斯撮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一经伙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧勿锅,春花似錦帕膜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至张弛,卻和暖如春荒典,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背吞鸭。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工寺董, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刻剥。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓遮咖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親造虏。 傳聞我的和親對(duì)象是個(gè)殘疾皇子御吞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容