edgeR差異基因分析的一般過程

基于轉(zhuǎn)錄組測(cè)序獲得的定量表達(dá)值但指，識(shí)別差異表達(dá)變化的基因或其它非編碼RNA分子谎柄，實(shí)際上方法還是非常多的。但就目前來看朋鞍，DESeq2和edgeR是出現(xiàn)頻率最高的兩種方法了已添。

DESeq2已經(jīng)在上一篇文章中作了簡(jiǎn)介，本篇繼續(xù)展示R包edgeR的差異基因分析流程滥酥。類似DESeq2更舞，edgeR作為被廣泛使用的R包，文獻(xiàn)中經(jīng)常能看到它的身影坎吻，如下舉例缆蝉。

相關(guān)文獻(xiàn)描述

1 安裝edgeR

edgeR可直接使用Bioconductor安裝，還是非常簡(jiǎn)單的禾怠。

#Bioconductor 安裝 edgeR
#install.packages('BiocManager')  #需要首先安裝 BiocManager返奉，如果尚未安裝請(qǐng)先執(zhí)行該步
BiocManager::install('edgeR')

2 使用edgeR鑒定差異表達(dá)基因

edgeR使用經(jīng)驗(yàn)貝葉斯估計(jì)和基于負(fù)二項(xiàng)模型的精確檢驗(yàn)來確定差異基因，通過在基因之間來調(diào)節(jié)跨基因的過度離散程度吗氏，使用類似于Fisher精確檢驗(yàn)但適應(yīng)過度分散數(shù)據(jù)的精確檢驗(yàn)用于評(píng)估每個(gè)基因的差異表達(dá)。

以下是edgeR分析差異表達(dá)基因的一般過程雷逆。

2.1 準(zhǔn)備數(shù)據(jù)和文件讀取

首先準(zhǔn)備基因表達(dá)值矩陣弦讽。
本文的所有測(cè)試數(shù)據(jù)和R代碼，可在文末獲取

“control_treat.count.txt”，是6個(gè)測(cè)序樣本的基因表達(dá)值矩陣往产，包括3個(gè)處理組（treat）和3個(gè)對(duì)照組（control）被碗，需注意將對(duì)照組在前，處理組在后仿村。第1列是基因名稱锐朴，注意不能有重復(fù)值。

示例文件樣式蔼囊，行是基因焚志，列是樣本，內(nèi)容為基因表達(dá)值

然后將準(zhǔn)備好的基因表達(dá)值矩陣讀到R中畏鼓，并預(yù)定義樣本分組信息酱酬。

#讀取基因表達(dá)矩陣
targets <- read.delim('control_treat.count.txt', row.names = 1, sep = '\t', check.names = FALSE)

#指定分組，注意要保證表達(dá)矩陣中的樣本順序和這里的分組順序是一一對(duì)應(yīng)的
#對(duì)照組在前云矫，處理組在后
group <- rep(c('control', 'treat'), each = 3)

2.2 表達(dá)值預(yù)處理和標(biāo)準(zhǔn)化

在執(zhí)行差異表達(dá)基因分析前膳沽，將輸入的基因表達(dá)矩陣和分組信息構(gòu)建edgeR的DGEList對(duì)象，便于儲(chǔ)存數(shù)據(jù)和中間運(yùn)算让禀；并對(duì)表達(dá)值標(biāo)準(zhǔn)化挑社，以消除由于樣品制備或建庫測(cè)序過程中帶來的影響。

同時(shí)巡揍，需要手動(dòng)過濾一些低表達(dá)量的基因滔灶。可能會(huì)有同學(xué)疑問吼肥，為什么上一篇DESeq2中無需手動(dòng)過濾呢录平？這是因?yàn)镈ESeq2設(shè)計(jì)之初就將自動(dòng)過濾步驟封裝在函數(shù)中，可以實(shí)現(xiàn)對(duì)低表達(dá)基因的自動(dòng)處理缀皱；而edgeR則沒有斗这，因此需額外操作一下。推薦根據(jù)CPM（count-per-million啤斗，每百萬堿基中目標(biāo)基因的read count值）值進(jìn)行過濾表箭，例如使用CPM值為1作為標(biāo)準(zhǔn)，即當(dāng)某個(gè)基因在read count最低的樣本（文庫）中的count值大于(read count最低的樣品count總數(shù)/1000000)钮莲，則保留免钻。

library(edgeR)

#數(shù)據(jù)預(yù)處理
#（1）構(gòu)建 DGEList 對(duì)象
dgelist <- DGEList(counts = targets, group = group)

#（2）過濾 low count 數(shù)據(jù)，例如 CPM 標(biāo)準(zhǔn)化（推薦）
keep <- rowSums(cpm(dgelist) > 1 ) >= 2
dgelist <- dgelist[keep, , keep.lib.sizes = FALSE]

#（3）標(biāo)準(zhǔn)化崔拥，以 TMM 標(biāo)準(zhǔn)化為例
dgelist_norm <- calcNormFactors(dgelist, method = 'TMM')

2.3 計(jì)算差異倍數(shù)列表

整體過程分為兩步极舔。

一是估計(jì)離散度。根據(jù)試驗(yàn)設(shè)計(jì)的樣本分組链瓦，通過加權(quán)似然經(jīng)驗(yàn)貝葉斯模型拆魏，估算每個(gè)基因表達(dá)的離散度盯桦，其代表了基因表達(dá)值在個(gè)體間的差異。
二是模型擬合渤刃。edgeR包中提供了多種計(jì)算差異基因的算法模型拥峦，之間略有不同，如下展示了兩種卖子。

#差異表達(dá)基因分析
#首先根據(jù)分組信息構(gòu)建試驗(yàn)設(shè)計(jì)矩陣略号，分組信息中一定要是對(duì)照組在前，處理組在后
design <- model.matrix(~group)

#（1）估算基因表達(dá)值的離散度
dge <- estimateDisp(dgelist_norm, design, robust = TRUE)

#（2）模型擬合洋闽，edgeR 提供了多種擬合算法
#負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型
fit <- glmFit(dge, design, robust = TRUE)
lrt <- topTags(glmLRT(fit), n = nrow(dgelist$counts))

write.table(lrt, 'control_treat.glmLRT.txt', sep = '\t', col.names = NA, quote = FALSE)

#擬似然負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型
fit <- glmQLFit(dge, design, robust = TRUE)
lrt <- topTags(glmQLFTest(fit), n = nrow(dgelist$counts))

write.table(lrt, 'control_treat.glmQLFit.txt', sep = '\t', col.names = NA, quote = FALSE)

最后輸出了各基因的差異表達(dá)倍數(shù)表玄柠。

以負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型的結(jié)果為例，包含了基因id喊递、log2轉(zhuǎn)化后的差異倍數(shù)（Fold Change）值随闪、顯著性p值以及校正后p值（默認(rèn)FDR校正）等主要信息。

差異表達(dá)基因分析結(jié)果

2.4 篩選差異表達(dá)基因

通過輸出的差異表達(dá)倍數(shù)表骚勘，即可自定義閾值篩選差異表達(dá)基因了铐伴。

例如這里以上述輸出的負(fù)二項(xiàng)廣義對(duì)數(shù)線性模型的結(jié)果為例，將它再次讀入到R中俏讹，并根據(jù)|log2FC|≥1以及FDR<0.01定義顯著變化的基因当宴，以及通過“up”和“down”分別區(qū)分上、下調(diào)的基因泽疆。

##篩選差異表達(dá)基因
#讀取上述輸出的差異倍數(shù)計(jì)算結(jié)果
gene_diff <- read.delim('control_treat.glmLRT.txt', row.names = 1, sep = '\t', check.names = FALSE)

#首先對(duì)表格排個(gè)序户矢，按 FDR 值升序排序，相同 FDR 值下繼續(xù)按 log2FC 降序排序
gene_diff <- gene_diff[order(gene_diff$FDR, gene_diff$logFC, decreasing = c(FALSE, TRUE)), ]

#log2FC≥1 & FDR<0.01 標(biāo)識(shí) up殉疼，代表顯著上調(diào)的基因
#log2FC≤-1 & FDR<0.01 標(biāo)識(shí) down梯浪，代表顯著下調(diào)的基因
#其余標(biāo)識(shí) none，代表非差異的基因
gene_diff[which(gene_diff$logFC >= 1 & gene_diff$FDR < 0.01),'sig'] <- 'up'
gene_diff[which(gene_diff$logFC <= -1 & gene_diff$FDR < 0.01),'sig'] <- 'down'
gene_diff[which(abs(gene_diff$logFC) <= 1 | gene_diff$FDR >= 0.01),'sig'] <- 'none'

#輸出選擇的差異基因總表
gene_diff_select <- subset(gene_diff, sig %in% c('up', 'down'))
write.table(gene_diff_select, file = 'control_treat.glmQLFit.select.txt', sep = '\t', col.names = NA, quote = FALSE)

#根據(jù) up 和 down 分開輸出
gene_diff_up <- subset(gene_diff, sig == 'up')
gene_diff_down <- subset(gene_diff, sig == 'down')

write.table(gene_diff_up, file = 'control_treat.glmQLFit.up.txt', sep = '\t', col.names = NA, quote = FALSE)
write.table(gene_diff_down, file = 'control_treat.glmQLFit.down.txt', sep = '\t', col.names = NA, quote = FALSE)

標(biāo)識(shí)顯著上下調(diào)的基因瓢娜，添加在最后一列

新獲得的3個(gè)表格中挂洛，分別包含了根據(jù)自定義閾值篩選的所有差異基因、上調(diào)基因或下調(diào)基因列表眠砾，最后一列標(biāo)注了上下調(diào)概況虏劲。

2.5 差異表達(dá)火山圖示例

已經(jīng)識(shí)別了顯著差異表達(dá)的基因，最后期望通過火山圖將它們表示出來褒颈，火山圖是文獻(xiàn)中常見統(tǒng)計(jì)圖表之一柒巫。

ggplot2為此提供了優(yōu)秀的作圖方案，參考以下示例谷丸。

##ggplot2 差異火山圖
library(ggplot2)

#默認(rèn)情況下堡掏，橫軸展示 log2FoldChange，縱軸展示 -log10 轉(zhuǎn)化后的 FDR
p <- ggplot(data = gene_diff, aes(x = logFC, y = -log10(FDR), color = sig)) +
geom_point(size = 1) +  #繪制散點(diǎn)圖
scale_color_manual(values = c('red', 'gray', 'green'), limits = c('up', 'none', 'down')) +  #自定義點(diǎn)的顏色
labs(x = 'log2 Fold Change', y = '-log10 FDR', title = 'control vs treat', color = '') +  #坐標(biāo)軸標(biāo)題
theme(plot.title = element_text(hjust = 0.5, size = 14), panel.grid = element_blank(), #背景色淤井、網(wǎng)格線布疼、圖例等主題修改
    panel.background = element_rect(color = 'black', fill = 'transparent'), 
    legend.key = element_rect(fill = 'transparent')) +
geom_vline(xintercept = c(-1, 1), lty = 3, color = 'black') +  #添加閾值線
geom_hline(yintercept = 2, lty = 3, color = 'black') +
xlim(-12, 12) + ylim(0, 35)  #定義刻度邊界

p

差異表達(dá)基因火山圖

最后編輯于：2021.01.04 19:00:59

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末摊趾，一起剝皮案震驚了整個(gè)濱河市币狠，隨后出現(xiàn)的幾起案子游两，更是在濱河造成了極大的恐慌，老刑警劉巖漩绵，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件贱案，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡止吐，警方通過查閱死者的電腦和手機(jī)宝踪，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來碍扔，“玉大人瘩燥，你說我怎么就攤上這事〔煌” “怎么了厉膀？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長二拐。經(jīng)常有香客問我服鹅，道長，這世上最難降的妖魔是什么百新？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任企软，我火速辦了婚禮，結(jié)果婚禮上饭望，老公的妹妹穿的比我還像新娘仗哨。我一直安慰自己铣鹏，他們只是感情好脂新，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著板辽，像睡著了一般巷挥。火紅的嫁衣襯著肌膚如雪桩卵。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說
那天倍宾，我揣著相機(jī)與錄音雏节，去河邊找鬼。笑死高职，一個(gè)胖子當(dāng)著我的面吹牛钩乍，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播怔锌，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼寥粹，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼变过！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起涝涤，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤媚狰，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后阔拳，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崭孤，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年糊肠，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辨宠。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡货裹，死狀恐怖嗤形，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情弧圆，我是刑警寧澤赋兵，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站墓阀，受9級(jí)特大地震影響毡惜，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜斯撮，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一经伙、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧勿锅，春花似錦帕膜、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案垮刹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至张弛，卻和暖如春荒典，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背吞鸭。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工寺董，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人刻剥。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓遮咖，卻偏偏與公主長得像，于是被迫代替她去往敵國和親造虏。傳聞我的和親對(duì)象是個(gè)殘疾皇子御吞，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345