使用limma活孩、Glimma和edgeR對RNA-seq數(shù)據(jù)分析筆記

1 摘要

簡單且高效地分析RNA測序數(shù)據(jù)的能力正是Bioconductor的核心優(yōu)勢之一。在獲得RNA-seq基因表達矩陣后竭缝，通常需要對數(shù)據(jù)進行預處理膜蛔、探索性數(shù)據(jù)分析呜呐、差異表達檢驗以及通路分析颠通，以得到可以幫助進一步實驗和驗證研究的結果顿锰。在本工作流程中谨垃，我們將通過分析來自小鼠乳腺的RNA測序數(shù)據(jù)，演示如何使用流行的edgeR包載入硼控、整理刘陶、過濾和歸一化數(shù)據(jù)，然后用limma包的voom方法牢撼、線性模型和經(jīng)驗貝葉斯調節(jié)來評估差異表達并進行基因集檢驗匙隔。通過Glimma包，本流程進一步實現(xiàn)了結果的互動探索熏版，便于用戶查看特定樣本與基因的分析結果纷责。通過使用這三個Bioconductor包，研究者可以輕松地運行完整的RNA-seq數(shù)據(jù)分析流程撼短，從原始計數(shù)（raw counts）中挖掘出其中蘊含的生物學意義再膳。

2 背景介紹

RNA測序（RNA-seq）是用于研究基因表達的重要技術。其中曲横，在基因組規(guī)模下檢測多條件之間基因的差異表達是研究者最常探究的問題之一喂柒。對于RNA-seq數(shù)據(jù)，來自Bioconductor項目(Huber et al. 2015)的edgeR?(Robinson, McCarthy, and Smyth 2010)和limma包(Ritchie et al. 2015)提供了一套用于處理此問題的完善的統(tǒng)計學方法。

在這篇文章中胳喷，我們描述了一個用于分析RNA-seq數(shù)據(jù)的edgeR?-?limma工作流程，使用基因水平的計數(shù)（gene-level counts）作為輸入夭织，經(jīng)過預處理和探索性數(shù)據(jù)分析吭露，然后得到差異表達（DE）基因和基因表達特征（gene signatures）的列表。Glimma包(Su et al. 2017)提供的交互式圖表可以同時呈現(xiàn)整體樣本層面與單個基因層面的數(shù)據(jù)尊惰，相對靜態(tài)的R圖表而言讲竿，更便于我們探索更多的細節(jié)。

此工作流程中我們分析的數(shù)據(jù)來自Sheridan等人的實驗（2015）(Sheridan et al. 2015)弄屡，它包含三個細胞群题禀，即基底（basal）、管腔祖細胞（luminal progenitor, LP）和成熟管腔（mature luminal, ML）膀捷。細胞群皆分選自雌性處女小鼠的乳腺迈嘹，每種都設三個生物學重復。RNA樣品分三個批次使用Illumina HiSeq 2000進行測序全庸，得到長為100堿基對的單端序列片段秀仲。

本文所述的分析流程假設從RNA-seq實驗獲得的序列片段已經(jīng)與適當?shù)膮⒖蓟蚪M比對，并已經(jīng)在基因水平上對序列進行了統(tǒng)計計數(shù)壶笼。在本文條件下神僵，使用Rsubread包提供的基于R的流程將序列片段與小鼠參考基因組（mm10）比對（具體而言，先使用align函數(shù)(Liao, Smyth, and Shi 2013)進行比對覆劈，然后使用featureCounts?(Liao, Smyth, and Shi 2014)函數(shù)保礼，利用其內置的基于RefSeq的mm10注釋進行基因水平的總結）。

這些樣本的計數(shù)數(shù)據(jù)可以從Gene Expression Omnibus (GEO)數(shù)據(jù)庫http://www.ncbi.nlm.nih.gov/geo/使用GEO序列登記號;. 下載责语。更多關于實驗設計和樣品制備的信息也可以在GEO使用該登記號查看炮障。

3 初始配置

> if (!requireNamespace("BiocManager")) {

+ ????install.packages("BiocManager")

+ }

> BiocManager::install("edgeR")以此類推Mus.musculus等包?

library(limma)

library(Glimma)

library(edgeR)

library(Mus.musculus)

4 數(shù)據(jù)整合

4.1讀入計數(shù)數(shù)據(jù)

為開始此分析，從https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE63310&format=file在線下載文件GSE63310_RAW.tar鹦筹，并從壓縮包中解壓出相關的文件铝阐。下方的代碼將完成此步驟，或者您也可以手動進行這一步并繼續(xù)后續(xù)分析铐拐。

url <-?"https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE63310&format=file"

utils::download.file(url, destfile="GSE63310_RAW.tar", mode="wb")

utils::untar("GSE63310_RAW.tar", exdir =?".")

files <-?c("GSM1545535_10_6_5_11.txt", "GSM1545536_9_6_5_11.txt", "GSM1545538_purep53.txt",

??"GSM1545539_JMS8-2.txt", "GSM1545540_JMS8-3.txt", "GSM1545541_JMS8-4.txt",

??"GSM1545542_JMS8-5.txt", "GSM1545544_JMS9-P7c.txt", "GSM1545545_JMS9-P8c.txt")

for(i in?paste(files, ".gz", sep=""))

??R.utils::gunzip(i, overwrite=TRUE)#gunzip解壓縮

每一個文本文件均包含一個給定樣品的原始基因水平計數(shù)徘键。需要注意的是，我們的分析僅包含了此實驗中的basal遍蟋、LP和ML樣品（請查看下方相關文件名）吹害。

每一個文本文件均為對應樣品的原始基因水平計數(shù)矩陣。需要注意我們的這次分析僅包含了此實驗中的basal虚青、LP和ML樣品（可見下方所示文件名）它呀。

files <- c("GSM1545535_10_6_5_11.txt", "GSM1545536_9_6_5_11.txt",

???"GSM1545538_purep53.txt", "GSM1545539_JMS8-2.txt",

???"GSM1545540_JMS8-3.txt", "GSM1545541_JMS8-4.txt",

???"GSM1545542_JMS8-5.txt", "GSM1545544_JMS9-P7c.txt",

???"GSM1545545_JMS9-P8c.txt")

read.delim(files[1], nrow=5)

## ???EntrezID GeneLength Count

## 1 ???497097 ??????3634 ????1

## 2 100503874 ??????3259 ????0

## 3 100038431 ??????1634 ????0

## 4 ????19888 ??????9747 ????0

## 5 ????20671 ??????3130 ????1

相比于分別讀入這九個文本文件然后合并為一個計數(shù)矩陣，edgeR提供了更方便的途徑，使用readDGE函數(shù)即可一步完成纵穿。得到的DGEList對象中包含一個計數(shù)矩陣下隧，它的27179行分別對應每個基因不重復的Entrez基因ID，九列分別對應此實驗中的每個樣品谓媒。

x <- readDGE(files, columns=c(1,3))

class(x)

## [1] "DGEList"

## attr(,"package")

## [1] "edgeR"

dim(x)

dim()檢索或設置對象的尺寸淆院。

## [1] 27179 ????9

如果數(shù)據(jù)不是每個樣品一個文件的形式，而是一個包含所有樣品的計數(shù)的文件句惯，則可以先將文件讀入R土辩，再使用DGEList函數(shù)轉換為一個DGEList對象。

4.2組織樣品信息

為進行下游分析抢野，需要將有關實驗設計的樣品信息與計數(shù)矩陣的列關聯(lián)起來拷淘。這里需要包括各種對表達水平有影響的實驗變量，無論是生物變量還是技術變量指孤。例如启涯，細胞類型（在這個實驗中是basal、LP和ML）恃轩、基因型（野生型逝嚎、敲除）、表型（疾病狀態(tài)详恼、性別补君、年齡）、樣品處理（用藥昧互、對照）和批次信息（如果樣品是在不同時間點進行收集和分析的挽铁，需要記錄進行實驗的時間）等。

我們的DGEList對象中包含的samples數(shù)據(jù)框同時存儲了細胞類型（group）和批次（測序泳道lane）信息敞掘，每種信息都包含三個不同的水平叽掘。在x$samples中，程序會自動計算每個樣品的文庫大芯裂恪（即樣品的總序列計數(shù)）更扁，歸一化系數(shù)會被預先設置為1。為了方便閱讀赫冬，我們從DGEList對象x的列名中刪去了GEO樣品ID（GSM*）浓镜。

samplenames <- substring(colnames(x), 12, nchar(colnames(x)))

samplenames

## [1] "10_6_5_11" "9_6_5_11" ?"purep53" ??"JMS8-2" ???"JMS8-3" ???"JMS8-4" ???"JMS8-5" ??

## [8] "JMS9-P7c" ?"JMS9-P8c"

colnames(x) <- samplenames

group <- as.factor(c("LP", "ML", "Basal", "Basal", "ML", "LP",

?????????????????????"Basal", "ML", "LP"))

x$samples$group <- group

lane <- as.factor(rep(c("L004","L006","L008"), c(3,4,2)))

x$samples$lane <- lane

x$samples

## ?????????????????????????????files group lib.size norm.factors lane

## 10_6_5_11 GSM1545535_10_6_5_11.txt ???LP 32863052 ???????????1 L004

## 9_6_5_11 ??GSM1545536_9_6_5_11.txt ???ML 35335491 ???????????1 L004

## purep53 ????GSM1545538_purep53.txt Basal 57160817 ???????????1 L004

## JMS8-2 ??????GSM1545539_JMS8-2.txt Basal 51368625 ???????????1 L006

## JMS8-3 ??????GSM1545540_JMS8-3.txt ???ML 75795034 ???????????1 L006

## JMS8-4 ??????GSM1545541_JMS8-4.txt ???LP 60517657 ???????????1 L006

## JMS8-5 ??????GSM1545542_JMS8-5.txt Basal 55086324 ???????????1 L006

## JMS9-P7c ??GSM1545544_JMS9-P7c.txt ???ML 21311068 ???????????1 L008

## JMS9-P8c ??GSM1545545_JMS9-P8c.txt ???LP 19958838 ???????????1 L008

4.3組織基因注釋

我們的DGEList對象中的第二個數(shù)據(jù)框名為genes，用于存儲與計數(shù)矩陣的行相關聯(lián)的基因信息劲厌。為檢索這些信息膛薛，我們可以使用特定物種的注釋包，比如小鼠的Mus.musculus?(Bioconductor Core Team 2016b)（或人類的Homo.sapiens?(Bioconductor Core Team 2016a)）补鼻；或者也可以使用biomaRt?包?(Durinck et al. 2005, 2009)哄啄，它通過接入Ensembl genome數(shù)據(jù)庫來進行基因注釋雅任。

可以檢索的信息類型包括基因符號（gene symbols）、基因名稱（gene names）咨跌、染色體名稱和位置沪么、Entrez基因ID、Refseq基因ID和Ensembl基因ID等锌半。biomaRt主要通過Ensembl基因ID進行檢索成玫，而Mus.musculus包含來自不同來源的信息，允許用戶從不同基因ID中選擇某一種作為檢索鍵拳喻。

我們使用Mus.musculus包，利用我們數(shù)據(jù)集中的Entrez基因ID來檢索相關的基因符號和染色體信息猪腕。

geneid <- rownames(x)

genes <- select(Mus.musculus, keys=geneid, columns=c("SYMBOL", "TXCHROM"),

????????????????keytype="ENTREZID")

head(genes)

## ???ENTREZID ?SYMBOL TXCHROM

## 1 ???497097 ???Xkr4 ???chr1

## 2 100503874 Gm19938 ???<NA>

## 3 100038431 Gm10568 ???<NA>

## 4 ????19888 ????Rp1 ???chr1

## 5 ????20671 ??Sox17 ???chr1

## 6 ????27395 ?Mrpl15 ???chr1

與任何基因ID一樣冗澈，Entrez基因ID可能不能一對一地匹配我們想獲得的基因信息。在處理之前陋葡，檢查重復的基因ID和弄清楚重復的來源非常重要亚亲。我們的基因注釋中包含28個能匹配到多個不同染色體的基因（比如基因Gm1987關聯(lián)于染色體chr4和chr4_JH584294_random，小RNA Mir5098關聯(lián)于chr2腐缤，chr5捌归，chr8，chr11和chr17）岭粤。為了處理重復的基因ID惜索，我們可以合并來自多重匹配基因的所有染色體信息，比如將基因Gm1987分配到chr4 and chr4_JH584294_random剃浇，或選取其中一條染色體來代表具有重復注釋的基因巾兆。為了簡單起見，我們選擇后者虎囚，保留每個基因ID第一次出現(xiàn)的信息角塑。

genes <- genes[!duplicated(genes$ENTREZID),]去除重復注釋的基因

在此例子中，注釋與數(shù)據(jù)對象中的基因順序是相同的淘讥。如果由于缺失和／或重新排列基因ID導致其順序不一致圃伶，我們可以用match函數(shù)來正確排序基因。然后蒲列，我們將基因注釋的數(shù)據(jù)框添加到DGEList對象窒朋，數(shù)據(jù)的整合就完成了，此時的數(shù)據(jù)對象中含有原始計數(shù)數(shù)據(jù)以及相關的樣品信息和基因注釋蝗岖。

x$genes <- genes

## An object of class "DGEList"

## $samples