GEO2R的limma差異分析流程【芯片microarray數(shù)據(jù)】附limma+RNAseq

參考學習GEO提供的GEO2R在線差異分析工具使用的代碼流程汉嗽。筆記里的代碼在理解每一步的基礎上谁榜，部分做了修改叉寂。但大致思路不變震糖，即使用limma包對芯片測序數(shù)據(jù)進行差異分析(暫未涉及可視化的代碼)女揭。

示例數(shù)據(jù)

GSE：GSE43760
Selected group design：
（1）Disease："GSM1070439","GSM1070441", "GSM1070443", "GSM1070445", "GSM1070447", "GSM1070449"
（2）Normal："GSM1070451", "GSM1070453", "GSM1070455", "GSM1070457", "GSM1070459", "GSM1070461"

分析流程Pipeline

Step 1 ：下載表達矩陣等

library(GEOquery)
GSE=paste0("GSE","43760")
gset=getGEO(GSE, getGPL = F)
class(gset)
#"list"
length(gset)
#1

如上有兩個注意點
（1）設置不下載GPL注釋信息蚤假，因為此前以專門整理了該GPL平臺的基因注釋信息，節(jié)省時間吧兔。詳見之前得到筆記http://www.reibang.com/p/d89a25d43549磷仰；
（2）初步下載的GSE對象格式之所以是list，是因為同一個GSE的samples可能分別在不同平臺（gpl）測序結(jié)果境蔼，對應list里的不同元素組成灶平。一般來說都是一個GSE對應一個GPL，但遇到多平臺情況箍土，需要注意自己選擇的樣本測序結(jié)果是什么平臺逢享，再進行選擇。

gset_sub=gset[[1]]
gset_sub
# ExpressionSet (storageMode: lockedEnvironment)
# assayData: 32968 features, 24 samples
# element names: exprs
# protocolData: none
# phenoData
# sampleNames: GSM1070439 GSM1070440 ... GSM1070462 (24 total)
# varLabels: title geo_accession ... treatment:ch1 (41 total)
# varMetadata: labelDescription
# featureData: none
# experimentData: use 'experimentData(object)'
# pubMedIds: 23771909
# Annotation: GPL6244

# Get GPL ID
gpl=unique(gset_sub@phenoData@data[,"platform_id"])
[1] "GPL6244"

#Get expression matrix
expr=gset_sub@assayData$exprs
#[1] 32968    24

#Get sample meta(optional)
meta=gset_sub@phenoData@data[,grep(":ch1",colnames(gset_sub@phenoData@data))]
#[1] "disease state:ch1" "gender:ch1"        "individual:ch1"
#[4] "time:ch1"          "tissue:ch1"        "treatment:ch1"

Step 2：表達矩陣與分組設計

首先需要核對下吴藻，表達數(shù)據(jù)是否已經(jīng)經(jīng)過log轉(zhuǎn)換瞒爬；如果沒有則log轉(zhuǎn)換下。GEO2R通過下述代碼實現(xiàn)自動檢測沟堡。

qx <- as.numeric(quantile(expr, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
  (qx[6]-qx[1] > 50 && qx[2] > 0)
if (LogC) { expr[which(expr <= 0)] <- NaN
    expr <- log2(expr) }

然后根據(jù)選擇的分組取表達矩陣的子集

GSM_case=c("GSM1070439","GSM1070441", "GSM1070443", "GSM1070445", "GSM1070447", "GSM1070449")
GSM_normal=c("GSM1070451", "GSM1070453", "GSM1070455", "GSM1070457", "GSM1070459", "GSM1070461")

index_case=which(colnames(expr) %in% GSM_case)
index_control=which(colnames(expr) %in% GSM_normal)

expr_sle=expr[,c(index_case,index_control)]

分組設計

groups=factor(c(rep(1,length(index_case)),rep(0,length(index_control))),
                levels=c(0,1),labels = c("normal","disease"))

Step 3：limma包差異分析

library(limma)
#首先設置分組矩陣侧但，指明所有sample的分組情況
design=model.matrix(~0+groups) 
colnames(design) <- levels(groups)
#      disease normal
# 1        0      1
# 2        0      1
# 3        0      1
# 4        0      1
# 5        0      1
# 6        0      1
# 7        1      0
# 8        1      0
# 9        1      0
# 10       1      0
# 11       1      0
# 12       1      0

#然后根據(jù)分組進行線性擬合
fit <- lmFit(expr_sle, design)

#需要進一步指明差異分析的比較為 disease組 VS normal組
cts <- paste("disease", "normal", sep="-") #注意順序：前者比上后者
cont.matrix <- makeContrasts(contrasts=cts, levels=design) #比較矩陣，指明哪兩組進行比較
fit2 <- contrasts.fit(fit, cont.matrix)

#最后得到差異分析結(jié)果
fit2 <- eBayes(fit2, 0.01)
tT <- topTable(fit2, adjust="fdr", sort.by="p",number=Inf)
head(tT)
#           logFC  AveExpr         t      P.Value    adj.P.Val        B
# 8107769 -0.8016667 9.627500 -6.764851 1.062535e-05 0.1905344 2.556737
# 7892531 -0.6966667 7.201667 -6.207964 2.611828e-05 0.1905344 1.959251
# 7894928 -0.7716667 6.700833 -6.123500 3.004739e-05 0.1905344 1.863787
# 7893992 -0.9983333 7.504167 -6.065703 3.309032e-05 0.1905344 1.797715
# 8012349 -1.3166667 8.798333 -5.915814 4.258809e-05 0.1905344 1.623514
# 8059996 -0.9233333 7.895000 -5.890448 4.445985e-05 0.1905344 1.593624

deg <- data.frame(Probe=rownames(tT),P.Value=tT[,"P.Value"],
                  logFC=tT[,"logFC"],FDR=tT[,"adj.P.Val"])

Step 4：結(jié)合GPL平臺信息注釋symbo基因名

gpl_anno=read.csv(paste0("/your path/to/GPL_array/",gpl,".csv"))
gpl_anno[,1]=as.character(gpl_anno[,1])
deg=dplyr::left_join(deg,gpl_anno[,-3],by=c("Probe"="ID"))
deg=na.omit(deg)
rownames(deg)=1:nrow(deg)
#    Probe      logFC    P.Value       FDR     Symbol
# 1 8107769 -0.8016667 -0.8016667 0.1905344    SLC12A2
# 2 8012349 -1.3166667 -1.3166667 0.1905344       PER1
# 3 8059996 -0.9233333 -0.9233333 0.1905344       PER2
# 4 7899018 -0.4683333 -0.4683333 0.1905344     TMEM57
# 5 7937696  0.7750000  0.7750000 0.2157829 KRTAP5-AS1
# 6 7897449 -0.4866667 -0.4866667 0.2164292      SPSB1

以上是針對GEO2R里結(jié)合limma對芯片數(shù)據(jù)分析的方法航罗；
如果是RNAseq的counts數(shù)據(jù)俊犯，則需要結(jié)合edgeR包的voom()函數(shù)，總體思路不變（不需要考慮GPL的基因名注釋問題了）伤哺，相關(guān)代碼如下燕侠。
示例數(shù)據(jù)：GSE75852

#加載包
library(limma)
library(edgeR)
library(GEOquery)
library(data.table)
#下載數(shù)據(jù)
count_link="https://ftp.ncbi.nlm.nih.gov/geo/series/GSE75nnn/GSE75852/suppl/GSE75852_gene_count_frags.txt.gz"
# https://ftp.ncbi.nlm.nih.gov/geo/series/GSE112nnn/GSE112348/suppl/
counts=as.data.frame(fread(count_link))
colnames(counts)
counts[1:4,1:4]
#group分組
gset=getGEO("GSE75852",getGPL = F)
gsms=gset[[1]]@phenoData@data[,grep(":ch1",colnames(gset[[1]]@phenoData@data))]
index_case=which(gsms[,1]=="induced pluripotent stem cell" &
                            gsms[,2]=="Ataxia Telangiectasia")
index_control=which(gsms[,1]=="induced pluripotent stem cell" &
                            gsms[,2]=="Normal")

counts_sub=data.frame(counts[,c(index_case+1,index_control+1)],row.names=counts[,1])
groups=factor(c(rep(1,length(index_case)),rep(0,length(index_control))),
              levels=c(0,1),labels = c("normal","disease"))
design=model.matrix(~0+groups) 
colnames(design) <- levels(groups)
#limma+voom差異分析
v <- voom(counts_sub,design,normalize="quantile")
fit <- lmFit(v,design)
cts <- paste("disease", "normal", sep="-") 
cont.matrix <- makeContrasts(contrasts=cts, levels=design)
fit2 <- contrasts.fit(fit, cont.matrix)
fit2 <- eBayes(fit2, 0.01)
tT <- topTable(fit2, adjust="fdr", sort.by="p",number=Inf)
deg <- data.frame(Probe=rownames(tT),P.Value=tT[,"P.Value"],
                  logFC=tT[,"logFC"],FDR=tT[,"adj.P.Val"],AveExpr=tT[,"AveExpr"])
head(deg)

最后編輯于：2021.11.01 23:37:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市立莉，隨后出現(xiàn)的幾起案子绢彤，更是在濱河造成了極大的恐慌，老刑警劉巖蜓耻，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件茫舶，死亡現(xiàn)場離奇詭異，居然都是意外死亡刹淌，警方通過查閱死者的電腦和手機饶氏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來有勾，“玉大人疹启，你說我怎么就攤上這事“ǎ” “怎么了喊崖？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我荤懂，道長茁裙，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任节仿，我火速辦了婚禮晤锥，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘廊宪。我一直安慰自己矾瘾，他們只是感情好，可當我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布挤忙。她就那樣靜靜地躺著霜威，像睡著了一般。火紅的嫁衣襯著肌膚如雪册烈。梳的紋絲不亂的頭發(fā)上戈泼，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天，我揣著相機與錄音赏僧，去河邊找鬼大猛。笑死，一個胖子當著我的面吹牛淀零，可吹牛的內(nèi)容都是我干的挽绩。我是一名探鬼主播，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼驾中，長吁一口氣：“原來是場噩夢啊……” “哼唉堪！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起肩民，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤唠亚，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后持痰，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體灶搜，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年工窍，在試婚紗的時候發(fā)現(xiàn)自己被綠了割卖。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡患雏，死狀恐怖鹏溯，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情纵苛，我是刑警寧澤剿涮，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布言津，位于F島的核電站攻人，受9級特大地震影響取试，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜怀吻，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一瞬浓、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧蓬坡，春花似錦猿棉、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案萨赁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至兆龙，卻和暖如春杖爽，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背紫皇。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工慰安，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人聪铺。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓化焕，卻偏偏與公主長得像，于是被迫代替她去往敵國和親铃剔。傳聞我的和親對象是個殘疾皇子撒桨，可洞房花燭夜當晚...
茶點故事閱讀 44,577評論 2贊 353

GEO2R的limma差異分析流程【芯片microarray數(shù)據(jù)】附limma+RNAseq

示例數(shù)據(jù)

分析流程Pipeline

Step 1 ：下載表達矩陣等

Step 2：表達矩陣與分組設計

Step 3：limma包差異分析

Step 4：結(jié)合GPL平臺信息注釋symbo基因名

推薦閱讀更多精彩內(nèi)容