GEO數(shù)據(jù)分析之GSEA

GSEA-analysis

1.加載數(shù)據(jù)

載入前一步分析得到的表達(dá)矩陣

library(ggstatsplot);
library(cowplot);
library(clusterProfiler);
library(stringr);
library(dplyr);
library(tidyr);
library(ggplot2);
library(ggstatsplot);
load(file = 'GSE63067_GSEA.Rdata')#導(dǎo)入上一步分析的數(shù)據(jù)
exprSet <- data_plot
exprSet[1:3,1:3]

##                PAX8   CYP2A6   SCARB1
## GSM1539877 6.506860 11.94711 9.129116
## GSM1539878 6.313513 11.82544 9.402811
## GSM1539879 6.273058 11.42314 8.120977

2.批量相關(guān)性分析

將第一行目的基因跟其他行的編碼基因批量做相關(guān)性分析粉臊，得到相關(guān)性系數(shù)以及p值俺榆。

y <- as.numeric(exprSet[,"CCL20"])

colnames <- colnames(exprSet)

cor_data_df <- data.frame(colnames)

for (i in 1:length(colnames)){

  test <- cor.test(as.numeric(exprSet[,i]),y,type="spearman")

  cor_data_df[i,2] <- test$estimate

  cor_data_df[i,3] <- test$p.value

}

names(cor_data_df) <- c("symbol","correlation","pvalue")

# 查看這個(gè)數(shù)據(jù)結(jié)構(gòu)

head(cor_data_df)

##   symbol correlation      pvalue
## 1   PAX8 -0.23354999 0.350963277
## 2 CYP2A6 -0.60172099 0.008244347
## 3 SCARB1 -0.19907443 0.428394688
## 4 TTLL12 -0.57277340 0.012974684
## 5  CYTOR  0.35144428 0.152686677
## 6 ADAM32 -0.01286106 0.959604984

3.篩選最相關(guān)的基因

篩選p值小于0.05，按照相關(guān)性系數(shù)絕對(duì)值選前500個(gè)的基因辟宗，數(shù)量可以自己定尊搬。

cor_data_sig <- cor_data_df %>% 

  filter(pvalue < 0.05) %>% 

  arrange(desc(abs(correlation)))%>% 

  dplyr::slice(1:500)

4.隨機(jī)選取正的和負(fù)的分別作圖驗(yàn)證

正相關(guān)的選取IL2RG湾蔓；負(fù)相關(guān)選取MARK1

#正相關(guān)的選取IL2RG

ggscatterstats(data = exprSet, 

               y = CCL20, 

               x = IL2RG,

               centrality.para = "mean",                              

               margins = "both",                                         

               xfill = "#CC79A7", 

               yfill = "#009E73", 

               marginal.type = "histogram",

               title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

#負(fù)相關(guān)的選取MARK1

ggscatterstats(data = exprSet, 

               y = CCL20, 

               x = MARK1,

               centrality.para = "mean",                              

               margins = "both",                                         

               xfill = "#CC79A7", 

               yfill = "#009E73", 

               marginal.type = "histogram",

               title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

image.png

#還可以用cowplot拼圖

p1 <- ggscatterstats(data = exprSet, 

                     y = CCL20, 

                     x = IL2RG,

                     centrality.para = "mean",                              

                     margins = "both",                                         

                     xfill = "#CC79A7", 

                     yfill = "#009E73", 

                     marginal.type = "histogram",

                     title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

p2 <- ggscatterstats(data = exprSet, 

                     y = CCL20, 

                     x = MARK1,

                     centrality.para = "mean",                              

                     margins = "both",                                         

                     xfill = "#CC79A7", 

                     yfill = "#009E73", 

                     marginal.type = "histogram",

                     title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

plot_grid(p1,p2,nrow = 1,labels = LETTERS[1:2])

image.png

5.聚類分析

既然確定了相關(guān)性是正確的椒丧，那么用篩選的基因進(jìn)行富集分析就可以反推這個(gè)基因的功能壹甥。

#獲得基因列表

gene <- str_trim(cor_data_sig$symbol,'both')

#基因名稱轉(zhuǎn)換，返回的是數(shù)據(jù)框

gene = bitr(gene, fromType="SYMBOL", toType="ENTREZID", OrgDb="org.Hs.eg.db")

go <- enrichGO(gene = gene$ENTREZID, OrgDb = "org.Hs.eg.db", ont="all")

# 這里因?yàn)槭怯?jì)算的所有GO分析的三個(gè)分類壶熏，所以可以合并作圖

# 這是條形圖

barplot(go, split="ONTOLOGY")+ 
  facet_grid(ONTOLOGY~., scale="free")

image.png

# 這是氣泡圖

dotplot(go, split="ONTOLOGY")+ 
  facet_grid(ONTOLOGY~., scale="free")

image.png

# 
# 這時(shí)候句柠，我們能推斷CCL20這個(gè)基因主要參與免疫調(diào)控和T細(xì)胞激活，細(xì)胞因子受體活性調(diào)劑等功能棒假，大致跟她本身的功能是一致的溯职。

參考

生信技能樹GEO數(shù)據(jù)挖掘相關(guān)的課程
解讀GEO數(shù)據(jù)存放規(guī)律及下載，一文就夠
解讀SRA數(shù)據(jù)庫(kù)規(guī)律一文就夠
從GEO數(shù)據(jù)庫(kù)下載得到表達(dá)矩陣一文就夠
GSEA分析一文就夠（單機(jī)版+R語(yǔ)言版）
根據(jù)分組信息做差異分析- 這個(gè)一文不夠的
差異分析得到的結(jié)果注釋一文就夠
來完成你的生信作業(yè)帽哑，這是最有誠(chéng)意的GEO數(shù)據(jù)庫(kù)教程-果子學(xué)生信

最后編輯于：2020.01.08 10:21:00

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末缸榄，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子祝拯，更是在濱河造成了極大的恐慌，老刑警劉巖她肯，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件佳头，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡晴氨，警方通過查閱死者的電腦和手機(jī)康嘉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來籽前，“玉大人亭珍，你說我怎么就攤上這事敷钾。” “怎么了肄梨？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵阻荒，是天一觀的道長(zhǎng)。經(jīng)常有香客問我众羡，道長(zhǎng)侨赡，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任粱侣，我火速辦了婚禮羊壹，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘齐婴。我一直安慰自己油猫，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布柠偶。她就那樣靜靜地躺著情妖，像睡著了一般。火紅的嫁衣襯著肌膚如雪嚣州。梳的紋絲不亂的頭發(fā)上鲫售，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音该肴，去河邊找鬼情竹。笑死，一個(gè)胖子當(dāng)著我的面吹牛匀哄，可吹牛的內(nèi)容都是我干的秦效。我是一名探鬼主播，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼涎嚼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼阱州！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起法梯，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤苔货，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后立哑，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體夜惭，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年铛绰，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了诈茧。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡捂掰，死狀恐怖敢会，靈堂內(nèi)的尸體忽然破棺而出曾沈，到底是詐尸還是另有隱情，我是刑警寧澤鸥昏，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布塞俱，位于F島的核電站，受9級(jí)特大地震影響互广，放射性物質(zhì)發(fā)生泄漏敛腌。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一惫皱、第九天我趴在偏房一處隱蔽的房頂上張望像樊。院中可真熱鬧，春花似錦旅敷、人聲如沸生棍。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案媳谁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)涂滴。三九已至，卻和暖如春晴音，著一層夾襖步出監(jiān)牢的瞬間柔纵，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國(guó)打工锤躁，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留搁料，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓系羞，卻偏偏與公主長(zhǎng)得像郭计，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子椒振，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345

GEO數(shù)據(jù)分析之GSEA

GSEA-analysis

1.加載數(shù)據(jù)

載入前一步分析得到的表達(dá)矩陣

2.批量相關(guān)性分析

將第一行目的基因跟其他行的編碼基因批量做相關(guān)性分析粉臊，得到相關(guān)性系數(shù)以及p值俺榆。

3.篩選最相關(guān)的基因

篩選p值小于0.05，按照相關(guān)性系數(shù)絕對(duì)值選前500個(gè)的基因辟宗， 數(shù)量可以自己定尊搬。

4.隨機(jī)選取正的和負(fù)的分別作圖驗(yàn)證

正相關(guān)的選取IL2RG湾蔓；負(fù)相關(guān)選取MARK1

5.聚類分析

既然確定了相關(guān)性是正確的椒丧，那么用篩選的基因進(jìn)行富集分析就可以反推這個(gè)基因的功能壹甥。

推薦閱讀更多精彩內(nèi)容

篩選p值小于0.05，按照相關(guān)性系數(shù)絕對(duì)值選前500個(gè)的基因辟宗，數(shù)量可以自己定尊搬。