找基因所在的通路

復(fù)盤一下荡陷,找基因所在的通路下

新的任務(wù)缩筛,找到這 276 genes encompassed nine major DDR pathways:
base excision repair (BER),
nucleotide excision repair (NER),
mismatch repair (MMR),
the Fanconi anemia (FA) pathway,
homology-dependent recombination (HR),
non-homologous DNA end joining (NHEJ),
direct damage reversal repair (DR),
translesion DNA synthesis (TLS),
nucleotide pool maintenance (NP)
然后搞清楚每個(gè)基因出現(xiàn)在多少個(gè)通路会油,跟上次的任務(wù)比較像蛤高,來自于Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlashttps://www.cell.com/cell-reports/pdf/S2211-1247(18)30437-6.pdf

文章在線網(wǎng)址https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5961503/

根據(jù)Jimmy老師提示KEGGREST包含KEGG通路里的所有基因,那么反過來理論上也是可行的吕世。所以查找KEGGREST包的說明彰触,了解這個(gè)包的使用。

了解一下數(shù)據(jù)


image.png

讀入數(shù)據(jù)

rm (list=ls())
Sys.setenv(LANGUAGE = "en") #顯示英文報(bào)錯(cuò)信息
options(stringsAsFactors = FALSE) #禁止chr轉(zhuǎn)成factor

{ #install.packages
  options(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")
  options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
  if(!require("xlsx")) install.packages("xlsx",update = F,ask = F)
  if(!require("ggplot2")) install.packages("ggplot2",update = F,ask = F)
  if(!require("tidyverse")) install.packages("tidyverse",update = F,ask = F)
  if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F)
  if(!require("KEGGREST")) BiocManager::install("KEGGREST",update = F,ask = F)
  if(!require("clusterProfiler")) BiocManager::install("clusterProfiler",update = F,ask = F)
  if(!require("UpSetR")) BiocManager::install("UpSetR",update = F,ask = F)
}

# 載入數(shù)據(jù)命辖,補(bǔ)充材料表1
library("xlsx")
res<- read.xlsx("1-s2.0-S2211124718304376-mmc2.xlsx", 1, header=F, colClasses=NA)[-(1:2),1:2]

head(res)
# colnames(res) <- res[1,]
# res <- res[-1,]

colnames(res) <- c("Entrez_Gene_ID","Gene_Symbol")
head(res)

這里可以查看差異基因在哪些KEGG通路

library(KEGGREST)
listDatabases()

 [1] "pathway"  "brite"    "module"   "ko"       "genome"   "vg"       "ag"       "compound"
 [9] "glycan"   "reaction" "rclass"   "enzyme"   "disease"  "drug"     "dgroup"   "environ" 
[17] "genes"    "ligand"   "kegg"    

#
res1 <- paste("hsa:",res[-1, 1]) #根據(jù)包說明書對(duì)變量重命名
res2 <- gsub(" ", "", res1) #正則表達(dá)式去掉空格
res3 <- keggLink("pathway", res2)#查找通路
res3

分析流程:

res1 <- paste("hsa:",res[-1, 1]) #根據(jù)包說明書對(duì)變量重命名

res2 <- gsub(" ", "", res1) #正則表達(dá)式去掉空格

res3 <- keggLink("pathway", res2)#查找通路
res3

dim(as.data.frame(res3))



#開始進(jìn)行分析
DDR.list <- list("hsa03410", "hsa03420", "hsa03430", "hsa03440", "hsa03450", "hsa03460")

# 批量提取幾個(gè)pathway的基因
DDRgene <- lapply(DDR.list, function(i){
  #i="hsa03410"
  d1 <- KEGGREST::keggGet(i)[[1]]$GENE
  gene <- sapply(seq(2, length(d1), 2), function(x){
    d2 <-  unlist(strsplit(d1[x], ";"))[1]
  })
})
#有三個(gè)通路在KEGG數(shù)據(jù)庫中找不到况毅,在其他數(shù)據(jù)庫

#https://reactome.org/PathwayBrowser/找到的分蓖,但是與原文有些不一致

#該數(shù)據(jù)庫的使用方法參考陳同老師的科學(xué)網(wǎng)博客科學(xué)網(wǎng)—沒錢買KEGG怎么辦?REACTOME開源通路更強(qiáng)大 - 陳同的博文 http://blog.sciencenet.cn/blog-118204-1142737.html


#direct damage reversal/repair (DR) 
#PS:下邊雖然找到了該通路尔许,由于該數(shù)據(jù)庫通路名字的原因可能并沒有找全

#molecule選項(xiàng)里面的
'
Proteins    P16455  UniProt:P16455 MGMT 
Proteins    Q6NS38  UniProt:Q6NS38 ALKBH2   
Proteins    Q6P6C2  UniProt:Q6P6C2 ALKBH5   
Proteins    Q9C0B1  UniProt:Q9C0B1 FTO  
Proteins    Q9H1I8  UniProt:Q9H1I8 ASCC2    
Proteins    Q8N3C0  UniProt:Q8N3C0 ASCC3    
Proteins    Q8N9N2  UniProt:Q8N9N2 ASCC1    
Proteins    Q96Q83  UniProt:Q96Q83 ALKBH3'
# genenames <- 'Gene.Name'
# ddr <- c("MGMT","ALKBH2","ALKBH5","FTO","ASCC2","ASCC3","ASCC1","ALKBH3")

Gene.Name <-  c("MGMT","ALKBH2","ALKBH5","FTO","ASCC2","ASCC3","ASCC1","ALKBH3")
DDR.list2 <- list(Gene.Name=Gene.Name)

#同樣的方法分別構(gòu)建translesion DNA synthesis (TLS) 和 and nucleotide pool maintenance (NP)的通路基因

#translesion DNA synthesis (TLS) 

#由于TLS這個(gè)通路里面有32個(gè)基因么鹤,所以可以從文本里面導(dǎo)入。
#與參考博文不一致母债;參考博文是85個(gè)午磁,他應(yīng)該是把該條通路下面的所有基因匯總了尝抖。
#我覺得沒有必要毡们,上邊的都沒有匯總

TLS <- read.xlsx("TLS.xlsx", 1, header=F, colClasses=NA)[,-(1:2)]

TLS <- data.frame(TLS)
colnames(TLS) <- c("Gene.Name")

library(stringr)

TLS <- str_split(as.character(TLS$Gene.Name)," ",simplify = T)[,2]

TLS <- list(Gene.Name =TLS)
DDR.list3 <- TLS


#nucleotide pool maintenance (NP)
#這個(gè)沒有找到非常匹配的
#按照提示,選取包括基因最多的通路DNA Repair
NP <- read.xlsx("NP.xlsx", 1, header=F, colClasses=NA)[,-(1:2)]

NP <- data.frame(NP)
colnames(NP) <- c("Gene.Name")

NP <- str_split(as.character(NP$Gene.Name)," ",simplify = T)[,2]

NP <- list(Gene.Name =NP)


DDR.list4 <- NP

class(NP)

merged.list <- c( DDRgene , DDR.list2, DDR.list3, DDR.list4)


#names(merged.list) <- c(1:9)

# 文章中276個(gè)基因和5條通路的交集
# overlap <- lapply(1:5, function(x){
#   res <- intersect(gene$Gene_Symbol, DDRgene[[x]])
# })

intersect(res[-1, 2], DDRgene[[1]])

overlap <- lapply(1:9, function(x){
  res <- intersect(res[-1, 2], merged.list[[x]])
})

Reduce(intersect,overlap) # 也沒有overlap


library(ggplot2)
library(tidyverse)
count <- unlist(overlap) %>% table()
count <- as.data.frame(count) %>% base::subset(Freq > 1)
names(count)[1] <- "gene"

ggplot(count, aes(gene, Freq),size =1)+
  geom_bar(stat="identity")+
  coord_flip()+
  theme_bw()
  
  

ggplot(count, aes(gene, Freq, colour=Freq, size =Freq))+
  geom_point(stat="identity")+
  coord_flip()+
  theme_bw()



韋恩圖

#沒有生成圖片
if(F){
library(UpSetR)
listinput <- list(dfgene = res[-1, 2],
                     BER = merged.list[[1]],
                     NER = merged.list[[2]],
                     MMR = merged.list[[3]],
                      HR = merged.list[[4]],
                    NHEJ = merged.list[[5]],
                      FA = merged.list[[6]],
                      NP = merged.list[[7]],
                     TLS = merged.list[[8]],
                      DR = merged.list[[9]])

pdf(file='upset.pdf',height = 8,width = 8)
p <- upset(fromList(listinput),nsets = 9, order.by = "freq")
dev.off()
}

單個(gè)基因/單個(gè)通路

keggLink("pathway", "hsa:7157" )#單個(gè)基因昧辽,比如TP53
png <- keggGet("path:hsa01522", "image")# 看下通路 
t <- tempfile()
library(png)
writePNG(png, t)
if (interactive()) browseURL(t)

注意:這個(gè)任務(wù)中最關(guān)鍵的是如何確定九條信號(hào)通路中有哪些基因衙熔,但是各個(gè)數(shù)據(jù)庫并不一致,這是造成與作者原圖有出路的主要原因搅荞,作者在補(bǔ)充材料表格3中有276個(gè)基因的分類红氯,可以參考。

參考文獻(xiàn)
Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlas
KEGG學(xué)習(xí)筆記
簡(jiǎn)介Bioconductor中的幾個(gè)注釋信息數(shù)據(jù)庫

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末咕痛,一起剝皮案震驚了整個(gè)濱河市痢甘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌茉贡,老刑警劉巖塞栅,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異腔丧,居然都是意外死亡放椰,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門愉粤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來砾医,“玉大人,你說我怎么就攤上這事衣厘∪缪粒” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵影暴,是天一觀的道長(zhǎng)错邦。 經(jīng)常有香客問我,道長(zhǎng)坤检,這世上最難降的妖魔是什么兴猩? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮早歇,結(jié)果婚禮上倾芝,老公的妹妹穿的比我還像新娘讨勤。我一直安慰自己晨另,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布刨晴。 她就那樣靜靜地躺著,像睡著了一般路翻。 火紅的嫁衣襯著肌膚如雪狈癞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天蝶桶,我揣著相機(jī)與錄音掉冶,去河邊找鬼真竖。 笑死,一個(gè)胖子當(dāng)著我的面吹牛厌小,可吹牛的內(nèi)容都是我干的恢共。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼讨韭,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼涨岁!你這毒婦竟也來了拐袜?” 一聲冷哼從身側(cè)響起梢薪,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤秉撇,失蹤者是張志新(化名)和其女友劉穎甜攀,沒想到半個(gè)月后琐馆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谁撼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年滋饲,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了喊巍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片箍鼓。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖何暮,靈堂內(nèi)的尸體忽然破棺而出铐殃,到底是詐尸還是另有隱情,我是刑警寧澤背稼,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布贰军,位于F島的核電站蟹肘,受9級(jí)特大地震影響俯树,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜阳欲,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一陋率、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瓦糟,春花似錦、人聲如沸巢掺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽先嬉。三九已至,卻和暖如春含懊,著一層夾襖步出監(jiān)牢的瞬間钾军,已是汗流浹背绢要。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工重罪, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人剿配。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像茄唐,于是被迫代替她去往敵國(guó)和親蝇更。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容