找基因所在的通路

復(fù)盤一下荡陷，找基因所在的通路下

新的任務(wù)缩筛，找到這 276 genes encompassed nine major DDR pathways:
base excision repair (BER),
nucleotide excision repair (NER),
mismatch repair (MMR),
the Fanconi anemia (FA) pathway,
homology-dependent recombination (HR),
non-homologous DNA end joining (NHEJ),
direct damage reversal repair (DR),
translesion DNA synthesis (TLS),
nucleotide pool maintenance (NP)
然后搞清楚每個(gè)基因出現(xiàn)在多少個(gè)通路会油，跟上次的任務(wù)比較像蛤高，來自于Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlashttps://www.cell.com/cell-reports/pdf/S2211-1247(18)30437-6.pdf

文章在線網(wǎng)址https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5961503/

根據(jù)Jimmy老師提示KEGGREST包含KEGG通路里的所有基因，那么反過來理論上也是可行的吕世。所以查找KEGGREST包的說明彰触，了解這個(gè)包的使用。

了解一下數(shù)據(jù)

image.png

讀入數(shù)據(jù)

rm (list=ls())
Sys.setenv(LANGUAGE = "en") #顯示英文報(bào)錯(cuò)信息
options(stringsAsFactors = FALSE) #禁止chr轉(zhuǎn)成factor

{ #install.packages
  options(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")
  options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
  if(!require("xlsx")) install.packages("xlsx",update = F,ask = F)
  if(!require("ggplot2")) install.packages("ggplot2",update = F,ask = F)
  if(!require("tidyverse")) install.packages("tidyverse",update = F,ask = F)
  if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F)
  if(!require("KEGGREST")) BiocManager::install("KEGGREST",update = F,ask = F)
  if(!require("clusterProfiler")) BiocManager::install("clusterProfiler",update = F,ask = F)
  if(!require("UpSetR")) BiocManager::install("UpSetR",update = F,ask = F)
}

# 載入數(shù)據(jù)命辖，補(bǔ)充材料表1
library("xlsx")
res<- read.xlsx("1-s2.0-S2211124718304376-mmc2.xlsx", 1, header=F, colClasses=NA)[-(1:2),1:2]

head(res)
# colnames(res) <- res[1,]
# res <- res[-1,]

colnames(res) <- c("Entrez_Gene_ID","Gene_Symbol")
head(res)

這里可以查看差異基因在哪些KEGG通路

library(KEGGREST)
listDatabases()

 [1] "pathway"  "brite"    "module"   "ko"       "genome"   "vg"       "ag"       "compound"
 [9] "glycan"   "reaction" "rclass"   "enzyme"   "disease"  "drug"     "dgroup"   "environ" 
[17] "genes"    "ligand"   "kegg"    

#
res1 <- paste("hsa:",res[-1, 1]) #根據(jù)包說明書對(duì)變量重命名
res2 <- gsub(" ", "", res1) #正則表達(dá)式去掉空格
res3 <- keggLink("pathway", res2)#查找通路
res3

分析流程：

res1 <- paste("hsa:",res[-1, 1]) #根據(jù)包說明書對(duì)變量重命名

res2 <- gsub(" ", "", res1) #正則表達(dá)式去掉空格

res3 <- keggLink("pathway", res2)#查找通路
res3

dim(as.data.frame(res3))



#開始進(jìn)行分析
DDR.list <- list("hsa03410", "hsa03420", "hsa03430", "hsa03440", "hsa03450", "hsa03460")

# 批量提取幾個(gè)pathway的基因
DDRgene <- lapply(DDR.list, function(i){
  #i="hsa03410"
  d1 <- KEGGREST::keggGet(i)[[1]]$GENE
  gene <- sapply(seq(2, length(d1), 2), function(x){
    d2 <-  unlist(strsplit(d1[x], ";"))[1]
  })
})
#有三個(gè)通路在KEGG數(shù)據(jù)庫中找不到况毅，在其他數(shù)據(jù)庫

#https://reactome.org/PathwayBrowser/找到的分蓖，但是與原文有些不一致

#該數(shù)據(jù)庫的使用方法參考陳同老師的科學(xué)網(wǎng)博客科學(xué)網(wǎng)—沒錢買KEGG怎么辦？REACTOME開源通路更強(qiáng)大 - 陳同的博文 http://blog.sciencenet.cn/blog-118204-1142737.html


#direct damage reversal/repair (DR) 
#PS:下邊雖然找到了該通路尔许，由于該數(shù)據(jù)庫通路名字的原因可能并沒有找全

#molecule選項(xiàng)里面的
'
Proteins    P16455  UniProt:P16455 MGMT 
Proteins    Q6NS38  UniProt:Q6NS38 ALKBH2   
Proteins    Q6P6C2  UniProt:Q6P6C2 ALKBH5   
Proteins    Q9C0B1  UniProt:Q9C0B1 FTO  
Proteins    Q9H1I8  UniProt:Q9H1I8 ASCC2    
Proteins    Q8N3C0  UniProt:Q8N3C0 ASCC3    
Proteins    Q8N9N2  UniProt:Q8N9N2 ASCC1    
Proteins    Q96Q83  UniProt:Q96Q83 ALKBH3'
# genenames <- 'Gene.Name'
# ddr <- c("MGMT","ALKBH2","ALKBH5","FTO","ASCC2","ASCC3","ASCC1","ALKBH3")

Gene.Name <-  c("MGMT","ALKBH2","ALKBH5","FTO","ASCC2","ASCC3","ASCC1","ALKBH3")
DDR.list2 <- list(Gene.Name=Gene.Name)

#同樣的方法分別構(gòu)建translesion DNA synthesis (TLS) 和 and nucleotide pool maintenance (NP)的通路基因

#translesion DNA synthesis (TLS) 

#由于TLS這個(gè)通路里面有32個(gè)基因么鹤，所以可以從文本里面導(dǎo)入。
#與參考博文不一致母债；參考博文是85個(gè)午磁，他應(yīng)該是把該條通路下面的所有基因匯總了尝抖。
#我覺得沒有必要毡们，上邊的都沒有匯總

TLS <- read.xlsx("TLS.xlsx", 1, header=F, colClasses=NA)[,-(1:2)]

TLS <- data.frame(TLS)
colnames(TLS) <- c("Gene.Name")

library(stringr)

TLS <- str_split(as.character(TLS$Gene.Name)," ",simplify = T)[,2]

TLS <- list(Gene.Name =TLS)
DDR.list3 <- TLS


#nucleotide pool maintenance (NP)
#這個(gè)沒有找到非常匹配的
#按照提示，選取包括基因最多的通路DNA Repair
NP <- read.xlsx("NP.xlsx", 1, header=F, colClasses=NA)[,-(1:2)]

NP <- data.frame(NP)
colnames(NP) <- c("Gene.Name")

NP <- str_split(as.character(NP$Gene.Name)," ",simplify = T)[,2]

NP <- list(Gene.Name =NP)


DDR.list4 <- NP

class(NP)

merged.list <- c( DDRgene , DDR.list2, DDR.list3, DDR.list4)


#names(merged.list) <- c(1:9)

# 文章中276個(gè)基因和5條通路的交集
# overlap <- lapply(1:5, function(x){
#   res <- intersect(gene$Gene_Symbol, DDRgene[[x]])
# })

intersect(res[-1, 2], DDRgene[[1]])

overlap <- lapply(1:9, function(x){
  res <- intersect(res[-1, 2], merged.list[[x]])
})

Reduce(intersect,overlap) # 也沒有overlap


library(ggplot2)
library(tidyverse)
count <- unlist(overlap) %>% table()
count <- as.data.frame(count) %>% base::subset(Freq > 1)
names(count)[1] <- "gene"

ggplot(count, aes(gene, Freq),size =1)+
  geom_bar(stat="identity")+
  coord_flip()+
  theme_bw()
  
  

ggplot(count, aes(gene, Freq, colour=Freq, size =Freq))+
  geom_point(stat="identity")+
  coord_flip()+
  theme_bw()

韋恩圖

#沒有生成圖片
if(F){
library(UpSetR)
listinput <- list(dfgene = res[-1, 2],
                     BER = merged.list[[1]],
                     NER = merged.list[[2]],
                     MMR = merged.list[[3]],
                      HR = merged.list[[4]],
                    NHEJ = merged.list[[5]],
                      FA = merged.list[[6]],
                      NP = merged.list[[7]],
                     TLS = merged.list[[8]],
                      DR = merged.list[[9]])

pdf(file='upset.pdf',height = 8,width = 8)
p <- upset(fromList(listinput),nsets = 9, order.by = "freq")
dev.off()
}

單個(gè)基因/單個(gè)通路

keggLink("pathway", "hsa:7157" )#單個(gè)基因昧辽，比如TP53
png <- keggGet("path:hsa01522", "image")# 看下通路 
t <- tempfile()
library(png)
writePNG(png, t)
if (interactive()) browseURL(t)

注意：這個(gè)任務(wù)中最關(guān)鍵的是如何確定九條信號(hào)通路中有哪些基因衙熔，但是各個(gè)數(shù)據(jù)庫并不一致，這是造成與作者原圖有出路的主要原因搅荞，作者在補(bǔ)充材料表格3中有276個(gè)基因的分類红氯，可以參考。

參考文獻(xiàn)
Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlas
KEGG學(xué)習(xí)筆記
 簡(jiǎn)介Bioconductor中的幾個(gè)注釋信息數(shù)據(jù)庫

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末咕痛，一起剝皮案震驚了整個(gè)濱河市痢甘，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌茉贡，老刑警劉巖塞栅，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異腔丧，居然都是意外死亡放椰，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門愉粤，熙熙樓的掌柜王于貴愁眉苦臉地迎上來砾医，“玉大人，你說我怎么就攤上這事衣厘∪缪粒” “怎么了？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵影暴，是天一觀的道長(zhǎng)错邦。經(jīng)常有香客問我，道長(zhǎng)坤检，這世上最難降的妖魔是什么兴猩？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮早歇，結(jié)果婚禮上倾芝，老公的妹妹穿的比我還像新娘讨勤。我一直安慰自己晨另，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布刨晴。她就那樣靜靜地躺著，像睡著了一般路翻。火紅的嫁衣襯著肌膚如雪狈癞。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說
那天蝶桶，我揣著相機(jī)與錄音掉冶，去河邊找鬼真竖。笑死，一個(gè)胖子當(dāng)著我的面吹牛厌小，可吹牛的內(nèi)容都是我干的恢共。我是一名探鬼主播，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼讨韭，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼涨岁！你這毒婦竟也來了拐袜？” 一聲冷哼從身側(cè)響起梢薪，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤秉撇，失蹤者是張志新（化名）和其女友劉穎甜攀，沒想到半個(gè)月后琐馆，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡谁撼，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年滋饲，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了喊巍。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片箍鼓。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖何暮，靈堂內(nèi)的尸體忽然破棺而出铐殃，到底是詐尸還是另有隱情，我是刑警寧澤背稼，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贰军，位于F島的核電站蟹肘，受9級(jí)特大地震影響俯树，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜阳欲，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一陋率、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧瓦糟，春花似錦、人聲如沸巢掺。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽先嬉。三九已至，卻和暖如春含懊，著一層夾襖步出監(jiān)牢的瞬間钾军，已是汗流浹背绢要。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來泰國(guó)打工重罪，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人剿配。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像茄唐，于是被迫代替她去往敵國(guó)和親蝇更。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

找基因所在的通路

讀入數(shù)據(jù)

推薦閱讀更多精彩內(nèi)容