找基因所在的通路

新的任務(wù)，找到這 276 genes encompassed nine major DDR pathways:
base excision repair (BER),
nucleotide excision repair (NER),
mismatch repair (MMR),
the Fanconi anemia (FA) pathway,
homology-dependent recombination (HR),
non-homologous DNA end joining (NHEJ),
direct damage reversal repair (DR),
translesion DNA synthesis (TLS),
nucleotide pool maintenance (NP)
然后搞清楚每個基因出現(xiàn)在多少個通路塑陵，跟上次的任務(wù)比較像衬潦，來自于Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlashttps://www.cell.com/cell-reports/pdf/S2211-1247(18)30437-6.pdf

文章在線網(wǎng)址https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5961503/

276個基因在補充材料表格1回右，截圖如下：

image.png

根據(jù)Jimmy老師提示KEGGREST包含KEGG通路里的所有基因，那么反過來理論上也是可行的漱挚。所以查找KEGGREST包的說明翔烁，了解這個包的使用。

rm (list=ls())
Sys.setenv(LANGUAGE = "en") #顯示英文報錯信息
options(stringsAsFactors = FALSE) #禁止chr轉(zhuǎn)成factor

{ #install.packages
  options(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")
  options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
  if(!require("xlsx")) install.packages("xlsx",update = F,ask = F)
  if(!require("ggplot2")) install.packages("ggplot2",update = F,ask = F)
  if(!require("tidyverse")) install.packages("tidyverse",update = F,ask = F)
  if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F)
  if(!require("KEGGREST")) BiocManager::install("KEGGREST",update = F,ask = F)
  if(!require("clusterProfiler")) BiocManager::install("clusterProfiler",update = F,ask = F)
  if(!require("UpSetR")) BiocManager::install("UpSetR",update = F,ask = F)
}

# 載入數(shù)據(jù)旨涝，補充材料表1
library("xlsx")
res<- read.xlsx("1-s2.0-S2211124718304376-mmc2.xlsx", 1, header=F, colClasses=NA)[-(1:2),1:2]

這里可以查看差異基因在哪些KEGG通路

library(KEGGREST)
listDatabases()
res1 <- paste("hsa:",res[-1, 1]) #根據(jù)包說明書對變量重命名
res2 <- gsub(" ", "", res1) #正則表達(dá)式去掉空格
res3 <- keggLink("pathway", res2)#查找通路
res3

開始進(jìn)行分析

DDR.list <- list("hsa03410", "hsa03420", "hsa03430", "hsa03440", "hsa03450", "hsa03460")

# 批量提取幾個pathway的基因
DDRgene <- lapply(DDR.list, function(i){
  #i="hsa03410"
  d1 <- KEGGREST::keggGet(i)[[1]]$GENE
  gene <- sapply(seq(2, length(d1), 2), function(x){
    d2 <-  unlist(strsplit(d1[x], ";"))[1]
  })
})
#有三個通路在KEGG數(shù)據(jù)庫中找不到蹬屹，在其他數(shù)據(jù)庫
#Reactome/wikipathways/SMPDB/Reactome/BioCarta Pathway/Pathway Commons找到的，但是與原文有些不一致
DDR.list2 <- as.list(read.csv("NP.csv"))
DDR.list2 
# $Gene.Name
# [1] "NUDT1"  "NUDT15" "NUDT18" "RRM1"   "RRM2" 

DDR.list3 <- as.list(read.csv("TLS.csv"))
DDR.list3 
#$Gene.Name
 [1] "REV3L"    "SPRTN"    "DDX11"    "TACC3"    "NUP160"   "SPDL1"    "PARP3"   
 [8] "TPR"      "POLQ"     "EIF2AK2"  "NDC1"     "ZW10"     "AURKA"    "TTC28"   
[15] "POLE2"    "NIN"      "CEP128"   "PABPN1"   "PABPC1L"  "RAE1"     "CDC25B"  
[22] "FAM83D"   "POLI"     "STAG2"    "EMD"      "BEX4"     "PARP4"    "RPA3"    
[29] "POLE4"    "MAD2L2"   "ADPRHL2"  "CDC20"    "NEK2"     "CENPF"    "RPA2"    
[36] "POLK"     "DLGAP5"   "PARP2"    "RPA1"     "VPS4A"    "PCNA"     "REV1"    
[43] "FLNB"     "CKAP2"    "NUPL2"    "ODF2"     "CDK5RAP2" "NUMA1"    "MAPKBP1" 
[50] "TUBGCP4"  "RMDN3"    "PPM1B"    "ACTR2"    "KIF11"    "KIF20B"   "PARP9"   
[57] "EIF4A3"   "PARP1"    "POLE3"    "TUT1"     "DSN1"     "LATS2"    "UBC"     
[64] "TIPARP"   "RCHY1"    "TOPBP1"   "POC1A"    "MAD2L1"   "CEP44"    "PAPD4"   
[71] "VCP"      "UBB"      "NUDCD2"   "POLH"     "USP32"    "WDR73"    "POLE"    
[78] "CETN1"    "UBE2N"    "CALML3"   "CALML5"   "PARP10"   "PARPBP"   "BRCC3"   
[85] "PARG" 

DDR.list4<- as.list (read.csv("DR.csv"))
DDR.list4
# $Gene.Name
# [1] "ALKBH5" "ASCC2"  "ASCC3"  "ASCC1"  "FTO"    "ALKBH3" "MGMT"   "ALKBH2"

merged.list <- c( DDRgene , DDR.list2, DDR.list3, DDR.list4)
#names(merged.list) <- c(1:9)
intersect(res[-1, 2], DDRgene[[1]])
overlap <- lapply(1:9, function(x){
  res <- intersect(res[-1, 2], merged.list[[x]])
})

Reduce(intersect,overlap) # 也沒有overlap
library(ggplot2)
library(tidyverse)
count <- unlist(overlap) %>% table()
count <- as.data.frame(count) %>% base::subset(Freq > 1)
names(count)[1] <- "gene"
ggplot(count, aes(gene, Freq,colour=Freq, size =Freq))+
  geom_point(stat="identity")+coord_flip()

image.png

做個韋恩圖

library(UpSetR)
listinput <- list(dfgene = res[-1, 2],
                     BER = merged.list[[1]],
                     NER = merged.list[[2]],
                     MMR = merged.list[[3]],
                      HR = merged.list[[4]],
                    NHEJ = merged.list[[5]],
                      FA = merged.list[[6]],
                      NP = merged.list[[7]],
                     TLS = merged.list[[8]],
                      DR = merged.list[[9]])

pdf(file='upset.pdf',height = 8,width = 8)
p <- upset(fromList(listinput),nsets = 9, order.by = "freq")
dev.off()

image.png

單個基因/單個通路

keggLink("pathway", "hsa:7157" )#單個基因白华，比如TP53
png <- keggGet("path:hsa01522", "image")# 看下通路 
t <- tempfile()
library(png)
writePNG(png, t)
if (interactive()) browseURL(t)

image.png

做個富集分析

library(clusterProfiler)
kegg.result <- enrichKEGG(gene=res[-1,1],
                          organism="hsa",
                          pvalueCutoff=0.05,
                          pAdjustMethod="BH", 
                          qvalueCutoff=0.1,
                          keyType = "kegg")

barplot(kegg.result)
dotplot(kegg.result)
write.csv(kegg.result,"kegg.csv")

image.png

注意：這個任務(wù)中最關(guān)鍵的是如何確定九條信號通路中有哪些基因哩治，但是各個數(shù)據(jù)庫并不一致，這是造成與作者原圖有出路的主要原因衬鱼，作者在補充材料表格3中有276個基因的分類业筏，可以參考。

image.png

特別感謝內(nèi)蒙古生信菜鳥團尋找DDR通路中關(guān)鍵基因
鸟赫，部分代碼參考他寫的帖子蒜胖！

參考文獻(xiàn)
Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlas
KEGG學(xué)習(xí)筆記
 簡介Bioconductor中的幾個注釋信息數(shù)據(jù)庫

生信技能樹公益視頻合輯：學(xué)習(xí)順序是linux，r抛蚤，軟件安裝台谢，geo，小技巧岁经，ngs組學(xué)朋沮！
B站鏈接：https://m.bilibili.com/space/338686099
YouTube鏈接：https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程師入門最佳指南：https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
學(xué)徒培養(yǎng)：https://mp.weixin.qq.com/s/3jw3_PgZXYd7FomxEMxFmw
生信技能樹 - 簡書 http://www.reibang.com/u/d645f768d2d5
https://www.wikipathways.org/index.php/Pathway:WP1928
https://www.cnblogs.com/muchen/p/5412278.html

最后編輯于：2019.04.02 18:56:44

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市缀壤，隨后出現(xiàn)的幾起案子樊拓，更是在濱河造成了極大的恐慌，老刑警劉巖塘慕，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件筋夏，死亡現(xiàn)場離奇詭異，居然都是意外死亡图呢，警方通過查閱死者的電腦和手機条篷，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛤织，“玉大人赴叹，你說我怎么就攤上這事≈秆粒” “怎么了乞巧？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長姚炕。經(jīng)常有香客問我摊欠，道長丢烘，這世上最難降的妖魔是什么柱宦？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任些椒，我火速辦了婚禮，結(jié)果婚禮上掸刊，老公的妹妹穿的比我還像新娘免糕。我一直安慰自己，他們只是感情好忧侧，可當(dāng)我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布石窑。她就那樣靜靜地躺著，像睡著了一般蚓炬。火紅的嫁衣襯著肌膚如雪松逊。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天肯夏，我揣著相機與錄音经宏，去河邊找鬼。笑死驯击，一個胖子當(dāng)著我的面吹牛烁兰，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播徊都，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼沪斟，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了暇矫？” 一聲冷哼從身側(cè)響起主之，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎李根，沒想到半個月后杀餐，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡朱巨，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年史翘，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冀续。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡琼讽，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出洪唐，到底是詐尸還是另有隱情钻蹬，我是刑警寧澤，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布凭需，位于F島的核電站问欠，受9級特大地震影響肝匆，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜顺献，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一旗国、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧注整，春花似錦能曾、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案寿冕，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至椒袍，卻和暖如春驼唱，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背驹暑。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工玫恳，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人岗钩。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓纽窟，卻偏偏與公主長得像，于是被迫代替她去往敵國和親兼吓。傳聞我的和親對象是個殘疾皇子臂港，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,577評論 2贊 353

找基因所在的通路

推薦閱讀更多精彩內(nèi)容