本文首發(fā)于公眾號(hào)“生信補(bǔ)給站”憔儿,https://mp.weixin.qq.com/s/WG4JHs9RSm5IEJiiGEzDkg
之前介紹了使用maftools | 從頭開(kāi)始繪制發(fā)表級(jí)oncoplot(瀑布圖) R-maftools包繪制組學(xué)突變結(jié)果(MAF)的oncoplot或者叫“瀑布圖”耀里,以及一些細(xì)節(jié)的更改和注釋咙鞍。
本文繼續(xù)介紹maftools對(duì)于MAF文件的其他應(yīng)用孵奶,為更易理解和重現(xiàn)载绿,本次使用TCGA下載的LIHC數(shù)據(jù)冀自。
一 數(shù)據(jù)部分
setwd("C:\\Users\\Maojie\\Desktop\\maftools-V2\\")
library(maftools)
laml.maf = read.csv("TCGA.LIHC.mutect.maf.csv",header=TRUE)
#本次只展示maf的一些統(tǒng)計(jì)繪圖余境,只讀入組學(xué)數(shù)據(jù),不添加臨床數(shù)據(jù)
laml = read.maf(maf = laml.maf)
#查看數(shù)據(jù)的基本情況
laml
An object of class MAF
ID summary Mean Median
1: NCBI_Build 1 NA NA
2: Center 1 NA NA
3: Samples 364 NA NA
4: nGenes 12704 NA NA
5: Frame_Shift_Del 1413 3.893 3
6: Frame_Shift_Ins 551 1.518 1
7: In_Frame_Del 277 0.763 0
8: In_Frame_Ins 112 0.309 0
9: Missense_Mutation 28304 77.972 63
10: Nonsense_Mutation 1883 5.187 4
11: Nonstop_Mutation 45 0.124 0
12: Splice_Site 1051 2.895 2
13: Translation_Start_Site 65 0.179 0
14: total 33701 92.840 75
可以將MAF文件的gene 肥惭,sample的 summary 的信息牵囤,輸出到laml前綴的summary文件
write.mafSummary(maf = laml, basename = 'laml')
laml_geneSummary.txt
laml_sampleSummary.txt
二 繪圖部分
1,首先繪制MAF文件的整體結(jié)果圖
plotmafSummary(maf = laml, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE)
2,oncoplot圖
#oncoplot for top ten mutated genes.
oncoplot(maf = laml, top = 20)
添加SCNA信息,添加P值信息,添加臨床注釋信息,更改顏色等可參考 鏈接 。稳强。
3 Oncostrip
可以使用 oncostrip
函數(shù)展示特定基因在樣本中的突變情況褒繁,此處查看肝癌中關(guān)注較多的'TP53','CTNNB1', 'ARID1A'三個(gè)基因,如下:
oncostrip(maf = laml, genes = c('TP53','CTNNB1', 'ARID1A'))
4 Transition , Transversions
titv函數(shù)將SNP分類(lèi)為T(mén)ransitions_vs_Transversions偷溺,并以各種方式返回匯總表的列表尉共。匯總數(shù)據(jù)也可以顯示為一個(gè)箱線圖霹菊,顯示六種不同轉(zhuǎn)換的總體分布,并作為堆積條形圖顯示每個(gè)樣本中的轉(zhuǎn)換比例。
laml.titv = titv(maf = laml, plot = FALSE, useSyn = TRUE)
#plot titv summary
plotTiTv(res = laml.titv)
5 Rainfall plots
使用rainfallPlot
參數(shù)繪制rainfall plots,展示超突變的基因組區(qū)域示辈。detectChangePoints設(shè)置為T(mén)RUE,rainfall plots可以突出顯示潛在變化的區(qū)域.
brca <- system.file("extdata", "brca.maf.gz", package = "maftools")
brca = read.maf(maf = brca, verbose = FALSE)
rainfallPlot(maf = laml, detectChangePoints = TRUE, pointSize = 0.6)
6 Compare mutation load against TCGA cohorts
通過(guò)tcgaComapre
函數(shù)實(shí)現(xiàn)laml(自有群體)與TCGA中已有的33個(gè)癌種隊(duì)列的突變負(fù)載情況的比較搞乏。
#cohortName 給輸入的隊(duì)列命名
laml.mutload = tcgaCompare(maf = laml, cohortName = 'LIHC-2')
7 Genecloud
使用 geneCloud
參數(shù)繪制基因云,每個(gè)基因的大小與它突變的樣本總數(shù)成正比蒲每。
geneCloud(input = laml, minMut = 15)
8 Somatic Interactions
癌癥中的許多引起疾病的基因共同發(fā)生或在其突變模式中顯示出強(qiáng)烈的排他性∶岣埽可以使用somaticInteractions
函數(shù)使用配對(duì)Fisher 's精確檢驗(yàn)來(lái)分析突變基因之間的的co-occurring 或者exclusiveness飘诗。
#exclusive/co-occurance event analysis on top 10 mutated genes.
Interact <- somaticInteractions(maf = laml, top = 25, pvalue = c(0.05, 0.1))
#提取P值結(jié)果
Interact$gene_sets
gene_set pvalue
1: CTNNB1, AXIN1, TP53 0.0001486912
2: CTNNB1, TP53, ARID1A 0.0018338597
3: AXIN1, TP53, APOB 0.0087076043
4: CSMD3, AXIN1, ALB 0.0130219628
5: AXIN1, TP53, ALB 0.0173199619
6: CTNNB1, AXIN1, ARID1A 0.0363739468
可以看到TP53和CTNNB1之間有較強(qiáng)的exclusiveness畏陕,也與文獻(xiàn)中的結(jié)論一致飒焦。
9 Comparing two cohorts (MAFs)
由于癌癥的突變模式各不相同,因此可是 mafComapre
參數(shù)比較兩個(gè)不同隊(duì)列的差異突變基因洒嗤,檢驗(yàn)方式為fisher檢驗(yàn)。
#輸入另一個(gè) MAF 文件
Our_maf <- read.csv("Our_maf.csv",header=TRUE)
our_maf = read.maf(maf = Our_maf)
#Considering only genes which are mutated in at-least in 5 samples in one of the cohort to avoid bias due to genes mutated in single sample.
pt.vs.rt <- mafCompare(m1 = laml, m2 = our_maf, m1Name = 'LIHC', m2Name = 'OUR', minMut = 5)
print(pt.vs.rt)
- result部分會(huì)有每個(gè)基因分別在兩個(gè)隊(duì)列中的個(gè)數(shù)以及P值和置信區(qū)間等信息良姆。
- SampleSummary 會(huì)有兩個(gè)隊(duì)列的樣本數(shù)陆馁。
1) Forest plots
比較結(jié)果繪制森林圖
forestPlot(mafCompareRes = pt.vs.rt, pVal = 0.01, color = c('royalblue', 'maroon'), geneFontSize = 0.8)
10 Oncogenic 信號(hào)通路
``OncogenicPathways` 功能查看顯著富集通路
OncogenicPathways(maf = laml)
#會(huì)輸出統(tǒng)計(jì)結(jié)果
Pathway alteration fractions
Pathway N n_affected_genes fraction_affected
1: RTK-RAS 85 68 0.8000000
2: WNT 68 55 0.8088235
3: NOTCH 71 52 0.7323944
4: Hippo 38 30 0.7894737
5: PI3K 29 24 0.8275862
可以對(duì)上面富集的通路中選擇感興趣的進(jìn)行完成的突變展示:
PlotOncogenicPathways(maf = laml, pathways = "PI3K")
好了,以上就是使用maftools包對(duì)MAF格式的組學(xué)數(shù)據(jù)的匯總琐旁,分析辣之,可視化灾部。
后臺(tái)回復(fù)“maf文件”即可獲得示例的maf文件和代碼
【覺(jué)得不錯(cuò),右下角點(diǎn)擊賞個(gè)“在看”,轉(zhuǎn)發(fā)就是贊賞框沟,謝謝队丝!】