R包——Mutational Pattern

介紹

背景介紹

細(xì)胞的基因組不斷受到內(nèi)源性和環(huán)境性dna損傷的威脅食呻,例如紫外線和自發(fā)反應(yīng)亲轨。為了維護(hù)它們的基因組完整性醇坝,細(xì)胞利用各種機(jī)制修復(fù)受損的dna扰柠。無(wú)論是在復(fù)制之前不正確地修復(fù)還是未修復(fù),這些都會(huì)導(dǎo)致突變被整合到基因組中藐吮。每一個(gè)突變過(guò)程都會(huì)留下一個(gè)不同的基因組標(biāo)記溺拱。例如,紫外光優(yōu)先誘導(dǎo)cc>tt谣辞。二核苷酸替換迫摔,而5-甲基胞嘧啶的自發(fā)脫氨導(dǎo)致cpg位點(diǎn)的c>t取代,因此潦闲,突變模式可以用來(lái)推斷哪些變異攒菠。

在過(guò)去的幾年里,對(duì)不同人類癌癥類型的腫瘤基因組數(shù)據(jù)的大規(guī)模分析揭示了30種突變模式歉闰,這些所謂的“突變信號(hào)”的特征是堿基替代類型的特定貢獻(xiàn)。在一定的序列背景下卓起,每個(gè)突變特征被認(rèn)為反映了單一的突變機(jī)制和敬。然而,大多數(shù)突變特征的病因目前尚不清楚戏阅。為了在功能上將突變特征與生物過(guò)程聯(lián)系起來(lái)昼弟,評(píng)估這些突變特征在暴露于特定誘變劑或細(xì)胞的細(xì)胞中的貢獻(xiàn),Mutational Pattern的R包提供了一套易于使用的工具集奕筐,用于在腫瘤樣本或DNA修復(fù)缺陷細(xì)胞的堿基替換目錄中描述和可視化突變模式舱痘。軟件包涵蓋廣泛的模式变骡,包括:突變特征、轉(zhuǎn)錄鏈偏倚芭逝、基因組分布和與基因組特征的關(guān)聯(lián)塌碌,這對(duì)于研究突變過(guò)程的活動(dòng)具有共同的意義。重新提取突變特征旬盯,并推斷先前識(shí)別的突變特征的貢獻(xiàn)台妆。

方法介紹

該軟件包包涵:

(1)新突變特征的提取
(2)對(duì)用戶指定的突變特征的貢獻(xiàn)進(jìn)行了量化

雖然第一種方法可以用于識(shí)別新的突變特征,但這只是有意義的胖翰。對(duì)于具有大量突變譜樣本的數(shù)據(jù)集接剩,由于它依賴于非負(fù)矩陣分解的降維方法。第二種方法可以用來(lái)研究單個(gè)樣本中的突變過(guò)程萨咳,并通過(guò)評(píng)估它們?cè)诓煌到y(tǒng)或不同條件下的貢獻(xiàn)來(lái)進(jìn)一步表征先前識(shí)別的突變特征懊缺。用于探討其他類型的模式,如轉(zhuǎn)錄鏈不對(duì)稱培他、基因組分布以及與染色質(zhì)組織等(可公開(kāi)獲得的)注釋的關(guān)聯(lián)鹃两。這些特征對(duì)于識(shí)別活躍的突變誘導(dǎo)過(guò)程和參與特定的DNA修復(fù)途徑。例如靶壮,基因區(qū)域存在轉(zhuǎn)錄鏈偏差怔毛,這可能意味著活性。

任何一組基本替換調(diào)用都可以從VCF文件中導(dǎo)入腾降,基因組構(gòu)建一個(gè)突變矩陣拣度,計(jì)數(shù)所有96個(gè)可能的三核苷酸變化。此外螃壤,還包括轉(zhuǎn)錄鏈等其他特征抗果,形成192個(gè)特征計(jì)數(shù)矩陣(96個(gè)三核苷酸*2個(gè)鏈)。為此奸晴,可以從ucsc中檢索到的基因定義用于確定基因中的堿基替換是位于轉(zhuǎn)錄的鏈上還是位于未轉(zhuǎn)錄的鏈上冤馏。

下載安裝

下載地址: https://github.com/CuppenResearch/MutationalPatterns

數(shù)據(jù)

要執(zhí)行突變模式分析,需要加載一個(gè)或多個(gè)vcf文件寄啼,其中包含單核苷酸變異調(diào)用和相應(yīng)的參考基因組逮光。

列出參考基因組

 library(BSgenome)
 head(available.genomes())
[1] "BSgenome.Alyrata.JGI.v1" "BSgenome.Amellifera.BeeBase.assembly4"
[3] "BSgenome.Amellifera.UCSC.apiMel2" "BSgenome.Amellifera.UCSC.apiMel2.masked"
[5] "BSgenome.Athaliana.TAIR.04232008" "BSgenome.Athaliana.TAIR.TAIR9"

#Download and load your reference genome of interest
ref_genome <- "BSgenome.Hsapiens.UCSC.hg19"
library(ref_genome, character.only = TRUE)

加載樣本數(shù)據(jù)

library(MutationalPatterns)
vcf_files <- list.files(path="./data",pattern = ".samtools.snp.reformated.vcf", full.names = TRUE)
sample_names <- c( "YDY019_OA","YDY019_PC","YDY022_OA","YDY022_PC","YDY069_OA","YDY069_PC","YDY106_OA", "YDY106_PC","YDY124_OA","YDY124_PC","YDY125_OA","YDY125_PC")
vcfs <- read_vcfs_as_granges(vcf_files, sample_names, ref_genome)

#定義樣本上的相關(guān)元數(shù)據(jù)
tissue <- c("YDY019_OA","YDY019_PC","YDY022_OA","YDY022_PC","YDY069_OA","YDY069_PC","YDY106_OA", "YDY106_PC","YDY124_OA","YDY124_PC","YDY125_OA","YDY125_PC")

畫圖

突變譜顯示了堿基替換目錄中每個(gè)突變類型的相對(duì)貢獻(xiàn)。圖的譜函數(shù)繪制了6個(gè)堿基替換類型中的每一個(gè)在所有樣品上的平均相對(duì)貢獻(xiàn)墩划。誤差條表示所有樣品的標(biāo)準(zhǔn)偏差涕刚。指示突變的總數(shù)

type_occurrences <- mut_type_occurrences(vcfs, ref_genome)

p1 <- plot_spectrum(type_occurrences)
p2 <- plot_spectrum(type_occurrences, CT = TRUE)
p3 <- plot_spectrum(type_occurrences, CT = TRUE, legend = FALSE)
library("gridExtra")
grid.arrange(p1, p2, p3, ncol=3, widths=c(3,3,1.75))

劃分每個(gè)樣本組,例如分別繪制每個(gè)組織的光譜

p4 <- plot _ spectrum(type _ occurrences, by = tissue, CT = TRUE, legend = TRUE)
#自定義顏色 
palette <- c("pink", "orange", "blue", "lightblue", "green", "red", "purple")
p5 <- plot _ spectrum(type _ occurrences, CT=TRUE, legend=TRUE, colors=palette)
grid.arrange(p4, p5, ncol=2, widths=c(4,2.3))

Mutational signatures

Mutational signatures突變特征被認(rèn)為代表了突變過(guò)程乙帮,其特征是96種堿基替換類型對(duì)某一序列的特定貢獻(xiàn)杜漠。突變特征可以從你的突變計(jì)數(shù)矩陣中提取出來(lái),并使用非負(fù)矩陣因式分解(Nmf)。nmf中的一個(gè)關(guān)鍵參數(shù)是因式分解秩驾茴,即突變特征的數(shù)量盼樟。使用nmf包確定最優(yōu)的因式分解等級(jí)。

mut_mat <- mut_mat + 0.0001
estimate <- nmf(mut_mat, rank=2:5, method="brunet", nrun=10, seed=123456)
plot(estimate)

使用extract _ signatures從具有ExtractSignals的突變計(jì)數(shù)矩陣中提取2個(gè)突變特征

#rank值指定特征數(shù)量
#對(duì)于較大的數(shù)據(jù)集锈至,通過(guò)更改nrun參數(shù)以實(shí)現(xiàn)穩(wěn)定性和避免局部極小值來(lái)執(zhí)行更多的迭代是明智的
nmf_res <- extract_signatures(mut_mat, rank = 2, nrun = 10)
colnames(nmf_res$signatures) <- c("Signature A", "Signature B")
rownames(nmf_res$contribution) <- c("Signature A", "Signature B")
plot_96_profile(nmf_res$signatures, condensed = TRUE)
pc1 <- plot_contribution(nmf_res$contribution, nmf_res$signature,mode = "relative")
pc2 <- plot_contribution(nmf_res$contribution, nmf_res$signature,mode = "absolute")
grid.arrange(pc1, pc2)

#X和Y軸翻轉(zhuǎn)
plot_contribution(nmf_res$contribution, nmf_res$signature,mode = "absolute", coord_flip = TRUE)

每個(gè)樣本的每一個(gè)特征的相對(duì)貢獻(xiàn)也可以被繪制為一個(gè)熱圖晨缴,它可能比堆疊的樹(shù)刺圖更容易解釋和比較。這些樣本可以根據(jù)它們的歐幾里得dis-tance進(jìn)行分層聚類裹赴。這些特征可以按照用戶指定的順序繪制喜庞。

#將特征貢獻(xiàn)繪制為具有樣本聚類樹(shù)狀圖和指定特征順序的熱圖
pch1 <-plot_contribution_heatmap(nmf_res$contribution,sig_order = c("Signature B", "Signature A"))
pch2 <- plot_contribution_heatmap(nmf_res$contribution, cluster_samples=FALSE)
grid.arrange(pch1, pch2, ncol = 2, widths = c(2,1.6))

將重構(gòu)的突變剖面與原始突變剖面進(jìn)行比較

plot_compare_profiles(mut_mat[,1],nmf_res$reconstructed[,1],profile_names = c("Original", "Reconstructed"),condensed = TRUE)

根據(jù)COSMIC特征與平均鏈接的相似性對(duì)COSMIC特征進(jìn)行分級(jí)聚類

sp_url <- paste("http://cancer.sanger.ac.uk/cancergenome/assets/","signatures_probabilities.txt", sep = "")
cancer_signatures = read.table(sp_url, sep = "\t", header = TRUE)
#將突變類型的順序與變異模式標(biāo)準(zhǔn)相匹配
new_order = match(row.names(mut_mat), cancer_signatures$Somatic.Mutation.Type)
# Reorder cancer signatures dataframe
cancer_signatures = cancer_signatures[as.vector(new_order),]
# Add trinucletiode changes names as row.names
row.names(cancer_signatures) = cancer_signatures$Somatic.Mutation.Type
# Keep only 96 contributions of the signatures in matrix
cancer_signatures = as.matrix(cancer_signatures[,4:33])
hclust_cosmic = cluster_signatures(cancer_signatures, method = "average")
# store signatures in new order
cosmic_order = colnames(cancer_signatures)[hclust_cosmic$order]
plot(hclust_cosmic)

計(jì)算突變剖面與 COSMIC特征之間的成對(duì)余弦相似性

cos_sim_samples_signatures = cos_sim_matrix(mut_mat, cancer_signatures)
# Plot heatmap with specified signature order
plot_cosine_heatmap(cos_sim_samples_signatures,col_order = cosmic_order,cluster_rows = TRUE)

除了重新提取特征外,還可以量化任何一組特征對(duì)樣本突變輪廓的貢獻(xiàn)棋返。這種獨(dú)特的特性特別適用于小群體或單個(gè)樣本的突變特征分析延都,但也可以將自己的發(fā)現(xiàn)與已知的簽名和已發(fā)表的發(fā)現(xiàn)聯(lián)系起來(lái)。FIT_to_Signals函數(shù)可以找到突變簽名的最佳線性組合睛竣,這是大多數(shù)突變簽名的最佳線性組合晰房。通過(guò)求解一個(gè)非負(fù)最小二乘約束問(wèn)題來(lái)構(gòu)造變異矩陣。

fit_res <-fit_to_signatures(mut_mat, cancer_signatures)

# Select signatures with some contribution
select <- which(rowSums(fit_res$contribution) > 10)
# Plot contribution barplot
plot_contribution(fit_res$contribution[select,],cancer_signatures[,select],coord_flip = FALSE,mode = "absolute")

用樣本聚類繪制樣本中癌癥特征的相對(duì)貢獻(xiàn)圖

plot_contribution_heatmap(fit_res$contribution,cluster_samples = TRUE,method = "complete")

參考

http://bioconductor.org/packages/release/bioc/vignettes/MutationalPatterns/inst/doc/Introduction_to_MutationalPatterns.pdf
https://www.biorxiv.org/content/biorxiv/early/2016/08/30/071761.full.pdf

轉(zhuǎn)載請(qǐng)注明出處
簡(jiǎn)書(shū)作者:ODDXIX

微信公眾號(hào):oddxix

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末射沟,一起剝皮案震驚了整個(gè)濱河市殊者,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌验夯,老刑警劉巖猖吴,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異挥转,居然都是意外死亡海蔽,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門绑谣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)党窜,“玉大人,你說(shuō)我怎么就攤上這事借宵』弦拢” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵壤玫,是天一觀的道長(zhǎng)豁护。 經(jīng)常有香客問(wèn)我,道長(zhǎng)欲间,這世上最難降的妖魔是什么择镇? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮括改,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己嘱能,他們只是感情好吝梅,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著惹骂,像睡著了一般苏携。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上对粪,一...
    開(kāi)封第一講書(shū)人閱讀 52,441評(píng)論 1 310
  • 那天右冻,我揣著相機(jī)與錄音,去河邊找鬼著拭。 笑死纱扭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的儡遮。 我是一名探鬼主播乳蛾,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鄙币!你這毒婦竟也來(lái)了肃叶?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤十嘿,失蹤者是張志新(化名)和其女友劉穎因惭,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體绩衷,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蹦魔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了唇聘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片版姑。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖迟郎,靈堂內(nèi)的尸體忽然破棺而出剥险,到底是詐尸還是另有隱情,我是刑警寧澤宪肖,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布表制,位于F島的核電站,受9級(jí)特大地震影響控乾,放射性物質(zhì)發(fā)生泄漏么介。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一蜕衡、第九天 我趴在偏房一處隱蔽的房頂上張望壤短。 院中可真熱鬧,春花似錦、人聲如沸久脯。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)帘撰。三九已至跑慕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間摧找,已是汗流浹背核行。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蹬耘,地道東北人芝雪。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像婆赠,于是被迫代替她去往敵國(guó)和親绵脯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子休里,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 8種特殊建庫(kù)測(cè)序 8種特殊建庫(kù)測(cè)序 1. RNA-seq 2. 外顯子測(cè)序 3. small RNA-seq 4....
    wangchuang2017閱讀 13,176評(píng)論 2 92
  • 非常優(yōu)秀的研究總結(jié)可免,值得學(xué)習(xí)領(lǐng)會(huì)和思考浇借。因?yàn)樽謹(jǐn)?shù)太多,可以去作者的博文地址http://www.huangshuj...
    王詩(shī)翔閱讀 4,195評(píng)論 1 24
  • 花香似妻美笑顏,傾城傾國(guó)瑞繁景涨薪。 春華怡果熟將臨献丑,一生愛(ài)你聚真情阳距。
    春城怡景閱讀 268評(píng)論 0 2
  • 洗澡總是我靈感迸發(fā)的時(shí)刻… 今天突然想到一個(gè)詞:職業(yè)交易手, 我想成為這樣的人
    文露婷閱讀 273評(píng)論 0 0
  • 國(guó)慶完成了幾張少女(狐貍)懷春圖插畫手繪 除第一張外郭赐,其他均為原創(chuàng) 1 和心上人一起看日出 圖修改自權(quán)游插畫 2 ...
    蘅春水生閱讀 302評(píng)論 3 6