Genome-wide DNA methylation profiling and identification of potential pan-cancer and tumor-specific biomarkers
全基因組DNA甲基化分析和潛在的泛癌癥和腫瘤特異性生物標(biāo)志物的鑒定
發(fā)表期刊:Mol Oncol
發(fā)表日期:2022 Jan 2
DOI:? 10.1002/1878-0261.13176
一、背景
????????癌癥是全世界第二大死因,乳腺癌、前列腺癌、肺癌淤堵、結(jié)腸直腸癌和胃癌是最常見的病因。異常的DNA甲基化被認(rèn)為是癌癥發(fā)展的一個(gè)標(biāo)志顷扩,異常的 DNA 甲基化被認(rèn)為是癌癥發(fā)展的標(biāo)志拐邪,并且已觀察到整體低甲基化和位點(diǎn)特異性高甲基化。
????????鑒于DNA甲基化在癌癥中起著關(guān)鍵作用隘截,一些研究概述了使用甲基化的DNA位點(diǎn)作為癌癥檢測(cè)標(biāo)記庙睡,主要集中在基因啟動(dòng)子標(biāo)記或單個(gè)CpG標(biāo)記上。盡管已經(jīng)確定了幾個(gè)這樣的甲基化生物標(biāo)志物技俐,但其中只有少數(shù)被用于臨床乘陪。這些檢測(cè)方法仍然受到不同癌癥階段性能不一致的困擾,而且在檢測(cè)殘余疾病方面存在不足雕擂。
二啡邑、材料與方法
1.數(shù)據(jù)來源
1)DNA甲基化數(shù)據(jù)集是從TCGA下載的,選擇了腫瘤與正常樣本比例為10%或至少有10個(gè)腫瘤與正常樣本對(duì)的數(shù)據(jù)集井赌,總共有14種不同的腫瘤類型的數(shù)據(jù)集被用于分析:包括6502個(gè)樣本:5783個(gè)病例和719個(gè)對(duì)照
2)為了進(jìn)行獨(dú)立的外部驗(yàn)證谤逼,從GEO數(shù)據(jù)庫下載了10個(gè)額外的Illumina450K甲基化數(shù)據(jù)集贵扰,匯總成一個(gè)更大的數(shù)據(jù)集,包括8種不同類型的332個(gè)正常樣本和1263個(gè)腫瘤樣本流部,以代表泛癌癥驗(yàn)證集戚绕。
2.實(shí)驗(yàn)流程
1)甲基化數(shù)據(jù)的預(yù)處理
2)差異性甲基化分析:差異甲基化分析主要使用champ軟件包,排除了25%以上探針數(shù)據(jù)缺失的樣本枝冀,過濾了其余有缺失值的探針舞丛,β值小于0的設(shè)為0,大于1的設(shè)為1果漾;差異甲基化區(qū)域(DMRs)和差異甲基化區(qū)塊(DMBs)是基因組的擴(kuò)展區(qū)域球切,在兩組之間表現(xiàn)出可量化的甲基化差異,使用ChAMP中Bumphunter算法的實(shí)施擴(kuò)展來識(shí)別绒障,最小尺寸分別為50和500bp
3)泛癌癥生物標(biāo)志物鑒定:在對(duì)單個(gè)癌癥數(shù)據(jù)集進(jìn)行全基因組預(yù)篩選以確定腫瘤和正常樣本之間甲基化差異最大的位點(diǎn)后吨凑,選擇了所有14種類型共同的、對(duì)數(shù)|ΔβFC|≥2的DMPs用于后續(xù)分類器模型的建立户辱;擬合二元邏輯回歸模型來預(yù)測(cè)組織類型
4)特定類型的生物標(biāo)志物鑒定:采用了1對(duì)1的方法來識(shí)別14種腫瘤類型中的1種和其他13種合并的差異甲基化探針鸵钝,使用的是包含14種腫瘤類型的5783個(gè)病例的集合數(shù)據(jù)集;使用多類矩陣交叉的方法(類似于維恩圖)來識(shí)別每個(gè)腫瘤類型特有的DMPs庐镐,這些DMPs將作為模型預(yù)測(cè)因子恩商,然后進(jìn)行篩選
三、實(shí)驗(yàn)結(jié)果
01 - 不同腫瘤類型的差異DNA甲基化的模式
????????大多數(shù)腫瘤類型在正常和癌癥樣本中都表現(xiàn)出總體上的雙峰β值密度分布焚鹊,低端密度略高。食道癌顯示兩組的β值都在中間范圍內(nèi)鞏固,而胰腺癌幾乎只在β值的低端范圍內(nèi)鞏固(圖1A)。為了在不同的腫瘤之間進(jìn)行可擴(kuò)展的比較出刷,DMP計(jì)數(shù)報(bào)告為基于每個(gè)類別中分析的 CpGs 探針總數(shù)的標(biāo)準(zhǔn)化比例棱诱。差異甲基化在不同的腫瘤類型中明顯不同;平均而言翠桦,在不同的腫瘤類型中觀察到55%的差異甲基化,其中30%的低甲基化和25%的高甲基化(圖1B)。食道癌探橱、胰腺癌和甲狀腺癌的差異甲基化比例最低,約為22%绘证,而腎癌隧膏、肺癌和前列腺癌的比例最高,為70%或更高嚷那。肝癌胞枕、肺鱗癌和腎癌的低甲基化程度最高,約為40-48%魏宽,而甲狀腺癌腐泻、食道癌和胰腺癌的低甲基化程度最小决乎,約為10-15%。相反派桩,乳腺癌构诚、肺鱗癌和腎癌的高甲基化比例最高,為35-39%铆惑,而膀胱癌范嘱、食道癌和胰腺癌的高甲基化比例最低,為9-15%鸭津。有趣的是彤侍,在乳腺癌中,差異甲基化在高甲基化和低甲基化之間幾乎平均分配(圖1B)逆趋。在DMPs的數(shù)量和數(shù)據(jù)集的樣本數(shù)量之間沒有觀察到明顯的相關(guān)性盏阶。整個(gè)腫瘤類型的DMPs平均被映射到17000個(gè)獨(dú)特的基因上,每個(gè)基因有四個(gè)DMPs是最常見的闻书,每個(gè)基因平均有八個(gè)DMPs名斟。平均來說,35%的DMPs位于基因體魄眉,24%位于IGR砰盐,13%位于TSS1500,10%位于TSS200坑律,9%位于5′UTR岩梳,4%位于3′UTR和第一外顯子(圖1C)。關(guān)于DMP與CpG島的關(guān)系分布晃择,最大比例的DMP映射到開放海區(qū)冀值,平均37%,其次是CpG島宫屠,平均31%列疗。北部和南部海岸分別平均包含13%和10%的DMP,而北部和南部大陸架包含的DMP平均比例最低浪蹂,分別為5%和4%(圖1D)抵栈。
????????在不同的腫瘤類型中還發(fā)現(xiàn)了總共15260個(gè)DMRs,每個(gè)類型平均有1090個(gè)DMRs坤次。DMRs是基因組的擴(kuò)展片段(約10 bp - kb)古劲,在不同的生物樣本中顯示出DNA甲基化水平的定量改變。與DMPs類似缰猴,腎癌的DMRs最多绢慢,為2505個(gè),而食道癌最少,為349個(gè)胰舆。DMRs的平均大小為750bp骚露,平均包含12個(gè)CpG探針。每條染色體平均有726個(gè)DMRs缚窿,其中6號(hào)染色體最多棘幸,平均有1962個(gè),21號(hào)染色體最少倦零,平均有81個(gè)误续。DMRs在各腫瘤類型中的基因組分布總體上相似。6號(hào)染色體上的一段高DMR密度似乎存在于所有的腫瘤類型中扫茅,在3蹋嵌、11、17和19號(hào)染色體上可以看到類似的甲基化區(qū)域葫隙。令人注意的是栽烂,在任何一種癌癥類型的9號(hào)染色體上都沒有發(fā)現(xiàn)DMRs(圖3)。在不同的腫瘤中共發(fā)現(xiàn)了29481個(gè)DMBs恋脚。
????????另一方面腺办,DMBs是大規(guī)模的基因組區(qū)域(10 Kb-1 Mb),包含數(shù)百個(gè)基因間(開放海區(qū))差異甲基化的CpGs糟描。每個(gè)腫瘤平均有1785個(gè)DMBs被鑒定出來怀喉,在腎臟腎乳頭瘤中觀察到最多的是2543個(gè)DMBs,在肝癌中觀察到最少的是1020個(gè)DMBs船响。由于比DMRs大躬拢,且含有更多的CpG探針,所鑒定的DMBs長(zhǎng)度為750Kb见间,平均含有200個(gè)探針聊闯。每條染色體平均可以映射出1135個(gè)DMBs,其中2號(hào)染色體和18號(hào)染色體的DMBs數(shù)量分別最高和最低缤剧。從DMBs的基因組分布來看馅袁,它們似乎在各種癌癥中表現(xiàn)出普遍的特征域慷,這可以在1荒辕、8、9犹褒、18抵窒、19、21和22號(hào)染色體上清楚地觀察到(圖S3)叠骑。
02 - 甲基化作為泛癌檢測(cè)生物標(biāo)志物
????????經(jīng)過過濾步驟(圖2)李皇,作者確定了28個(gè)泛癌DMPs,與所有癌癥類型的正常人相比,這些DMPs在腫瘤樣本中被高甲基化掉房。其中12個(gè)可以被映射到12個(gè)不同的基因上茧跋,20個(gè)DMPs位于CpG島區(qū)域,3個(gè)位于海岸區(qū)域卓囚,3個(gè)位于開放區(qū)域瘾杭,2個(gè)位于架子區(qū)域。
????????然后用二元邏輯回歸來測(cè)試28個(gè)探針的組合哪亿,這些組合在對(duì)樣本進(jìn)行泛癌分類時(shí)效果最好粥烁。邏輯回歸分類器模型是用1-4個(gè)探針的組合建立的,并在GEO數(shù)據(jù)集中進(jìn)行了外部驗(yàn)證蝇棉√肿瑁總共測(cè)試了24157個(gè)預(yù)測(cè)器組合,其中20475個(gè)由4個(gè)探針組成(圖S4)篡殷。僅使用單個(gè)探針的平均曲線下面積(AUC)為0.84(圖S4A)钝吮,使用四個(gè)探針組合的平均曲線下面積上升到0.92(圖S4D),1個(gè)和4個(gè)預(yù)測(cè)器組合的平均誤分類誤差分別為0.11和0.09贴唇。這些模型在驗(yàn)證數(shù)據(jù)集中表現(xiàn)良好搀绣,單個(gè)預(yù)測(cè)因子的平均外部AUC為0.89,四個(gè)預(yù)測(cè)因子為0.95(圖S4A,D)戳气。最終的模型是根據(jù)最高的AUC和最低的錯(cuò)誤分類誤差以及這些測(cè)量中最小的標(biāo)準(zhǔn)偏差選擇的链患。
????????最終的模型包括四個(gè)探針,在發(fā)現(xiàn)集達(dá)到交叉驗(yàn)證的AUC為0.95瓶您,在驗(yàn)證集達(dá)到AUC為0.96麻捻。誤分類錯(cuò)誤率為0.06,而敏感性和特異性為90%呀袱,總體準(zhǔn)確性為92%贸毕。在驗(yàn)證數(shù)據(jù)集中也取得了相當(dāng)?shù)男阅埽▓D4)。無法測(cè)出臨床癌癥階段或年齡對(duì)組織類型預(yù)測(cè)的明顯影響夜赵。階段性的最終分層模型在所有四個(gè)階段中產(chǎn)生了某種程度上的統(tǒng)一預(yù)測(cè)結(jié)果明棍,AUC高于0.90。正如預(yù)期的那樣寇僧,I期表現(xiàn)出最低的指標(biāo)摊腋,敏感性和特異性分別為85%和91%,而最準(zhǔn)確的預(yù)測(cè)結(jié)果出現(xiàn)在IV期嘁傀,敏感性和特異性分別為97%和90%(圖4)兴蒸。
03 - 甲基化作為特定類型的檢測(cè)生物標(biāo)志物
????????將類似的過濾步驟應(yīng)用于單對(duì)單的差異性甲基化分析后细办,結(jié)直腸癌記錄的特定類型DMP數(shù)量最多橙凳,為5181個(gè),其次是甲狀腺癌,為4666個(gè)岛啸。食道癌和肺鱗癌的類型特異性DMP數(shù)量最少钓觉,分別為13和12個(gè)DMP(圖S2)s。在對(duì)相關(guān)預(yù)測(cè)因子進(jìn)行特征選擇后坚踩,還剩下586個(gè)探針议谷,大約是初始特征集的3%。隨后堕虹,冗余過濾聚類步驟產(chǎn)生了20個(gè)CpG預(yù)測(cè)因子卧晓,從10個(gè)產(chǎn)生的特征聚類中各選2個(gè)。由這20個(gè)預(yù)測(cè)因子中的6個(gè)組成的組合被用來建立分類器模型赴捞;這是基于初步數(shù)據(jù)顯示最高的平均AUC逼裆,預(yù)測(cè)因子的數(shù)量最少,測(cè)試的組合總數(shù)最實(shí)用赦政。使用PLSDA算法胜宇,利用14種類型的腫瘤集合數(shù)據(jù)集,共測(cè)試了38 760個(gè)組合恢着。對(duì)14種腫瘤類型進(jìn)行分類的平均交叉驗(yàn)證AUC為0.85桐愉。大多數(shù)測(cè)試組合在分類癌癥類型方面表現(xiàn)良好,甲狀腺掰派、尿道从诲、前列腺、腎臟靡羡、結(jié)腸直腸系洛、肝臟和頭頸部癌癥的局部AUC平均值高于0.90。胰腺癌略步、肺癌描扯、食道癌、乳腺癌和膀胱癌的平均AUC較低趟薄,但其局部AUC最大值都在0.80以上绽诚。事實(shí)上,只有食道癌的最大檢測(cè)AUC低于0.90杭煎,為0.87恩够,是研究的14種類型中最難辨別的。肝癌岔帽、前列腺癌玫鸟、子宮癌和甲狀腺癌的鑒別能力最高导绷,AUC為0.99犀勒,而結(jié)直腸癌的AUC為0.98。綜合的最終模型包括20個(gè)獨(dú)特的CpG探針,在分類腫瘤類型方面表現(xiàn)非常好贾费,與6個(gè)探針組合的單個(gè)模型相比钦购,指標(biāo)有明顯的提高,特別是特異性(圖5)褂萧。該模型在現(xiàn)有癌癥類型的驗(yàn)證集中表現(xiàn)同樣出色(圖6)押桃。甲狀腺、子宮导犹、前列腺唱凯、肝臟和結(jié)直腸腫瘤可以以近乎完美的靈敏度被識(shí)別。在研究的14種癌癥類型中谎痢,有12種可以以高于90%的敏感度和特異度進(jìn)行鑒別磕昼。只有食道癌和肺鱗狀細(xì)胞癌的特異性分別為80%和87%(圖5)。
四票从、結(jié)論
????????研究使用癌癥基因組圖譜研究了14種不同癌癥類型的全基因組甲基化譜,鑒定并驗(yàn)證了四種候選泛癌甲基化CpG生物標(biāo)志物和20種候選癌癥類型特異性標(biāo)志物的組合滨嘱。這突出了甲基組作為生物標(biāo)志物的豐富來源峰鄙,可用于新的微創(chuàng)癌癥檢測(cè)測(cè)定。