公共數(shù)據(jù)庫+泛癌分析自晰,全基因組DNA甲基化相關(guān)也能輕松6分+

Genome-wide DNA methylation profiling and identification of potential pan-cancer and tumor-specific biomarkers

全基因組DNA甲基化分析和潛在的泛癌癥和腫瘤特異性生物標(biāo)志物的鑒定

發(fā)表期刊:Mol Oncol

發(fā)表日期:2022 Jan 2

DOI:? 10.1002/1878-0261.13176

期刊相關(guān)信息

一、背景

????????癌癥是全世界第二大死因,乳腺癌、前列腺癌、肺癌淤堵、結(jié)腸直腸癌和胃癌是最常見的病因。異常的DNA甲基化被認(rèn)為是癌癥發(fā)展的一個(gè)標(biāo)志顷扩,異常的 DNA 甲基化被認(rèn)為是癌癥發(fā)展的標(biāo)志拐邪,并且已觀察到整體低甲基化和位點(diǎn)特異性高甲基化。

????????鑒于DNA甲基化在癌癥中起著關(guān)鍵作用隘截,一些研究概述了使用甲基化的DNA位點(diǎn)作為癌癥檢測(cè)標(biāo)記庙睡,主要集中在基因啟動(dòng)子標(biāo)記或單個(gè)CpG標(biāo)記上。盡管已經(jīng)確定了幾個(gè)這樣的甲基化生物標(biāo)志物技俐,但其中只有少數(shù)被用于臨床乘陪。這些檢測(cè)方法仍然受到不同癌癥階段性能不一致的困擾,而且在檢測(cè)殘余疾病方面存在不足雕擂。

二啡邑、材料與方法

1.數(shù)據(jù)來源

1)DNA甲基化數(shù)據(jù)集是從TCGA下載的,選擇了腫瘤與正常樣本比例為10%或至少有10個(gè)腫瘤與正常樣本對(duì)的數(shù)據(jù)集井赌,總共有14種不同的腫瘤類型的數(shù)據(jù)集被用于分析:包括6502個(gè)樣本:5783個(gè)病例和719個(gè)對(duì)照

2)為了進(jìn)行獨(dú)立的外部驗(yàn)證谤逼,從GEO數(shù)據(jù)庫下載了10個(gè)額外的Illumina450K甲基化數(shù)據(jù)集贵扰,匯總成一個(gè)更大的數(shù)據(jù)集,包括8種不同類型的332個(gè)正常樣本和1263個(gè)腫瘤樣本流部,以代表泛癌癥驗(yàn)證集戚绕。

2.實(shí)驗(yàn)流程

1)甲基化數(shù)據(jù)的預(yù)處理

2)差異性甲基化分析:差異甲基化分析主要使用champ軟件包,排除了25%以上探針數(shù)據(jù)缺失的樣本枝冀,過濾了其余有缺失值的探針舞丛,β值小于0的設(shè)為0,大于1的設(shè)為1果漾;差異甲基化區(qū)域(DMRs)和差異甲基化區(qū)塊(DMBs)是基因組的擴(kuò)展區(qū)域球切,在兩組之間表現(xiàn)出可量化的甲基化差異,使用ChAMP中Bumphunter算法的實(shí)施擴(kuò)展來識(shí)別绒障,最小尺寸分別為50和500bp

3)泛癌癥生物標(biāo)志物鑒定:在對(duì)單個(gè)癌癥數(shù)據(jù)集進(jìn)行全基因組預(yù)篩選以確定腫瘤和正常樣本之間甲基化差異最大的位點(diǎn)后吨凑,選擇了所有14種類型共同的、對(duì)數(shù)|ΔβFC|≥2的DMPs用于后續(xù)分類器模型的建立户辱;擬合二元邏輯回歸模型來預(yù)測(cè)組織類型

4)特定類型的生物標(biāo)志物鑒定:采用了1對(duì)1的方法來識(shí)別14種腫瘤類型中的1種和其他13種合并的差異甲基化探針鸵钝,使用的是包含14種腫瘤類型的5783個(gè)病例的集合數(shù)據(jù)集;使用多類矩陣交叉的方法(類似于維恩圖)來識(shí)別每個(gè)腫瘤類型特有的DMPs庐镐,這些DMPs將作為模型預(yù)測(cè)因子恩商,然后進(jìn)行篩選

三、實(shí)驗(yàn)結(jié)果

01 - 不同腫瘤類型的差異DNA甲基化的模式

????????大多數(shù)腫瘤類型在正常和癌癥樣本中都表現(xiàn)出總體上的雙峰β值密度分布焚鹊,低端密度略高。食道癌顯示兩組的β值都在中間范圍內(nèi)鞏固,而胰腺癌幾乎只在β值的低端范圍內(nèi)鞏固(圖1A)。為了在不同的腫瘤之間進(jìn)行可擴(kuò)展的比較出刷,DMP計(jì)數(shù)報(bào)告為基于每個(gè)類別中分析的 CpGs 探針總數(shù)的標(biāo)準(zhǔn)化比例棱诱。差異甲基化在不同的腫瘤類型中明顯不同;平均而言翠桦,在不同的腫瘤類型中觀察到55%的差異甲基化,其中30%的低甲基化和25%的高甲基化(圖1B)。食道癌探橱、胰腺癌和甲狀腺癌的差異甲基化比例最低,約為22%绘证,而腎癌隧膏、肺癌和前列腺癌的比例最高,為70%或更高嚷那。肝癌胞枕、肺鱗癌和腎癌的低甲基化程度最高,約為40-48%魏宽,而甲狀腺癌腐泻、食道癌和胰腺癌的低甲基化程度最小决乎,約為10-15%。相反派桩,乳腺癌构诚、肺鱗癌和腎癌的高甲基化比例最高,為35-39%铆惑,而膀胱癌范嘱、食道癌和胰腺癌的高甲基化比例最低,為9-15%鸭津。有趣的是彤侍,在乳腺癌中,差異甲基化在高甲基化和低甲基化之間幾乎平均分配(圖1B)逆趋。在DMPs的數(shù)量和數(shù)據(jù)集的樣本數(shù)量之間沒有觀察到明顯的相關(guān)性盏阶。整個(gè)腫瘤類型的DMPs平均被映射到17000個(gè)獨(dú)特的基因上,每個(gè)基因有四個(gè)DMPs是最常見的闻书,每個(gè)基因平均有八個(gè)DMPs名斟。平均來說,35%的DMPs位于基因體魄眉,24%位于IGR砰盐,13%位于TSS1500,10%位于TSS200坑律,9%位于5′UTR岩梳,4%位于3′UTR和第一外顯子(圖1C)。關(guān)于DMP與CpG島的關(guān)系分布晃择,最大比例的DMP映射到開放海區(qū)冀值,平均37%,其次是CpG島宫屠,平均31%列疗。北部和南部海岸分別平均包含13%和10%的DMP,而北部和南部大陸架包含的DMP平均比例最低浪蹂,分別為5%和4%(圖1D)抵栈。

圖1 不同癌癥類型的差異化甲基化分析結(jié)果概述

????????在不同的腫瘤類型中還發(fā)現(xiàn)了總共15260個(gè)DMRs,每個(gè)類型平均有1090個(gè)DMRs坤次。DMRs是基因組的擴(kuò)展片段(約10 bp - kb)古劲,在不同的生物樣本中顯示出DNA甲基化水平的定量改變。與DMPs類似缰猴,腎癌的DMRs最多绢慢,為2505個(gè),而食道癌最少,為349個(gè)胰舆。DMRs的平均大小為750bp骚露,平均包含12個(gè)CpG探針。每條染色體平均有726個(gè)DMRs缚窿,其中6號(hào)染色體最多棘幸,平均有1962個(gè),21號(hào)染色體最少倦零,平均有81個(gè)误续。DMRs在各腫瘤類型中的基因組分布總體上相似。6號(hào)染色體上的一段高DMR密度似乎存在于所有的腫瘤類型中扫茅,在3蹋嵌、11、17和19號(hào)染色體上可以看到類似的甲基化區(qū)域葫隙。令人注意的是栽烂,在任何一種癌癥類型的9號(hào)染色體上都沒有發(fā)現(xiàn)DMRs(圖3)。在不同的腫瘤中共發(fā)現(xiàn)了29481個(gè)DMBs恋脚。

圖3 勾勒出不同癌癥類型甲基化區(qū)域的基因組分布的密度圖

????????另一方面腺办,DMBs是大規(guī)模的基因組區(qū)域(10 Kb-1 Mb),包含數(shù)百個(gè)基因間(開放海區(qū))差異甲基化的CpGs糟描。每個(gè)腫瘤平均有1785個(gè)DMBs被鑒定出來怀喉,在腎臟腎乳頭瘤中觀察到最多的是2543個(gè)DMBs,在肝癌中觀察到最少的是1020個(gè)DMBs船响。由于比DMRs大躬拢,且含有更多的CpG探針,所鑒定的DMBs長(zhǎng)度為750Kb见间,平均含有200個(gè)探針聊闯。每條染色體平均可以映射出1135個(gè)DMBs,其中2號(hào)染色體和18號(hào)染色體的DMBs數(shù)量分別最高和最低缤剧。從DMBs的基因組分布來看馅袁,它們似乎在各種癌癥中表現(xiàn)出普遍的特征域慷,這可以在1荒辕、8、9犹褒、18抵窒、19、21和22號(hào)染色體上清楚地觀察到(圖S3)叠骑。

圖S3 密度圖概述了不同癌癥類型的差異甲基化區(qū)塊(DMBs)的基因組分布

02 - 甲基化作為泛癌檢測(cè)生物標(biāo)志物

????????經(jīng)過過濾步驟(圖2)李皇,作者確定了28個(gè)泛癌DMPs,與所有癌癥類型的正常人相比,這些DMPs在腫瘤樣本中被高甲基化掉房。其中12個(gè)可以被映射到12個(gè)不同的基因上茧跋,20個(gè)DMPs位于CpG島區(qū)域,3個(gè)位于海岸區(qū)域卓囚,3個(gè)位于開放區(qū)域瘾杭,2個(gè)位于架子區(qū)域。

圖2 概述生物標(biāo)志物識(shí)別方法的示意圖

????????然后用二元邏輯回歸來測(cè)試28個(gè)探針的組合哪亿,這些組合在對(duì)樣本進(jìn)行泛癌分類時(shí)效果最好粥烁。邏輯回歸分類器模型是用1-4個(gè)探針的組合建立的,并在GEO數(shù)據(jù)集中進(jìn)行了外部驗(yàn)證蝇棉√肿瑁總共測(cè)試了24157個(gè)預(yù)測(cè)器組合,其中20475個(gè)由4個(gè)探針組成(圖S4)篡殷。僅使用單個(gè)探針的平均曲線下面積(AUC)為0.84(圖S4A)钝吮,使用四個(gè)探針組合的平均曲線下面積上升到0.92(圖S4D),1個(gè)和4個(gè)預(yù)測(cè)器組合的平均誤分類誤差分別為0.11和0.09贴唇。這些模型在驗(yàn)證數(shù)據(jù)集中表現(xiàn)良好搀绣,單個(gè)預(yù)測(cè)因子的平均外部AUC為0.89,四個(gè)預(yù)測(cè)因子為0.95(圖S4A,D)戳气。最終的模型是根據(jù)最高的AUC和最低的錯(cuò)誤分類誤差以及這些測(cè)量中最小的標(biāo)準(zhǔn)偏差選擇的链患。

圖S4 所有測(cè)試的預(yù)測(cè)器組合的泛癌模型指標(biāo)概覽

????????最終的模型包括四個(gè)探針,在發(fā)現(xiàn)集達(dá)到交叉驗(yàn)證的AUC為0.95瓶您,在驗(yàn)證集達(dá)到AUC為0.96麻捻。誤分類錯(cuò)誤率為0.06,而敏感性和特異性為90%呀袱,總體準(zhǔn)確性為92%贸毕。在驗(yàn)證數(shù)據(jù)集中也取得了相當(dāng)?shù)男阅埽▓D4)。無法測(cè)出臨床癌癥階段或年齡對(duì)組織類型預(yù)測(cè)的明顯影響夜赵。階段性的最終分層模型在所有四個(gè)階段中產(chǎn)生了某種程度上的統(tǒng)一預(yù)測(cè)結(jié)果明棍,AUC高于0.90。正如預(yù)期的那樣寇僧,I期表現(xiàn)出最低的指標(biāo)摊腋,敏感性和特異性分別為85%和91%,而最準(zhǔn)確的預(yù)測(cè)結(jié)果出現(xiàn)在IV期嘁傀,敏感性和特異性分別為97%和90%(圖4)兴蒸。

圖4 最終的泛癌模型、驗(yàn)證數(shù)據(jù)集和階段分層的ROC曲線

03 - 甲基化作為特定類型的檢測(cè)生物標(biāo)志物

????????將類似的過濾步驟應(yīng)用于單對(duì)單的差異性甲基化分析后细办,結(jié)直腸癌記錄的特定類型DMP數(shù)量最多橙凳,為5181個(gè),其次是甲狀腺癌,為4666個(gè)岛啸。食道癌和肺鱗癌的類型特異性DMP數(shù)量最少钓觉,分別為13和12個(gè)DMP(圖S2)s。在對(duì)相關(guān)預(yù)測(cè)因子進(jìn)行特征選擇后坚踩,還剩下586個(gè)探針议谷,大約是初始特征集的3%。隨后堕虹,冗余過濾聚類步驟產(chǎn)生了20個(gè)CpG預(yù)測(cè)因子卧晓,從10個(gè)產(chǎn)生的特征聚類中各選2個(gè)。由這20個(gè)預(yù)測(cè)因子中的6個(gè)組成的組合被用來建立分類器模型赴捞;這是基于初步數(shù)據(jù)顯示最高的平均AUC逼裆,預(yù)測(cè)因子的數(shù)量最少,測(cè)試的組合總數(shù)最實(shí)用赦政。使用PLSDA算法胜宇,利用14種類型的腫瘤集合數(shù)據(jù)集,共測(cè)試了38 760個(gè)組合恢着。對(duì)14種腫瘤類型進(jìn)行分類的平均交叉驗(yàn)證AUC為0.85桐愉。大多數(shù)測(cè)試組合在分類癌癥類型方面表現(xiàn)良好,甲狀腺掰派、尿道从诲、前列腺、腎臟靡羡、結(jié)腸直腸系洛、肝臟和頭頸部癌癥的局部AUC平均值高于0.90。胰腺癌略步、肺癌描扯、食道癌、乳腺癌和膀胱癌的平均AUC較低趟薄,但其局部AUC最大值都在0.80以上绽诚。事實(shí)上,只有食道癌的最大檢測(cè)AUC低于0.90杭煎,為0.87恩够,是研究的14種類型中最難辨別的。肝癌岔帽、前列腺癌玫鸟、子宮癌和甲狀腺癌的鑒別能力最高导绷,AUC為0.99犀勒,而結(jié)直腸癌的AUC為0.98。綜合的最終模型包括20個(gè)獨(dú)特的CpG探針,在分類腫瘤類型方面表現(xiàn)非常好贾费,與6個(gè)探針組合的單個(gè)模型相比钦购,指標(biāo)有明顯的提高,特別是特異性(圖5)褂萧。該模型在現(xiàn)有癌癥類型的驗(yàn)證集中表現(xiàn)同樣出色(圖6)押桃。甲狀腺、子宮导犹、前列腺唱凯、肝臟和結(jié)直腸腫瘤可以以近乎完美的靈敏度被識(shí)別。在研究的14種癌癥類型中谎痢,有12種可以以高于90%的敏感度和特異度進(jìn)行鑒別磕昼。只有食道癌和肺鱗狀細(xì)胞癌的特異性分別為80%和87%(圖5)。

圖5 最終綜合類型特定的偏最小二乘法-判別分析模型的接收操作特征曲線
圖6 在GEO驗(yàn)證數(shù)據(jù)集中节猿,最終整合的特定類型偏最小二乘法判別模型的接收操作特征曲線

四票从、結(jié)論

????????研究使用癌癥基因組圖譜研究了14種不同癌癥類型的全基因組甲基化譜,鑒定并驗(yàn)證了四種候選泛癌甲基化CpG生物標(biāo)志物和20種候選癌癥類型特異性標(biāo)志物的組合滨嘱。這突出了甲基組作為生物標(biāo)志物的豐富來源峰鄙,可用于新的微創(chuàng)癌癥檢測(cè)測(cè)定。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末太雨,一起剝皮案震驚了整個(gè)濱河市吟榴,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌囊扳,老刑警劉巖煤墙,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異宪拥,居然都是意外死亡仿野,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門她君,熙熙樓的掌柜王于貴愁眉苦臉地迎上來脚作,“玉大人,你說我怎么就攤上這事缔刹∏蛱危” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵校镐,是天一觀的道長(zhǎng)亿扁。 經(jīng)常有香客問我,道長(zhǎng)鸟廓,這世上最難降的妖魔是什么从祝? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任襟己,我火速辦了婚禮,結(jié)果婚禮上牍陌,老公的妹妹穿的比我還像新娘擎浴。我一直安慰自己,他們只是感情好毒涧,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布贮预。 她就那樣靜靜地躺著,像睡著了一般契讲。 火紅的嫁衣襯著肌膚如雪仿吞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天捡偏,我揣著相機(jī)與錄音茫藏,去河邊找鬼。 笑死霹琼,一個(gè)胖子當(dāng)著我的面吹牛务傲,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播枣申,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼售葡,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了忠藤?” 一聲冷哼從身側(cè)響起挟伙,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎模孩,沒想到半個(gè)月后尖阔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡榨咐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年介却,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片块茁。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡齿坷,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出数焊,到底是詐尸還是另有隱情永淌,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布佩耳,位于F島的核電站遂蛀,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏干厚。R本人自食惡果不足惜李滴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一螃宙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧悬嗓,春花似錦、人聲如沸裕坊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽籍凝。三九已至周瞎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間饵蒂,已是汗流浹背声诸。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留退盯,地道東北人彼乌。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像渊迁,于是被迫代替她去往敵國(guó)和親慰照。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容