# No.1
今天給大家分享的是西班牙巴塞羅那加泰羅尼亞研究Núria López-Bigas于2020年發(fā)表在Nature Reviews Cancer(IF:60.716, 2020)的綜述文章A compendium of mutational cancer driver genes刃宵。作者一方面介紹了對癌癥基因的演變認(rèn)識遵蚜,主要關(guān)注點突變驅(qū)動基因粘驰,另一方面,提出一個突變基因識別方法IntOGen,能夠識別跨腫瘤的突變驅(qū)動基因。
摘要
癌癥研究的一個基本目標(biāo)是了解細(xì)胞轉(zhuǎn)化的機(jī)制绒北。這是開發(fā)更有效的癌癥檢測方法和治療方法的關(guān)鍵。實現(xiàn)這一目標(biāo)的一個里程碑是識別所有可能導(dǎo)致腫瘤的突變基因察署。自20世紀(jì)70年代以來闷游,癌癥基因的清單一直在穩(wěn)步增長。因為癌癥驅(qū)動基因在腫瘤發(fā)生中處于正選擇狀態(tài)贴汪,他們在一個隊列中觀察到的跨腫瘤的體細(xì)胞突變模式與中性誘變的預(yù)期模式不同储藐。這些偏差構(gòu)成了陽性選擇的信號,可以通過精心設(shè)計的生物信息學(xué)方法來檢測嘶是,這些方法已經(jīng)成為鑒定驅(qū)動基因的最新技術(shù)钙勃。一個結(jié)合了這些信號的系統(tǒng)方法可以產(chǎn)生突變癌癥基因的概要。在這篇綜述中聂喇,我們介紹了整合腫瘤組學(xué)(IntOGen)管道辖源,這是一種獲得突變癌癥驅(qū)動因素概要的方法的實現(xiàn)蔚携。將其應(yīng)用于66種癌癥類型的28,000多個腫瘤的體細(xì)胞突變克饶,揭示了568個癌癥基因酝蜒,并指出它們的腫瘤發(fā)生機(jī)制。將這種方法應(yīng)用于不斷增長的體細(xì)胞腫瘤突變數(shù)據(jù)集矾湃,將有助于不斷完善我們對癌癥遺傳基礎(chǔ)的了解亡脑。
癌癥是一組疾病,其特征是主要由遺傳突變引起的異常和不受控制的細(xì)胞生長邀跃。這些突變因其驅(qū)動腫瘤發(fā)生的能力而被稱為“驅(qū)動因素”霉咨,賦予體細(xì)胞組織中的細(xì)胞相對于鄰近細(xì)胞的某些選擇性優(yōu)勢。它們存在于一組基因(稱為“癌癥驅(qū)動基因”)中拍屑,其突變形式影響一組關(guān)鍵細(xì)胞功能的穩(wěn)態(tài)發(fā)育途戒。自從遺傳學(xué)建立以來,癌癥研究的主要目標(biāo)之一就是發(fā)現(xiàn)這些跨越腫瘤類型的癌癥驅(qū)動基因僵驰。它們的鑒定導(dǎo)致了靶向抗癌療法范例的發(fā)展喷斋,更一般地說,導(dǎo)致了對預(yù)后和治療反應(yīng)的基因組生物標(biāo)志物的研究蒜茴。
這篇綜述的第一部分從歷史的角度介紹了我們對癌癥基因的認(rèn)識從第一次腫瘤全基因組測序之前到今天的演變星爪,并對未來進(jìn)行了展望。它專注于突變驅(qū)動基因粉私,即那些能夠通過單核苷酸變異和短插入或缺失驅(qū)動腫瘤發(fā)生的基因移必,我們統(tǒng)稱為“點突變。然而毡鉴,它不包括影響癌癥基因和也有助于腫瘤發(fā)生的其他類型的體細(xì)胞改變,如擴(kuò)增或缺失秒赤、基因組重排和表觀遺傳沉默猪瞬。關(guān)于此處未涉及的其他類型驅(qū)動變異的綜合評論,參見入篮,例如陈瘦,參考文獻(xiàn)8–10。還排除了根據(jù)驅(qū)動基因與生化途徑或網(wǎng)絡(luò)中顯著突變基因的接近程度來鑒定驅(qū)動基因的方法潮售,這些方法也在其他地方進(jìn)行了綜述11痊项。
在本綜述的第二部分,我們提出突變驅(qū)動因子識別方法的成熟和目前在公共領(lǐng)域中可用的腫瘤突變數(shù)據(jù)集的豐富可以推進(jìn)最終目標(biāo)酥诽,即揭示所有腫瘤類型的驅(qū)動因子基因概要鞍泉,并提供有關(guān)其致瘤機(jī)制的線索。為了證明這一主張肮帐,我們開發(fā)了整合腫瘤組學(xué)(IntOGen)管道咖驮,旨在系統(tǒng)識別跨腫瘤類型的突變驅(qū)動基因概要边器。本綜述中描述的驅(qū)動基因概要的快照是通過將其應(yīng)用于66種不同腫瘤類型的221個隊列中的28,076個腫瘤而獲得的。這個驅(qū)動基因概要的快照(以及更新的版本)和產(chǎn)生它的自動系統(tǒng)托管在IntOGen平臺上托修。
癌癥的遺傳基礎(chǔ)
尋找癌癥的原因與遺傳學(xué)的發(fā)展緊密相連忘巧。關(guān)于癌癥病因的第一個科學(xué)概念來自十八和十九世紀(jì)的系統(tǒng)記錄,它將特定類型腫瘤的高發(fā)病率與某些專業(yè)人員的實踐所產(chǎn)生的暴露聯(lián)系起來睦刃。Broca關(guān)于癌癥遺傳性的第一份已知報告可以追溯到19世紀(jì)晚期砚嘴,甚至在孟德爾發(fā)展的遺傳基礎(chǔ)被廣泛認(rèn)可之前。20世紀(jì)初涩拙,Peyton Rous利用從患病動物身上獲得的無細(xì)胞提取物將腫瘤傳播給健康的鳥類际长,這表明比細(xì)胞小的單位是腫瘤發(fā)生的原因。大約與此同時吃环,在Morgan研究染色體作為基因所在地之前也颤,Theodor Boveri提出癌癥可能是由于不正確的染色體組合引起的。此外郁轻,對化學(xué)致癌物的實驗表明翅娶,DNA序列的變化促進(jìn)了細(xì)胞轉(zhuǎn)化。這些和其他發(fā)現(xiàn)將癌癥的基礎(chǔ)牢牢地納入了遺傳學(xué)領(lǐng)域好唯。
從1940年到1980年的幾十年間竭沫,生物化學(xué)和分子遺傳學(xué)的發(fā)展促進(jìn)了實驗室方法的發(fā)展,如位置克隆骑篙、反轉(zhuǎn)錄和Sanger測序蜕提。這些方法在癌癥研究中的應(yīng)用導(dǎo)致了第一批癌癥驅(qū)動基因的鑒定,這些基因以其突變形式驅(qū)動腫瘤發(fā)生的能力命名靶端。與禽肉瘤病毒的部分DNA雜交的幾種鳥類基因組的一小部分是第一個被鑒定的癌癥基因谎势,因此被命名為SRC(This gene is highly similar to the v-src gene of Rous sarcoma virus. --genecard)。1969年杨名,人們認(rèn)識到了這種病毒DNA片段的存在脏榆,這是存在于鳥類基因組中的“正常”基因的變體台谍,已經(jīng)獲得了轉(zhuǎn)化能力须喂,這就產(chǎn)生了“oncogene”一詞(“致癌基因”)。然后在人類腫瘤中鑒定出HRAS等癌基因趁蕊,基因序列中單個核苷酸的改變被證明足以提供轉(zhuǎn)化能力坞生。有了這些發(fā)現(xiàn),腫瘤發(fā)生的遺傳基礎(chǔ)(包括前面提到的職業(yè)暴露)終于可以得到解釋掷伙。
盡管細(xì)胞中存在正常等位基因是己,但引入有缺陷的癌基因拷貝足以產(chǎn)生轉(zhuǎn)化,因此得出結(jié)論任柜,癌基因起主導(dǎo)作用赃泡。然而寒波,對視網(wǎng)膜母細(xì)胞瘤(一種兒科腫瘤)發(fā)病率的分析表明,二次打擊升熊,即使該基因的兩個等位基因失活的基因事件(疾病后稱為RB1)是惡性腫瘤發(fā)展所必需的俄烁。這一明顯的矛盾在20世紀(jì)80年代中期得到解決,因為人們承認(rèn)存在第二種癌癥基因级野,稱為“tumour suppressor”(腫瘤抑制基因)页屠。與癌基因不同,轉(zhuǎn)化是由腫瘤抑制基因失活引起的蓖柔,這通常需要基因的兩個等位基因失活辰企。腫瘤抑制物的發(fā)現(xiàn)也為家族性癌癥病例提供了解釋:遺傳突變使腫瘤抑制物的一個等位基因失活,增加了發(fā)生腫瘤的可能性况鸣,因為只需要第二次擊中牢贸。
根據(jù)這兩類癌癥基因的清晰藍(lán)圖,從20世紀(jì)80年代到21世紀(jì)第一個十年的早期镐捧,數(shù)十個編碼癌基因的基因組位點潜索,如MYC、RET懂酱、血小板衍生生長因子受體-α(PDGFRA)竹习、MET、KIT列牺、FMS樣酪氨酸激酶3(FLT3)整陌,鑒定了表皮生長因子受體(EGFR)和BRAF33–39,以及腫瘤抑制因子瞎领,如TP53泌辫、轉(zhuǎn)化生長因子受體-β2(TGFRB2)、RB1九默、PTEN震放、檢查點激酶2(CHEK2)、細(xì)胞周期蛋白依賴性激酶抑制劑2A(CDKN2A)荤西、BRCA1、BRCA2和腺瘤性息肉病大腸桿菌(APC)伍俘。后一種基因的種系突變也顯示出對癌癥發(fā)展的易感性邪锌。進(jìn)一步的開創(chuàng)性研究也證實了影響這些基因的其他類型的改變對于細(xì)胞轉(zhuǎn)化的重要性,如擴(kuò)增癌瘾、缺失觅丰、易位或啟動子甲基化。
2004年妨退,一篇開創(chuàng)性的文章從科學(xué)文獻(xiàn)匯編了291個癌癥驅(qū)動基因的列表妇萄,包括通過點突變蜕企、易位或拷貝數(shù)改變而改變的基因。為了將這種異質(zhì)性概念化冠句,驅(qū)動基因被認(rèn)為主要影響一些基本的細(xì)胞功能轻掩,稱為“癌癥特征”(cancer hallmarks)(2011年審查和更新)。 根據(jù)這一概括懦底,由于驅(qū)動因素的改變唇牧,惡性細(xì)胞能夠(1)抵抗凋亡,(2)維持增殖信號(即使在沒有細(xì)胞外信號的情況下)聚唐,(3)逃避細(xì)胞生長的抑制丐重,(4)啟動侵襲和轉(zhuǎn)移,(5)實現(xiàn)復(fù)制永生杆查,(6)誘導(dǎo)血管生成扮惦,(7)實現(xiàn)能量代謝的去調(diào)節(jié)和(8)避免被免疫系統(tǒng)破壞。這些能力的發(fā)展是由組織炎癥的促進(jìn)和腫瘤固有的基因組不穩(wěn)定性支持的亲桦。
體細(xì)胞突變模式揭示驅(qū)動因素
在本世紀(jì)第一個十年的最初幾年崖蜜,DNA測序技術(shù)的改進(jìn)和人類基因組注釋的快速發(fā)展促成了旨在揭示腫瘤體細(xì)胞突變領(lǐng)域日益增加份額的項目。2005年烙肺,一項對518個激酶編碼基因進(jìn)行測序的研究在25個原發(fā)性乳腺腫瘤和細(xì)胞系中平均發(fā)現(xiàn)76個非沉默突變纳猪。第二年,另一組對11例乳腺腫瘤和11例大腸腫瘤的13023個基因進(jìn)行測序桃笙,分別發(fā)現(xiàn)519和673個基因突變氏堤。下一代測序(NGS)技術(shù)的發(fā)展在本世紀(jì)初的第一個十年中催化癌癥基因組學(xué)的開始。2008年搏明,對22例膠質(zhì)母細(xì)胞瘤和24例胰腺腫瘤進(jìn)行了兩次進(jìn)一步分析鼠锈,對整個外顯子組進(jìn)行了測序,分別發(fā)現(xiàn)了1007個和685個突變基因星著。首次對腫瘤進(jìn)行全基因組測序也產(chǎn)生了類似的情況购笆。然而,關(guān)于腫瘤發(fā)生的共識是虚循,只有少數(shù)影響驅(qū)動基因的突變事件被認(rèn)為是惡性化的起源同欠。因此,絕大多數(shù)這些突變基因根本不參與腫瘤的發(fā)生横缔;也就是說铺遂,它們的突變是“passengers”而不是“drivers”。這些研究首先揭示了需要進(jìn)行嚴(yán)格的統(tǒng)計測試茎刚,以解釋突變率和突變類型的異質(zhì)性襟锐,從而確定揭示癌癥基因的意外突變模式。
這些最初的研究為在幾個國家啟動大型腫瘤測序計劃鋪平了道路膛锭,如癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)粮坞,旨在對24種以上常見癌癥類型的數(shù)百種腫瘤的外顯子進(jìn)行測序蚊荣。隨著測序技術(shù)的不斷進(jìn)步,更多雄心勃勃的項目(許多項目歸國際癌癥基因組聯(lián)盟(ICGC)所有)設(shè)定了對數(shù)千個腫瘤樣本的全基因組測序的目標(biāo)莫杈。隨著這些舉措中許多舉措的最新結(jié)論互例,全面的泛癌癥分析已經(jīng)展示了十多年癌癥基因組學(xué)研究的一些最重要發(fā)現(xiàn),包括已識別的驅(qū)動基因列表姓迅。這些開創(chuàng)性項目絕大多數(shù)側(cè)重于原發(fā)性惡性腫瘤的研究敲霍。直到最近,探索轉(zhuǎn)移性腫瘤的類似項目才開始揭示晚期惡性腫瘤的驅(qū)動因素改變丁存。
所有這些項目的主要目標(biāo)之一是確定一組驅(qū)動惡性腫瘤的基因肩杈,為系統(tǒng)和全面地識別突變驅(qū)動基因提供路線圖。其背后的基本原理是解寝,腫瘤發(fā)生遵循達(dá)爾文進(jìn)化論扩然,其特征是變異和選擇。變異是由自發(fā)產(chǎn)生的體細(xì)胞突變提供的聋伦,這些突變在組織中的體細(xì)胞之間引入了遺傳差異夫偶。然后,正選擇作用于攜帶突變的細(xì)胞觉增,該突變賦予相鄰細(xì)胞選擇優(yōu)勢兵拢,導(dǎo)致突變的克隆擴(kuò)增(圖1a)(不同驅(qū)動基因的突變可能提供多種選擇性優(yōu)勢,如上所述逾礁,這些優(yōu)勢是癌癥的標(biāo)志说铃。)
圖1 | 正選擇信號識別驅(qū)動基因。體細(xì)胞組織中的a細(xì)胞積累突變嘹履。某些基因的體細(xì)胞突變使其發(fā)生的細(xì)胞具有選擇性優(yōu)勢腻扇,因此被積極選擇。在達(dá)爾文過程之后砾嫉,隨著時間的推移幼苛,克隆擴(kuò)張發(fā)生,攜帶這些基因突變的細(xì)胞在群體中占主導(dǎo)地位焕刮。b |在同一癌癥類型的樣本中觀察到的基因突變模式與預(yù)期模式的偏差表明舶沿,基因在腫瘤發(fā)生中處于正選擇狀態(tài)。兩個活檢樣本取自癌癥患者:一個來自腫瘤配并,另一個來自健康組織(例如括荡,實體惡性腫瘤患者的外周血)。通過比較這兩個樣本的序列荐绝,確定了腫瘤中的體細(xì)胞點突變一汽。在外顯子組中發(fā)現(xiàn)了少量到數(shù)百個體細(xì)胞突變避消,如果對整個基因組進(jìn)行測序低滩,這個數(shù)字將增加到數(shù)萬召夹。結(jié)果,每個腫瘤中出現(xiàn)幾十到幾千個基因突變恕沫。驅(qū)動基因是指在一組腫瘤中顯示一個或多個陽性選擇信號的基因监憎。
作為這一進(jìn)化過程的結(jié)果,當(dāng)對同一癌癥類型的腫瘤隊列進(jìn)行分析時婶溯,某些基因的突變模式偏離其在中性突變下的預(yù)期可能構(gòu)成這些基因的突變在腫瘤發(fā)生中處于正選擇的信號鲸阔。例如,在一組腫瘤中迄委,驅(qū)動基因以異常高的頻率突變褐筛,隨后開發(fā)了檢測這種顯著突變復(fù)發(fā)的方法,以分析上述癌癥基因組學(xué)項目產(chǎn)生的突變數(shù)據(jù)集叙身。其他腫瘤發(fā)生中的陽性選擇信號(圖1b)渔扎,如蛋白質(zhì)某些區(qū)域突變的異常聚集、高功能影響突變累積的偏倚或三核苷酸變化頻率的偏倚信轿,已被驅(qū)動識別方法91,92使用晃痴。隨著時間的推移,這些方法中的許多已經(jīng)在不同癌癥類型的許多隊列中得到驗證和測試财忽,并證明是高度可靠的倘核。有關(guān)方法的詳細(xì)列表,請參見參考文獻(xiàn)5,77,93,94即彪。
對第一批大型突變數(shù)據(jù)集的分析表明紧唱,不同類型的突變在不同來源的腫瘤中出現(xiàn)的頻率不同,并且人類基因組中的突變率具有高度異質(zhì)性(框1)祖凫。很快就很明顯琼蚯,駕駛員檢測方法受到背景突變率異質(zhì)性的深刻影響。在沒有選擇的情況下惠况,建立準(zhǔn)確解釋影響突變率的所有因素的背景模型已成為近年來開發(fā)的大多數(shù)駕駛員識別方法的標(biāo)志遭庶。雖然僅通過觀察腫瘤中的突變模式就可以發(fā)現(xiàn)幾個突變頻率極高的驅(qū)動基因,但背景突變率的準(zhǔn)確建模對于避免檢測假陽性驅(qū)動因素和識別突變復(fù)發(fā)率較低的驅(qū)動因素至關(guān)重要稠屠。結(jié)合使用不同正選擇信號的方法的輸出是全面識別驅(qū)動基因的最佳方法峦睡,驅(qū)動基因可能會顯示一些但不是全部信號。個別方法的虛假發(fā)現(xiàn)也更有可能被這種組合過濾掉5,13,94,102权埠。
框1 | 基因的背景突變率
體細(xì)胞中基因的背景突變率(即突變率和分布)取決于其序列榨了、細(xì)胞的特性以及細(xì)胞或組織以及人一生中接觸過的突變過程。正確評估基因的背景突變率需要能夠準(zhǔn)確地模擬所有這些因素引入的變異性。這是確定哪些觀察到的突變模式實際上是意外的和可歸因于正選擇的關(guān)鍵枕磁。
個體組織中活躍的突變過程定義了基因中每個核苷酸改變的一組概率笋熬,考慮到其直接序列上下文蚂会。這些概率可以從觀察到的隊列中每個腫瘤的突變譜中得知转捕,也可以從整個隊列樣本的一組相關(guān)突變過程的活性中得出作岖。
基因中發(fā)生特定核苷酸變化的可能性也受到細(xì)胞染色質(zhì)在大范圍和小范圍內(nèi)所采用的特定特征的影響。在大范圍內(nèi)五芝,基因相對于原基因的復(fù)制時間痘儡,染色質(zhì)的致密程度,基因座和基因表達(dá)水平影響其突變率枢步。對于每個相關(guān)組織中的每個基因沉删,可以仔細(xì)模擬這些大范圍因素的影響∽硗荆或者矾瑰,可以通過排列在基因中觀察到的突變來建立每個基因內(nèi)的背景模型。
在小范圍內(nèi)隘擎,如核小體和其他蛋白質(zhì)的占用脯倚,某些染色質(zhì)標(biāo)記沿基因體的分布和局部非B-DNA結(jié)構(gòu)的形成可能會改變基因內(nèi)序列延伸處的局部突變率。
驅(qū)動基因的系統(tǒng)發(fā)現(xiàn)
癌癥研究采用NGS嵌屎,這是由前文提到的開創(chuàng)性舉措推動的推正,已經(jīng)在公共領(lǐng)域產(chǎn)生了大量可用的癌癥基因組學(xué)數(shù)據(jù)。在整個外顯子組或全基因組水平上測序的腫瘤樣本總數(shù)目前可用于系統(tǒng)驅(qū)動因素發(fā)現(xiàn)宝惰,達(dá)到數(shù)萬植榕。這在理論上提供了識別突變驅(qū)動基因概要(簡寫為“概要”)的機(jī)會;也就是說尼夺,在突變后驅(qū)動每種惡性腫瘤的基因的完整列表尊残。
系統(tǒng)的實施
為了構(gòu)建驅(qū)動基因概要的快照,我們收集了來自66種不同癌癥類型的221個隊列(包括10到973個樣本)的體細(xì)胞SNV和短INDEL淤堵,共計28076個樣本(圖2a寝衫;補(bǔ)充方法;補(bǔ)充表1)拐邪。我們將隊列定義為一組在一個項目中分析的相同癌癥類型的腫瘤樣本慰毅,具有統(tǒng)一的測序和突變調(diào)用管道。大多數(shù)樣本來自大規(guī)模測序工作扎阶,如ICGC(3988個樣本)汹胃、TCGA(10010個樣本)、全基因組泛癌分析(PCAWG)(2554個樣本)东臀、哈特維格醫(yī)學(xué)基金會(3742個樣本)和產(chǎn)生有效治療(目標(biāo))(246個樣本)的治療應(yīng)用研究着饥。重要的是,由個體機(jī)構(gòu)測序的其他60個隊列(包括3570個成人和1087個兒童腫瘤樣本)的突變分別通過cBioPortal和PedcBioPortal獲得惰赋。這突出了開發(fā)和維護(hù)集中工作的重要性宰掉,以收集小項目中產(chǎn)生的測序數(shù)據(jù)。最后,從最初的研究中獲得了作為八個獨立隊列的一部分測序的2257個腫瘤的突變轨奄。221個隊列中的大多數(shù)(180個)包括原發(fā)腫瘤仇穗,而其余41個由轉(zhuǎn)移或復(fù)發(fā)樣本組成(總共4713個)。特別努力包括兒童惡性腫瘤(2799個樣本分為48個隊列)戚绕,這些疾病在“driver”發(fā)現(xiàn)工作中傳統(tǒng)上代表性不足。
圖2 | IntOGen管道在腫瘤突變數(shù)據(jù)集上的應(yīng)用枝冀。a |從公共領(lǐng)域收集的腫瘤突變數(shù)據(jù)集舞丛,用于構(gòu)建驅(qū)動基因概要的當(dāng)前快照。兩個甜甜圈圖都表示按來源(左)或癌癥類型(右)分類的所有數(shù)據(jù)集果漾。在這兩個圖中球切,最里面的環(huán)表示原發(fā)性或轉(zhuǎn)移性或復(fù)發(fā)性腫瘤的隊列,而第二個環(huán)則表示成人或兒童腫瘤的隊列绒障。b |至少兩個隊列代表的癌癥類型腫瘤的突變負(fù)擔(dān)(頂部)和突變類型(底部)吨凑。影響每種癌癥類型分布的隊列和樣本數(shù)量如下圖所示。腺户辱,腺癌鸵钝;慢性淋巴細(xì)胞白血病庐镐;哈特維格醫(yī)學(xué)基金會恩商;國際癌癥基因組聯(lián)合會;PCAWG必逆,全基因組泛癌分析怠堪;圣裘德,圣裘德兒童研究醫(yī)院名眉;針對性的粟矿、治療上適用的研究,以產(chǎn)生有效的治療损拢;TCGA陌粹,癌癥基因組圖譜。
腫瘤中編碼突變的數(shù)量因癌癥類型而異福压,并且在給定惡性腫瘤樣本中也觀察到了重要程度的變異(圖2b申屹,頂部)。例如隧膏,一些乳腺腺癌有幾百個基因突變哗讥,而其他同樣惡性腫瘤的樣本只有十幾個基因突變。這種異質(zhì)性的部分原因可能是測序技術(shù)或深度的差異胞枕,或突變調(diào)用方法的差異杆煞。盡管如此,突變負(fù)擔(dān)的大多數(shù)異質(zhì)性都有生物學(xué)基礎(chǔ),這是因為暴露于突變過程的時間或強(qiáng)度不同决乎,例如队询,從紫外線的活動或錯誤的DNA修復(fù)。雖然回顧整個隊列中的所有突變可以消除部分技術(shù)來源的變異性构诚,但由于計算能力的限制蚌斩,這對于如此大量的樣本尚不可能。因此范嘱,為了系統(tǒng)地發(fā)現(xiàn)不同癌癥類型的驅(qū)動基因送膳,有必要分別分析每一組腫瘤。更大的隊列提供了更多的統(tǒng)計能力來檢測作為驅(qū)動基因特征的正選擇信號丑蛤。因此叠聋,在這一系統(tǒng)性發(fā)現(xiàn)中,人們期望某些反復(fù)突變的驅(qū)動基因?qū)⒊霈F(xiàn)在許多相同惡性腫瘤的隊列中受裹,而其他基因?qū)H在更大的隊列中檢測到碌补。
利用這些腫瘤突變數(shù)據(jù)集構(gòu)建概要需要一個高效的計算系統(tǒng),系統(tǒng)地運(yùn)行最先進(jìn)的驅(qū)動程序發(fā)現(xiàn)方法棉饶。我們將該系統(tǒng)稱為IntOGen管道(框2)厦章,該系統(tǒng)由三個基本步驟組成,如圖3所示照藻,并在補(bǔ)充方法中詳細(xì)說明闷袒。第一個預(yù)處理步驟確保每個方法以正確的格式和操作參數(shù)接收其輸入,例如岩梳,從同一腫瘤中提取重復(fù)數(shù)據(jù)消除樣本囊骤,或去除非同義突變與同義突變比例異常或超突變表型異常的樣本冀值。接下來將執(zhí)行七種最近發(fā)布的驅(qū)動識別補(bǔ)充方法——dNdScv也物、OncDriveFML、CBaSE列疗、OncDriveClust滑蚯,以及解釋突變類型、smRegions和Mutpanning的三核苷酸上下文的熱圖的重新實現(xiàn)抵栈。然后告材,通過加權(quán)投票將通過每種方法確定的候選駕駛員列表進(jìn)行組合,其中授予每種方法的權(quán)重基于其感知可信度(補(bǔ)充圖1)古劲。該組合產(chǎn)生了每個隊列的驅(qū)動基因列表斥赋,這些驅(qū)動基因比單獨方法產(chǎn)生的驅(qū)動基因更敏感,而不喪失特異性(補(bǔ)充圖2)产艾。在最后的后處理步驟中疤剑,由于已知的混雜因素而可能出現(xiàn)的虛假候選驅(qū)動基因被自動過濾掉(補(bǔ)充方法)滑绒。IntOGen管道的設(shè)計旨在隨著腫瘤突變數(shù)據(jù)集繼續(xù)增長到數(shù)十萬,順利擴(kuò)展隘膘,推進(jìn)我們對概要的看法疑故。
框2 | 訪問突變驅(qū)動基因概要
本綜述中描述的驅(qū)動基因簡編的快照以及用于產(chǎn)生驅(qū)動基因的自動系統(tǒng)都位于整合癌基因組學(xué)(IntoGen)平臺上。癌癥研究人員可以通過該平臺的Web界面探索該概要弯菊,該概要包括腫瘤類型及其突變特征的驅(qū)動基因列表纵势。其中包含的所有信息也可以下載。此外管钳,自動系統(tǒng)(IntoGen管道)可由研究人員從本地安裝平臺獲得钦铁,并應(yīng)用于跨腫瘤隊列的體細(xì)胞突變數(shù)據(jù)集。有關(guān)IntoGen管道當(dāng)前實現(xiàn)的詳細(xì)信息蹋嵌,請參見補(bǔ)充方法『叮基于2013年首次建立IntoGen癌癥驅(qū)動基因分析平臺時的實踐栽烂,我們將繼續(xù)收集在公共領(lǐng)域可用的腫瘤測序數(shù)據(jù),并制作更全面的綱要快照恋脚。對于管道和概要的未來版本腺办,可以在IntoGen網(wǎng)站上找到定期更新。
每一種驅(qū)動因素發(fā)現(xiàn)方法都側(cè)重于腫瘤基因突變模式的一個或多個特征糟描。為了識別陽性選擇信號怀喉,它在中性突變假設(shè)下評估觀察值和特征預(yù)期值之間的偏差(圖3)。這些由IntOGen管道收集的所有驅(qū)動基因的突變特征船响,為每個癌癥基因的腫瘤發(fā)生機(jī)制提供了關(guān)鍵的見解(見下文)躬拢,并且是綱要(補(bǔ)充方法)的組成部分。它們包括(1)突變簇(線性和3D见间,可能因蛋白內(nèi)或蛋白間相互作用而產(chǎn)生)聊闯,(2)蛋白質(zhì)中優(yōu)先受突變影響的結(jié)構(gòu)域,以及(3)具有不同后果的過量突變米诉。
線性簇是沿著在腫瘤中發(fā)現(xiàn)的基因序列局部累積的突變菱蔬,例如KRAS密碼子12和13處的突變形成的突變(圖3)。另一方面史侣,3D簇涉及氨基酸殘基拴泌,這些殘基可能在蛋白質(zhì)的一級結(jié)構(gòu)中分離,但在其三級結(jié)構(gòu)中很接近(例如惊橱,RHOA的26蚪腐、39–42、57和59–62位氨基酸引起的突變)税朴。優(yōu)先受影響的結(jié)構(gòu)域具有顯著的突變積累削茁,例如SMAD4中的MH2宙枷。具有不同后果的過量突變——對于富含AT互作用域1A(ARID1A),無義突變和錯義突變分別為99%和50%——說明了驅(qū)動基因的作用模式(腫瘤抑制基因或癌基因)茧跋。在沒有多余無義突變的情況下觀察到的多余錯義突變表明癌基因的激活模式慰丛。相反,腫瘤抑制(或功能喪失)基因往往表現(xiàn)出過量的無義突變瘾杭。雖然某些基因的作用模式非常明確诅病,但有些病例更難納入二元癌基因-腫瘤抑制模型(圖3中的“作用模式”散點圖接近對角線)。此外粥烁,某些基因的作用模式可能因腫瘤類型而異贤笆。
圖3 | 整合癌組學(xué)(IntOGen)管道的示意圖。從應(yīng)用到胃腺癌患者隊列開始讨阻,說明了通過管道的數(shù)據(jù)流芥永。管道的兩個結(jié)果-即隊列中的驅(qū)動基因目錄和突變特征(線性和3D突變簇、作用模式(MoA))钝吮,對隊列中的每個患者埋涧,優(yōu)先受影響的結(jié)構(gòu)域和具有不同后果的過量突變)進(jìn)行整合,形成驅(qū)動基因概要奇瘦。
概要的快照
系統(tǒng)概要棘催,或者更恰當(dāng)?shù)卣f,從這221個腫瘤隊列中獲得的當(dāng)前快照(框2)在多大程度上增加了關(guān)于腫瘤發(fā)生的遺傳基礎(chǔ)的現(xiàn)有知識耳标?對文獻(xiàn)進(jìn)行系統(tǒng)挖掘以建立一個完整可靠的已驗證癌癥基因目錄超出了我們的分析范圍醇坝。因此,為了解決這個問題次坡,我們使用了癌癥基因普查(CGC呼猪;第87版)作為綱要中66種惡性腫瘤發(fā)生相關(guān)基因的“基本事實”。雖然CGC是不完整的砸琅,可能包含一些假陽性郑叠,但據(jù)我們所知,它是從文獻(xiàn)中注釋的最全面明棍、最準(zhǔn)確的一組經(jīng)驗證的癌癥基因乡革,因此它可以達(dá)到這一目的。答案的一部分(圖4a摊腋,b)是綱要中568個突變驅(qū)動基因中幾乎四分之三已經(jīng)在CGC中注釋(這也為綱要提供了有力的驗證)沸版。然而,由于綱要在所有癌癥類型的隊列中無偏見地確定了陽性選擇的信號兴蒸,因此它有可能更徹底地繪制驅(qū)動基因-腫瘤類型關(guān)聯(lián)圖视粮。事實上,超過80%的驅(qū)動基因和惡性腫瘤之間的所有已識別鏈接在CGC中未注釋(圖4a橙凳,b)蕾殴。例如笑撞,雖然21個已知的乳腺腺癌CGC驅(qū)動因素在概要中,但在CGC中注釋的75個基因钓觉,但在分析的12個乳腺癌隊列中的一個或多個隊列中茴肥,顯示出先前未被識別為驅(qū)動這種惡性腫瘤的基因處于陽性選擇下(圖4a)。換句話說荡灾,對于許多眾所周知的驅(qū)動基因瓤狐,該綱要揭示了它們在癌癥類型中的作用比以前記錄的要廣泛得多(圖4c)。例如批幌,組蛋白賴氨酸N-甲基轉(zhuǎn)移酶2C(KMT2C)的體細(xì)胞突變模式顯示31種腫瘤類型的陽性選擇信號础锐。然而,CGC僅將其注釋為髓母細(xì)胞瘤的驅(qū)動因素荧缘。因此皆警,通過IntOGen管道無偏見地發(fā)現(xiàn)癌癥基因是對經(jīng)實驗驗證的驅(qū)動因素注釋的重要補(bǔ)充。
圖4 | 突變驅(qū)動基因概要的快照截粗。簡編中每種腫瘤類型的癌癥驅(qū)動基因數(shù)量信姓。圖中使用三色標(biāo)度表示癌癥基因普查(CGC)中注釋的基因,該基因與概要中確定的腫瘤類型相同或不同的腫瘤類型桐愉,或表示CGC中未注釋的基因财破。b |概要中的癌癥驅(qū)動基因總數(shù)掰派,表明與CGC中注釋的基因重疊从诲,作為任何腫瘤類型的驅(qū)動因素(頂欄)。概要中的驅(qū)動基因-腫瘤類型關(guān)聯(lián)與CGC中相同或不同腫瘤類型的驅(qū)動基因-腫瘤類型關(guān)聯(lián)之間的重疊(下欄)靡羡。c |與CGC中注釋的關(guān)聯(lián)相比系洛,25個典型基因被矩陣中以點表示的概要確定為驅(qū)動因素的腫瘤類型范圍。圖的底部顯示了五種以前未被注意到的腫瘤類型的驅(qū)動因素在腫瘤發(fā)生中的作用略步。點的大小代表所有腫瘤類型隊列中該基因被確定為驅(qū)動因素的百分比描扯。每個基因在概要中作為驅(qū)動因素出現(xiàn)的腫瘤類型的數(shù)量在右邊的條形圖中表示。
綱要的系統(tǒng)性不僅增加了我們對已知癌癥基因作用的認(rèn)識趟薄,而且還指出了152個潛在的新驅(qū)動基因(圖4a绽诚,c);也就是說杭煎,以前沒有在CGC中注釋的基因恩够。由于CGC很可能是完整癌癥基因目錄的一個不完整的替代品,這些潛在的新驅(qū)動因素中的一些可能已經(jīng)在文獻(xiàn)中報道過了羡铲。事實上蜂桶,我們提出并討論了以下五個未注釋的基因,它們在腫瘤的突變模式中表現(xiàn)出陽性選擇信號也切,并且獨立研究表明它們與腫瘤發(fā)生有關(guān)(圖4c扑媚,底部)腰湾。
在肺和頭頸部鱗狀細(xì)胞癌中RAS GTPase激活1(RASA1)的突變模式顯示了系統(tǒng)中探測到的幾種陽性選擇信號。其表達(dá)降低或功能喪失突變已被確認(rèn)為在人支氣管上皮和黑色素瘤細(xì)胞系中增加RAS介導(dǎo)的信號疆股。它還與三陰性乳腺癌的致瘤促進(jìn)功能有關(guān)费坊。由于編碼RASA1的蛋白質(zhì)與編碼神經(jīng)纖維蛋白1(NF1)的蛋白質(zhì)一樣,對RAS–MAPK通路起負(fù)調(diào)節(jié)作用押桃,因此這兩個基因被認(rèn)為具有腫瘤抑制功能葵萎,這也是由它們的突變模式所暗示的。賴氨酸特異性去甲基化酶3B(KDM3B)唱凯,其蛋白產(chǎn)物特異性地去甲基化組蛋白H3的Lys9以促進(jìn)靶基因的轉(zhuǎn)錄激活羡忘,在兩組毛細(xì)胞星形細(xì)胞瘤和髓母細(xì)胞瘤中表現(xiàn)出顯著的過度突變和功能偏倚。然而磕昼,無論是無義突變還是錯義突變卷雕,在這種過剩中都沒有明顯的過度表達(dá);因此票从,其行動方式目前在《綱要》中被稱為“模棱兩可”漫雕。KDM3B已被證明參與肝細(xì)胞癌的細(xì)胞周期調(diào)節(jié),并作為結(jié)直腸癌干細(xì)胞中WNT信號通路的激活劑發(fā)揮作用峰鄙。盡管這兩項研究表明KDM3B在腫瘤發(fā)生中起著癌基因的作用浸间,但另一份報告提出,其某些種系突變導(dǎo)致對腎母細(xì)胞瘤的易感性吟榴。因此魁蒜,其在腫瘤發(fā)生中的確切作用模式仍有待確定。編碼叉頭盒轉(zhuǎn)錄因子的幾個基因在CGC中被注釋為幾種惡性腫瘤的驅(qū)動因素(例如吩翻,乳腺癌和前列腺癌的叉頭盒A1(FOXA1)和神經(jīng)母細(xì)胞瘤的FOXR1)兜看。盡管如此,在子宮癌中有幾種陽性選擇信號的FOXA2在CGC中沒有注釋狭瞎。在子宮癌中經(jīng)常發(fā)現(xiàn)的FOXA2突變傾向于影響DNA結(jié)合域或?qū)е碌鞍踪|(zhì)產(chǎn)物的截短细移,導(dǎo)致其無法定位到細(xì)胞核。已知其中一些突變形式會導(dǎo)致CDH1基因(編碼E-鈣粘蛋白)表達(dá)減少熊锭,因此在某些腫瘤的進(jìn)展過程中與上皮向間充質(zhì)轉(zhuǎn)化有關(guān)弧轧。Krueppel樣因子5(KLF5),它編碼一種參與人類發(fā)育調(diào)節(jié)的轉(zhuǎn)錄因子碗殷,被鑒定為癌癥驅(qū)動基因精绎,通過不同機(jī)制改變在宮頸鱗癌、膀胱癌和肺鱗癌中顯示出陽性選擇信號亿扁。我們還鑒定了含有溴代烷7(BRD7)的溴代烷捺典,該溴代烷具有CGC中已注釋的幾個旁同系物,并被假定為SMAD轉(zhuǎn)錄因子的共同激活劑从祝,在驅(qū)動黑色素瘤和肝癌的發(fā)生中起作用襟己。
一些基因是多種癌癥類型的驅(qū)動因素引谜,而另一些基因則更具特異性。該綱要提供了一個機(jī)會擎浴,以系統(tǒng)的方式評估不同腫瘤類型的驅(qū)動基因的特異性(圖5)员咽。大多數(shù)基因(360個)作為一種或兩種腫瘤類型的驅(qū)動因素,只有一小部分10個基因(癌癥范圍的驅(qū)動因素贮预,右下圖)能夠通過突變驅(qū)動20多種惡性腫瘤贝室。一些非常特殊的突變驅(qū)動因素(圖5中左上角的異常值和右上角的面板)在一種或兩種癌癥類型中非常頻繁地發(fā)生突變。例如仿吞,60%的伯基特淋巴瘤在MYC中存在驅(qū)動突變滑频,47%在細(xì)胞周期蛋白D3(CCND3)中存在驅(qū)動突變。一半葡萄膜黑色素瘤病例在鳥嘌呤核苷酸結(jié)合蛋白Gq亞單位-α(GNAQ)的兩個熱點之一存在激活突變唤冈,而幾乎所有其他病例在其同源GNA11的兩個同源熱點之一發(fā)生突變. 有趣的是峡迷,通用轉(zhuǎn)錄因子II-I(GTF2I)的突變幾乎驅(qū)動了所有胸腺瘤的一半,但在CGC中尚未注釋你虹。
圖5 | 簡編中不同癌癥類型的驅(qū)動基因流行率分布绘搞。每個驅(qū)動基因在散點圖中表示為一個點。橫軸表示一個基因被確定為驅(qū)動因素的腫瘤類型的數(shù)量傅物,縱軸表示該基因在腫瘤類型中的最大突變頻率夯辖。這兩個變量的獨立分布通過圖上方和右側(cè)的1D直方圖表示。在一種或極少數(shù)腫瘤類型(癌癥特異性董饰,高度流行)或超過20種癌癥類型(癌癥范圍的驅(qū)動因素)中蒿褂,兩組高頻突變的驅(qū)動因素被圈起來,并用它們的縮寫表示尖阔。雖然大多數(shù)癌癥范圍內(nèi)的驅(qū)動因素都是公認(rèn)的癌癥基因贮缅,但長期以來榨咐,低密度脂蛋白受體相關(guān)1B(LRP1B)一直被認(rèn)為是一個潛在的虛假發(fā)現(xiàn)介却。這一爭論尚未解決,因為一些研究發(fā)現(xiàn)其功能喪失可能與幾個組織中的細(xì)胞遷移增強(qiáng)有關(guān)块茁。圖右側(cè)的條形圖顯示了選定癌癥特異性基因的腫瘤類型(對應(yīng)于散點圖中的x軸)的突變頻率齿坷,高度流行和癌癥廣泛的驅(qū)動因素。每個基因的最大突變頻率出現(xiàn)在相應(yīng)的行旁邊数焊。條形圖按照圖4中的圖例著色永淌。
驅(qū)動基因的突變特征
我們認(rèn)為,驅(qū)動基因的突變特征(如圖3所示)為闡明其致瘤功能提供了獨特的機(jī)會佩耳。下面遂蛀,我們描述六個驅(qū)動基因的突變特征,作為它們在細(xì)胞轉(zhuǎn)化中所起作用的信息示例干厚。
癌基因蛋白酪氨酸磷酸酶非受體類型11(PTPN11)顯示多發(fā)性骨髓瘤(圖6a)和其他腫瘤類型的過度錯義突變李滴,其顯著聚集在其蛋白產(chǎn)物的SH2結(jié)構(gòu)域內(nèi)螃宙。該結(jié)構(gòu)域和磷酸酶結(jié)構(gòu)域之間的抑制性接觸在磷酸化時被野生型受體酪氨酸激酶或該結(jié)構(gòu)域的突變所消除∷鳎活化的PTPN11然后使多種信號通路的抑制劑去磷酸化谆扎,如MAPK或AKT通路。核因子紅系2相關(guān)因子2(NFE2L2)芹助,另一個經(jīng)典癌基因堂湖,編碼一種轉(zhuǎn)錄因子,該轉(zhuǎn)錄因子在控制細(xì)胞氧化還原狀態(tài)及其對應(yīng)激的反應(yīng)中起關(guān)鍵作用状土。在肺鱗狀細(xì)胞癌中无蜂,兩個狹窄的錯義突變簇出現(xiàn)在其N端部分(圖6b)。這些突變會影響同源E3泛素連接酶Kelch樣ECH相關(guān)蛋白1(KEAP1)(即脫環(huán)蛋白)識別的序列蒙谓,并導(dǎo)致NFE2L2異常穩(wěn)定酱讶,影響識別NFE2L2脫環(huán)蛋白的結(jié)構(gòu)域的KEAP1突變也是如此。這反過來導(dǎo)致NFE2L2調(diào)控基因的結(jié)構(gòu)性激活
膀胱腺癌中RB1等腫瘤抑制因子的突變特征完全不同(圖6c)彼乌,無義突變和影響剪接的突變多于錯義突變泻肯。大多數(shù)無義突變觸發(fā)無義介導(dǎo)的RB1 mRNA140衰變,從而導(dǎo)致蛋白質(zhì)耗竭慰照,并取消其在調(diào)節(jié)細(xì)胞周期進(jìn)程和細(xì)胞分裂周期灶挟、對細(xì)胞應(yīng)激、分化和細(xì)胞衰老的反應(yīng)中的功能毒租,程序性細(xì)胞死亡和染色質(zhì)結(jié)構(gòu)的維持稚铣。PTEN是另一種腫瘤抑制因子,在膠質(zhì)母細(xì)胞瘤中顯示了過量的無義和錯義突變(圖6d)墅垮。與RB1中的無義突變一樣惕医,PTEN中的無義突變觸發(fā)無義介導(dǎo)的衰變,減少功能性PTEN蛋白產(chǎn)物的產(chǎn)生算色,而錯義突變阻礙其酶活性或其向膜的募集抬伺,或增加其對泛素化的敏感性,從而導(dǎo)致蛋白酶體介導(dǎo)的降解灾梦,這些結(jié)果反過來干擾其在調(diào)節(jié)一系列細(xì)胞功能中的作用峡钓,如細(xì)胞周期進(jìn)展、凋亡和蛋白質(zhì)合成若河。
同一驅(qū)動因素在不同腫瘤類型中的不同致瘤機(jī)制也可以通過其突變特征來揭示能岩。例如,在膠質(zhì)母細(xì)胞瘤中萧福,EGFR(一種蛋白產(chǎn)物參與多種信號通路激活的癌基因)的錯義突變傾向于聚集在其蛋白產(chǎn)物的細(xì)胞外區(qū)域(圖6e)拉鹃。這些作為功能性改變的增益,可能通過穩(wěn)定受體的開放構(gòu)象,在缺乏配體的情況下刺激其自身磷酸化膏燕。相比之下炭庙,在肺腺癌中,錯義突變傾向于聚集在EGFR蛋白產(chǎn)物的酪氨酸激酶結(jié)構(gòu)域(圖6f)煌寇,改變其“開-關(guān)”平衡并增加其活性焕蹄,但以降低對ATP的親和力為代價。
圖6 | 解釋驅(qū)動基因的突變模式阀溶。a–f |計算五個隊列中五種蛋白質(zhì)的六種典型突變模式腻脏,包括多發(fā)性骨髓瘤(從2018年發(fā)表的一項研究中獲得)(參考。從癌癥基因組圖譜(TCGA)中獲得的肺鱗狀細(xì)胞癌银锻、膀胱腺癌永品、膠質(zhì)母細(xì)胞瘤和肺腺癌。聚類及其邊界由評估突變顯著聚類的方法定義击纬。在所有圖中鼎姐,N表示在整個隊列中觀察到的基因中每種類型后果(即錯義突變、無義突變或影響剪接的突變)的突變數(shù)量更振。bZIP Maf炕桨,bZIP Maf轉(zhuǎn)錄因子域;雙特異性磷酸酶肯腕,催化結(jié)構(gòu)域献宫;DUF3452;未知函數(shù)3452的域实撒;表皮生長因子受體姊途;Furin樣、Furin樣富含半胱氨酸區(qū)知态;GF受體IV捷兰,生長因子受體結(jié)構(gòu)域IV;NFE2L2负敏,核因子紅系2相關(guān)因子2贡茅;Pkinase_-Tyr、蛋白酪氨酸和絲氨酸/蘇氨酸激酶原在;PTPN11友扰,蛋白酪氨酸磷酸酶非受體11型彤叉;RB_A庶柿,視網(wǎng)膜母細(xì)胞瘤相關(guān)蛋白A結(jié)構(gòu)域;RB_B秽浇,視網(wǎng)膜母細(xì)胞瘤相關(guān)蛋白B結(jié)構(gòu)域浮庐;Rb_C,Rb C端域;SH2审残,Src同源2結(jié)構(gòu)域梭域。
總的來說,跨多個基因的蛋白質(zhì)產(chǎn)物的幾個結(jié)構(gòu)域似乎優(yōu)先受到十種以上不同腫瘤類型的突變的影響(圖7a搅轿,b)病涨。p53 DNA結(jié)合域(圖7a,b中的p53)在42種不同癌癥類型的隊列中出現(xiàn)明顯的體細(xì)胞突變璧坟,數(shù)量比任何其他蛋白質(zhì)域都多既穆,盡管這僅由TP53驅(qū)動。在另一個例子中雀鹃,13個不同基因的酪氨酸激酶結(jié)構(gòu)域在24種腫瘤類型的隊列中顯著富集突變幻工。在這13個基因中,BRAF是在大多數(shù)腫瘤類型中表現(xiàn)出酪氨酸激酶結(jié)構(gòu)域內(nèi)顯著富集體細(xì)胞突變的基因(14)黎茎。RAS囊颅、鈣粘蛋白和C2H2鋅指結(jié)構(gòu)域在13種癌癥類型中均表現(xiàn)出顯著的突變富集。
圖7 | 復(fù)發(fā)性癌癥驅(qū)動域和突變簇。a |點代表在許多不同腫瘤類型的許多不同驅(qū)動基因中顯著富集突變的所有域镶摘。選定的具有非常顯著豐富內(nèi)容的域被著色并用域首字母縮略詞表示耗啦,而其余域則顯示為淺灰色。b |在其蛋白質(zhì)產(chǎn)物的a部分中著色的區(qū)域中突變顯著富集的基因跨越腫瘤類型奸鬓。c–f |從癌癥基因組圖譜(TCGA)(c部分)、急性髓系白血驳Ф痢(從Beat AML項目184獲得)(d部分)中獲得的結(jié)直腸癌患者隊列中的幾個驅(qū)動因素中確定的突變數(shù)量和線性突變簇的患病率串远,前列腺腺癌(摘自2019年《癌癥抗?fàn)帯罚⊿U2C)出版物185)(e部分)和毛細(xì)胞星形細(xì)胞瘤(摘自國際癌癥基因組聯(lián)盟(ICGC))(f部分)。每個群組中出現(xiàn)在簇中的每個蛋白質(zhì)的突變分?jǐn)?shù)以及基因序列中這些簇的寬度出現(xiàn)在每個圖表下方的熱圖中儿惫。每列頂部的數(shù)字代表每個簇中突變的樣本數(shù)量澡罚。
對重要簇的概述表明,腫瘤抑制基因中的簇更寬肾请,而癌基因中的簇更窄留搔,并且傾向于積累在基因中觀察到的更大比例的突變(圖7c–f,8)铛铁。觀察到特別窄的簇隔显,例如在KRAS(蛋白質(zhì)的5個核苷酸重疊密碼子12和13)中,在496例大腸腺癌隊列中積累了85%的基因突變(圖7c)饵逐,或在一組257例急性髓系白血病患者中括眠,影響密碼子132的兩個核苷酸的異檸檬酸脫氫酶1(IDH1)的所有突變(圖7d)。在444例前列腺腺癌隊列(圖7e)中倍权,斑點型POZ蛋白(SPOP)突變(密碼子119和133之間的44個核苷酸)的83%聚集在更寬的簇中掷豺,在439例毛細(xì)胞星形細(xì)胞瘤隊列(圖7f)中,TP53突變(密碼子266和275之間的28個核苷酸)的28%聚集在一起。簇的寬度和位于簇內(nèi)的基因突變的比例因腫瘤發(fā)生中癌基因的作用模式而異(圖8)当船。相對狹窄的癌基因簇反映了沿著其序列存在相對較少的功能獲得突變题画。這也是為什么這些簇傾向于集中在一組腫瘤中觀察到的癌基因突變的大部分。在腫瘤抑制基因中觀察到更廣泛的簇德频,因為通常在它們的序列中有更多的功能缺失突變(例如苍息,影響一個重要功能域的幾個氨基酸的突變)。
圖8 | 簡編中腫瘤抑制物和癌基因中檢測到的線性簇壹置。在基因簡編中檢測到的特定腫瘤類型的每個簇都表示為一個點档叔。癌基因用紅色表示,腫瘤抑制基因用藍(lán)色表示蒸绩。圖中兩個變量的單獨分布通過圖上方和右側(cè)的1D直方圖表示衙四。每個點的顏色強(qiáng)度反映了相同位置的點的數(shù)量。急性髓系白血不家凇传蹈;結(jié)腸腺癌;核苷酸步藕;PIA惦界,毛細(xì)胞星形細(xì)胞瘤;前列腺腺癌咙冗。
結(jié)論和展望
就像古代手稿一樣沾歪,新的書寫層疊在舊的手稿上,或者像羅馬這樣有著悠久人類居住歷史的城市雾消,某些建筑物展示了不同時代的磚塊和灰泥灾搏,腫瘤基因組中的體細(xì)胞突變構(gòu)成了它們歷史的記錄。因此立润,借用這些古文字的名稱狂窑,腫瘤中的體細(xì)胞突變可能被認(rèn)為是一種復(fù)發(fā),對其的研究可能提供關(guān)于腫瘤及其環(huán)境的極其有用的信息桑腮。這些重復(fù)序列包含所有突變過程的足跡泉哈,腫瘤中的體細(xì)胞在患者生命周期中暴露于這些突變過程,以及使人聯(lián)想到驅(qū)動突變導(dǎo)致的連續(xù)選擇性掃描的陽性選擇信號破讨。應(yīng)用于腫瘤基因組的巧妙設(shè)計的生物信息學(xué)分析能夠揭示這些足跡和痕跡丛晦。這篇綜述表明,將這種生物信息學(xué)分析系統(tǒng)地應(yīng)用于從腫瘤體細(xì)胞突變的復(fù)發(fā)中檢測陽性選擇提陶,能夠開始揭示癌癥驅(qū)動基因的概要烫沙。
在癌癥基因組學(xué)開始之前,已經(jīng)確定了幾十個癌癥驅(qū)動基因(圖9)搁骑。在二三十年的時間里斧吐,通過一系列生化分析和幾個研究小組的辛勤工作又固,對這些基因進(jìn)行了深入研究仲器,并對其功能進(jìn)行了表征煤率。相比之下,在第一批腫瘤基因組測序后不到二十年的時間里乏冀,又發(fā)現(xiàn)了數(shù)百個癌癥基因蝶糯。DNA測序的進(jìn)步和生物信息學(xué)方法的發(fā)展使癌癥基因組學(xué)的這一“時代”成為可能,以應(yīng)對基因組學(xué)數(shù)據(jù)分析帶來的挑戰(zhàn)辆沦。如本文所示昼捍,從目前公共領(lǐng)域(約28000個)的癌癥外顯子分析中獲得的突變驅(qū)動基因概要包含500到600個突變驅(qū)動基因。該綱要的完成將成為我們理解腫瘤生物學(xué)道路上的一個里程碑肢扯。到目前為止妒茬,很可能已經(jīng)發(fā)現(xiàn)了頻率超過10%的突變基因,系統(tǒng)分析蔚晨,如IntOGen平臺所做的分析乍钻,揭示了它們與不同癌癥類型的腫瘤發(fā)生有關(guān)。
圖9 | 癌癥基因組學(xué)的過去铭腕、現(xiàn)在和未來银择。從癌癥基因組學(xué)時代開始之前通過對第一個腫瘤進(jìn)行測序確定第一個癌癥基因開始,到本綜述發(fā)表累舷,突變驅(qū)動基因綱要演變的概念表示浩考。它還展望了癌癥基因組學(xué)的整合(癌癥基因組學(xué)是一個成熟的知識領(lǐng)域)和癌癥基因組學(xué)研究的未來趨勢。
我們現(xiàn)在也能夠預(yù)測簡編今后的演變被盈。隨著全球基因組學(xué)與健康聯(lián)盟(Global Alliance for Genomics and Health)和100萬基因組計劃155等共享國際數(shù)據(jù)的舉措取得成果析孽,預(yù)計公共領(lǐng)域存儲的腫瘤體細(xì)胞突變數(shù)據(jù)集數(shù)量將迅速增加。隨著這些數(shù)據(jù)的使用只怎,綱要的新快照被發(fā)現(xiàn)绿淋,預(yù)計上述趨勢將持續(xù)到未來,(1)在惡性腫瘤中以低于10%的頻率突變的新驅(qū)動因素的識別(由于統(tǒng)計能力的提高)尝盼,(2)以前未描述的情況的驅(qū)動因素吞滞,(3)到目前為止在腫瘤基因組測序項目中受到歧視的不同人群或種族的驅(qū)動因素;(4)新臨床實體的驅(qū)動因素盾沫,如轉(zhuǎn)移性或復(fù)發(fā)性腫瘤裁赠,迄今為止尚未得到相對充分的探索。例如赴精,通過當(dāng)前簡編快照的搜索顯示佩捞,雌激素受體(ESR1)和雄激素受體(AR)雖然分別在原發(fā)性乳腺癌和前列腺癌中很少發(fā)生突變,但它們顯然是抗藥性的突變驅(qū)動因素蕾哟。
在這篇綜述中一忱,我們有目的地關(guān)注影響蛋白質(zhì)編碼基因的驅(qū)動突變莲蜘。正如引言中提到的,這排除了影響驅(qū)動基因的其他類型的體細(xì)胞改變帘营。雖然為了揭示突變驅(qū)動基因票渠,短INDEL包含在點突變中,但其發(fā)生概率可能涉及其直接序列背景以外的特征芬迄,因此其背景率更難建模问顷。它還排除了影響非編碼基因組元素的突變在腫瘤發(fā)生中的潛在作用,最近的研究發(fā)現(xiàn)禀梳,與編碼基因相比杜窄,這些突變很少。重點關(guān)注已知的癌癥基因及其順式調(diào)節(jié)區(qū)算途,其中一項調(diào)查顯示塞耕,非編碼驅(qū)動突變的頻率遠(yuǎn)低于蛋白質(zhì)編碼突變,端粒酶逆轉(zhuǎn)錄酶(TERT)突變除外嘴瓤,即使在校正了全基因組和全外顯子組測序數(shù)據(jù)集之間的統(tǒng)計能力差異后也是如此扫外。
然而,從全基因組測序腫瘤中也可以明顯看出纱注,我們目前對非編碼區(qū)突變分布的了解不夠全面畏浆,無法正確模擬其背景突變率。此外狞贱,我們對基因組大多數(shù)非編碼區(qū)的生物學(xué)功能的了解仍然遠(yuǎn)遠(yuǎn)落后于編碼基因刻获。解決這些問題將是全面探索駕駛員非編碼基因組元素目錄的關(guān)鍵。此外瞎嬉,需要對所有類型的驅(qū)動因素改變(編碼和非編碼體細(xì)胞點突變蝎毡、結(jié)構(gòu)變異、表觀遺傳沉默事件和種系易感性變異)進(jìn)行全面概述氧枣,以揭示它們在腫瘤中的全貌(在預(yù)印本文章102中報告)沐兵。
目前的驅(qū)動基因簡編沒有詳細(xì)描述每個基因在腫瘤發(fā)展中的確切作用。因此便监,了解每個驅(qū)動基因的精確改變模式(即扎谎,它的哪些突變有可能驅(qū)動腫瘤發(fā)生以及為什么)及其在腫瘤發(fā)生中干擾的特定生物學(xué)功能是癌癥基因組學(xué)在不久的將來面臨的主要挑戰(zhàn)之一。
第一個挑戰(zhàn)是精確識別改變驅(qū)動基因功能的機(jī)制烧董,使其能夠驅(qū)動腫瘤的發(fā)生毁靶。這與識別所有能夠?qū)е聬盒阅[瘤的癌癥驅(qū)動基因突變并理解其在細(xì)胞轉(zhuǎn)化中的作用7,97,102是一樣的。如前所述逊移,我們建議在綱要中計算的突變特征可+能有助于這項工作预吆。此外,盡管腫瘤發(fā)生需要幾個關(guān)鍵的生物過程(上文詳述的癌癥特征)的擾動胳泉,但具體的過程——例如拐叉,逃避凋亡岩遗,維持增殖信號和逃避免疫系統(tǒng)——受綱要中許多基因突變的影響——仍然是未知的。驅(qū)動突變意義的解釋也被腫瘤內(nèi)異質(zhì)性和癌細(xì)胞微環(huán)境生態(tài)的復(fù)雜性所混淆凤瘦。通過轉(zhuǎn)錄組學(xué)宿礁、蛋白質(zhì)組學(xué)和甲基組學(xué)等分析腫瘤的其他維度,以及對單個基因功能及其相互作用的系統(tǒng)分析159-161和單細(xì)胞分析方法162-165廷粒,將有助于彌合這一差距窘拯。
第二個挑戰(zhàn)來自這樣一個事實红且,即雖然驅(qū)動基因是通過其陽性選擇信號單獨識別的坝茎,但事實上驅(qū)動腫瘤發(fā)生的是一組驅(qū)動突變97,102。例如暇番,已知影響四種特定途徑的驅(qū)動突變發(fā)生在絕大多數(shù)大腸腺癌中嗤放,并且是健康細(xì)胞發(fā)展為浸潤性癌所必需的。此外壁酬,盡管腫瘤隊列中所有驅(qū)動基因的陽性選擇信號是等效的次酌,但驅(qū)動突變可能發(fā)生在腫瘤進(jìn)化的不同階段。再次舆乔,生物信息學(xué)在癌癥基因組復(fù)發(fā)分析中的巧妙應(yīng)用使研究人員能夠開始解決這一時間順序166岳服;然而,需要更多的工作來理解它希俩。
最后吊宋,還有一個挑戰(zhàn),那就是要充分理解除了體細(xì)胞突變以外的其他特征如何在腫瘤發(fā)生中起作用颜武。雖然幾乎所有的腫瘤都含有基因組驅(qū)動突變璃搜,但這些并不足以解釋細(xì)胞轉(zhuǎn)化的完整歷史。對健康捐贈者體細(xì)胞突變的研究表明鳞上,許多癌癥驅(qū)動因素已經(jīng)在體細(xì)胞組織的非轉(zhuǎn)化細(xì)胞中發(fā)生突變这吻。其他場景(例如克隆造血)或良性腫瘤,也顯示了同樣的情況篙议。這導(dǎo)致了一個結(jié)論唾糯,即健康的體細(xì)胞組織中存在一定程度的正選擇,但沒有達(dá)到細(xì)胞轉(zhuǎn)化水平鬼贱。在這個連續(xù)體中移怯,正選擇發(fā)生在賦予適應(yīng)性優(yōu)勢的突變上,這可能在體細(xì)胞組織之間以及隨著時間的推移而變化吩愧。因此芋酌,只有在特定選擇約束的背景下,突變才能成為驅(qū)動因素雁佳。在某些情況下脐帝,為了達(dá)到細(xì)胞轉(zhuǎn)化水平同云,非遺傳表型變化,如基因表達(dá)的隨機(jī)性堵腹、蛋白質(zhì)合成錯誤或某些表觀遺傳修飾炸站,也可能很重要。這種變化在抗藥性和轉(zhuǎn)移等過程中都有記錄疚顷。
總之旱易,縮小綱要中的基因列表與我們對腫瘤發(fā)生過程的全面了解之間的差距是癌癥基因組學(xué)在不久的將來面臨的重大挑戰(zhàn)之一。反過來腿堤,深入了解腫瘤發(fā)生將是將我們對癌癥基因組學(xué)的知識轉(zhuǎn)化為精確的癌癥醫(yī)學(xué)的基礎(chǔ)阀坏。
參考文獻(xiàn)(部分)
/5. Bailey, M. H. et al. Comprehensive characterization of cancer driver genes and mutations. Cell 173, 371–385.e18 (2018).
/7. T amborero, D. et al. Cancer genome interpreter annotates the biological and clinical relevance of tumor alterations. Genome Med. 10, 25 (2018).
/8. Mertens, F ., Johansson, B., Fioretos, T . & Mitelman, F . The emerging complexity of gene fusions in cancer. Nat. Rev. Cancer 15, 371–381 (2015).
/9. Santarius, T ., Shipley, J., Brewer, D., Stratton, M. R. & Cooper, C. S. A census of amplified and overexpressed human cancer genes. Nat. Rev. Cancer 10, 59–64 (2010).
/10. Baylin, S. B. & Ohm, J. E. Epigenetic gene silencing in cancer – a mechanism for early oncogenic pathway addiction? Nat. Rev. Cancer 6, 107–1 16 (2006).
/11. Kuenzi, B. M. & Ideker, T . A census of pathway maps in cancer systems biology. Nat. Rev. Cancer 20, 233–246 (2020).
/12. Gonzalez-Perez, A. et al. IntOGen-mutations identifies cancer drivers across tumor types. Nat. Methods 10, 1081–1082 (2013).
/13. Rubio-Perez, C. et al. In silico prescription of anticancer drugs to cohorts of 28 tumor types reveals targeting opportunities. Cancer Cell 27, 382–396 (2015).
/91. Davoli, T . et al. Cumulative haploinsufficiency and triplosensitivity drive aneuploidy patterns and shape the cancer genome. Cell 155, 948–962 (2013).
/92. T okheim, C. J., Papadopoulos, N., Kinzler, K. W., Vogelstein, B. & Karchin, R. Evaluating the evaluation of cancer driver genes. Proc. Natl Acad. Sci. USA 11 3, 14330 (2016).
/93. Porta-Pardo, E. et al. Comparison of algorithms for the detection of cancer drivers at subgene resolution. Nat. Methods 14, 782–788 (2017).
/94. T amborero, D. et al. Comprehensive identification of mutational cancer driver genes across 12 tumor types. Sci. Rep. 3, 2650 (2013).
/97. Martincorena, I. et al. Universal patterns of selection in cancer and somatic tissues. Cell 171, 1029–1041.e21 (2017).
/102. Sabarinathan, R. et al. The whole-genome panorama of cancer drivers. Preprint at bioRxiv (2017).
/155. Saunders, G. et al. Leveraging European infrastructures to access 1 million human genomes by 2022. Nat. Rev. Genet. 20, 693–701 (2019).
/159. Dempster, J. M. et al. Agreement between two large pan-cancer CRISPR-Cas9 gene dependency data sets. Nat. Commun. 10, 1–14 (2019).
/160. T sherniak, A. et al. Defining a cancer dependency map. Cell 170, 564–576.e16 (2017).
/161. Behan, F . M. et al. Prioritization of cancer therapeutic targets using CRISPR-Cas9 screens. Nature 568, 51 1–516 (2019).
/162. Lawson, D. A., Kessenbrock, K., Davis, R. T ., Pervolarakis, N. & Werb, Z. T umour heterogeneity and metastasis at single-cell resolution. Nat. Cell Biol. 20,
1349–1360 (2018).
/163. Baslan, T . & Hicks, J. Unravelling biology and shifting paradigms in cancer with single-cell sequencing. Nat. Rev. Cancer 17, 557–569 (2017).
/164. Levitin, H. M., Yuan, J. & Sims, P . A. Single-cell transcriptomic analysis of tumor heterogeneity. T rends Cancer 4, 264–268 (2018).
/165. Wagner, J. et al. A single-cell atlas of the tumor and immune ecosystem of human breast cancer. Cell 177, 1330–1345.e18 (2019).
/166. Gerstung, M. et al. The evolutionary history of 2,658 cancers. Nature 578, 122–128 (2020).