Nature | AI工具Eve預測基因變的與3219種疾病的相關性
原創(chuàng)?圖靈基因?圖靈基因?今天
收錄于話題#前沿分子生物學技術
了解人類基因組中豐富的基因變異對疾病的影響有可能會改變醫(yī)療保健硅堆,但盡管我們可能知道一些特定基因突變的后果井赌,但我們解釋通過基因組測序確定的數(shù)百萬基因變異含義的能力仍然是一個挑戰(zhàn)接奈。
哈佛醫(yī)學院和牛津大學的研究人員現(xiàn)在開發(fā)了一種稱為EVE(變異效應的進化模型)的人工智能(AI)工具,它使用一種復雜的機器學習來檢測數(shù)十萬非人類物種的遺傳變異模式困乒,然后用它們來預測人類基因變異的意義仇矾。
在《Nature》雜志上發(fā)表的一項研究中尚胞,研究小組利用EVE評估了多個物種的3600萬個蛋白質序列和3219個疾病相關基因郊愧。他們的研究結果表明,事實上蟆融,256000個先前確定的草巡、目前意義未知的人類基因變異應該重新歸類為良性或致病性。雖然研究人員強調EVE不是一種診斷測試型酥,但他們表示EVE可以增強遺傳學家和其他內科醫(yī)生目前用于診斷山憨、預測疾病進展、甚至根據(jù)某些致病基因突變的存在選擇治療的臨床工具弥喉∮艟梗“越來越多的人可以對其基因組進行測序,但理解數(shù)據(jù)并不總是那么簡單由境∨锬叮”該研究的資深作者、HMS Blavatnik研究所系統(tǒng)生物學副教授Debora Marks博士說虏杰,“關于它對疾病或疾病進展的可能性意味著什么的信息非常少……我們相信我們的方法可以作為當前臨床評估的補充工具讥蟆,并提供一種強大的新方法來減少不確定性和明確決策,特別是在臨床環(huán)境中纺阔∪惩”
Marks與牛津大學的同事Yarin Gal博士,共同第一作者Jonathan Frazer博士笛钝,哈佛醫(yī)學院的Mafalda Dias博士钧栖,以及牛津大學的Pascal Notin共同領導了這項報告的研究低零。在題為“Disease variant prediction with deep generative models of evolutionary data”的科學家們的報告中,他們總結道拯杠,“我們的工作表明,進化信息模型可以為變異解釋提供有價值的獨立證據(jù)啃奴,這將在研究和臨床環(huán)境中大有裨益潭陪。”
沒有兩個人是完全相同的最蕾,這是編碼在每個人DNA獨特排列中的生物奇點依溯。但盡管這種基因變異是推動多樣性的生物學基本特征,是進化的引擎瘟则,但它也有陰暗的一面黎炉。
DNA序列和由此產(chǎn)生的構建細胞的蛋白質的改變有時會導致生理功能的嚴重破壞并導致疾病。但了解哪些變異對疾病產(chǎn)生影響是一個巨大的挑戰(zhàn)醋拧,將人類基因組中的特定變化與疾病聯(lián)系起來仍然困擾著臨床遺傳學領域慷嗜,因為人類群體中變異的數(shù)量使科學家能夠調查的數(shù)量相形見絀。
盡管只對一小部分人進行了測序丹壕,但研究人員已經(jīng)發(fā)現(xiàn)了數(shù)百萬個意義尚不清楚的變異庆械。在這些變異中,只有2%被歸類為良性菌赖、中性或致病性缭乘。其余98%的已鑒定基因變異目前被認為具有“未知的意義”×鹩茫“人類基因組測序的指數(shù)級增長突顯了人類群體中的大量基因變異……量化人類疾病相關基因中蛋白質變異的致病性將對臨床決策產(chǎn)生顯著影響堕绩,但這些變異中的絕大多數(shù)(超過98%)仍然有未知的后果……將基因組中的特定變化與疾病表型聯(lián)系起來仍然是一個公開的挑戰(zhàn),因為人類群體中的變異數(shù)量超過了我們能夠調查的數(shù)量邑时∨簦”
準確解釋基因變異意義的風險是巨大的。將良性變異解讀為致病因素可能會導致錯誤診斷刁愿,從而引發(fā)一系列進一步的檢測和可能不必要的醫(yī)療干預绰寞。相反,當觀察铣口、進一步檢測或預防措施可能被強制執(zhí)行時滤钱,將促進疾病的DNA變異誤解為良性可能會提供錯誤的保證。
研究小組指出脑题,在人類基因組中件缸,僅蛋白質編碼區(qū)域就包含了人與人之間的巨大差異,迄今為止叔遂,已觀察到650萬個錯義變異他炊。這些所謂的錯義突變可能對蛋白質的功能沒有影響争剿,或者可能引起蛋白質功能失調,導致疾病痊末。事實上蚕苇,研究人員估計,除了居住在地球上的80億人的基因組中致命的蛋白質位置外凿叠,每個蛋白質位置都可能存在變異涩笤。
研究人員說:“在很多方面,一個人不僅僅擁有一個基因組盒件。一個基因的一個拷貝上可能有不同的變體蹬碧,隨著年齡的增長,會發(fā)生各種各樣的體細胞變異——不僅與癌癥的發(fā)展有關炒刁,而且與神經(jīng)退行性變有關恩沽,這兩者都是由突變驅動的與年齡相關的過程∠枋迹”
研究人員已經(jīng)確定了許多與疾病相關的基因罗心,這些基因的突變具有臨床疾病的高風險。其中包括用于乳腺癌和卵巢癌的BRCA1和BRCA2绽昏,以及用于一系列癌癥的腫瘤抑制基因p53协屡。但即使是這些基因也顯示出其他未經(jīng)研究的突變,其意義尚不清楚全谤。研究人員說肤晓,所有這些都迫切需要澄清人類基因變異的重要性,在這個過程中认然,計算將在提供答案方面發(fā)揮越來越重要的作用补憾。
神經(jīng)網(wǎng)絡的一個決定性特征是,它們能夠在新數(shù)據(jù)可用時不斷重新評估和更新假設的概率卷员。這意味著神經(jīng)網(wǎng)絡可以使用新的知識重新評估證據(jù)盈匾,因此可以檢測傳統(tǒng)方法遺漏的模式和意義。
在當前的研究中毕骡,研究人員使用了一種稱為無監(jiān)督機器學習(unsupervised machine learning)的復雜分析方法削饵,這是一種人工智能形式,它不基于預定義的參數(shù)和規(guī)則未巫,而是涉及自適應學習窿撬。這意味著,當呈現(xiàn)新數(shù)據(jù)時叙凡,機器學習算法將隨著時間的推移更好地識別模式劈伴。相比之下,在有監(jiān)督的機器學習中握爷,算法學習從預先標記的數(shù)據(jù)中檢測模式——它的訓練是有監(jiān)督的跛璧。
在信息學家給出的一個經(jīng)典示例中严里,該算法使用貓和狗的圖像,并在識別未標記的貓和狗圖像之前告知哪些是哪些圖像追城。在無監(jiān)督機器學習中刹碾,該算法被給出一組貓和狗的圖像,而不告訴它們哪個是哪個漓柑。它必須自己識別模式教硫。研究人員進一步指出:“因為算法不需要事先知道哪些圖像是貓,哪些圖像是狗辆布,它只需要一組貓和狗的圖像,所以無法使用它不應該知道的信息茶鉴》媪幔”
兩種類型的機器學習都為特定任務提供了優(yōu)勢。無監(jiān)督模型的一個優(yōu)點是涵叮,通過向他們提供預先標記的數(shù)據(jù)惭蹂,不可能使他們的學習產(chǎn)生偏差。此外割粮,它們還可以隨著數(shù)據(jù)的變化進行調整盾碗,以執(zhí)行更復雜的分析。研究人員說舀瓢,目前大多數(shù)用于評估基因變異重要性的計算方法都采用基于臨床標簽的監(jiān)督訓練廷雅,這可能會使這些工具產(chǎn)生偏差,并導致現(xiàn)實世界中預測的準確性過高京髓『阶海“原則上,計算方法可以支持對遺傳變異的大規(guī)模解釋堰怨。然而芥玉,最先進的方法依賴于對已知疾病標簽的機器學習模型進行訓練。由于這些標簽稀疏备图、有偏見且質量參差不齊灿巧,因此產(chǎn)生的模型被認為不夠可靠±夸蹋”
正是無監(jiān)督機器學習從以前從未遇到過的數(shù)據(jù)中檢測新模式的能力抠藕,使得這種方法特別適合于分析非人類的基因序列。多年來绞吁,科學家們一直使用比較遺傳學來檢測DNA或蛋白質序列中的相似區(qū)域幢痘,從而得出其意義。哈佛-牛津大學的研究小組使用神經(jīng)網(wǎng)絡在更大范圍內實現(xiàn)了這一目標家破。
在他們報告的研究中颜说,研究人員重新審視了這個概念购岗,即通過研究多個物種的遺傳變異,他們可能會收集到關于人類變異重要性的線索门粪『盎“根據(jù)無監(jiān)督生成模型的最新發(fā)展,我們重新審視了進化信息的臨床價值玄妈∏牵”他們指出。進化傾向于保留對物種的功能和生存至關重要或至少重要的特征拟蜻。因此绎签,跨物種重復出現(xiàn)的氨基酸排列是生物學重要性的標志,酝锅,表明它們對生物體的功能及其進化適應性很重要诡必。因此,改變這種高度保守的序列可能會帶來麻煩搔扁,并與致病性有關爸舒。
該計算方法分析了14萬個物種的數(shù)據(jù),包括瀕危和滅絕的生物稿蹲,并有效地尋找進化上保守的模式以得出結論扭勉。“我們的方法——EVE——從物種間序列變異的分布中了解人類錯義變異的致病傾向苛聘⊥垦祝”該團隊寫道⊙娴粒“從進化角度講璧尸,這些物種離我們還有很長的路要走,并且存在許多遺傳差異熬拒,但綜合起來爷光,它們?yōu)槲覀兲峁┝诵畔ⅰ澎粟!毖芯咳藛T說蛀序,“這就是為什么該模型在與人類和人類變異相關的模式方面如此強大活烙⌒炻悖”
在對2.5億個蛋白質序列進行訓練后,EVE估計了每個單一氨基酸變異是良性還是致病性的可能性啸盏。為了確定EVE是否做出了準確的預測次企,研究人員將其分數(shù)與已知意義的已確定的人類突變進行了比較缸棵。研究小組發(fā)現(xiàn)谭期,該工具的結果與臨床數(shù)據(jù)非常一致隧出。
接下來狰贯,研究人員將EVE應用于一組3219個與疾病相關的人類基因幔摸。研究人員說既忆,EVE對所有基因的突變是致病性的還是良性的做出了正確的判斷,包括60個“臨床上可行”的基因宇挫。當研究人員將EVE的表現(xiàn)與其他有監(jiān)督和無監(jiān)督工具進行比較時,它顯示出明顯更高的預測準確性援所。事實上,分析表明,EVE在預測臨床效果方面優(yōu)于其他計算預測模型,并且得分與目前測試突變對生物功能影響的金標準高通量實驗一樣高或更好。“EVE在預測已知的臨床標簽方面優(yōu)于所有有監(jiān)督和無監(jiān)督的方法∑1铮”該團隊表示埃脏。
但是,與評估基因突變如何影響生理功能的金標準——實際臨床實驗的結果相比苦蒿,EVE的預測結果如何惫撰?為了回答這個問題扼雏,研究小組將EVE的分數(shù)與臨床實驗的結果進行了比較,這些實驗涉及五種基因的突變俺猿,其中包括與各種癌癥、幾種癌癥綜合征和心律失常相關的基因。EVE的預測與實驗數(shù)據(jù)中的當前標簽重疊圈盔「孀椋“我們的模型EVE…不僅優(yōu)于依賴標記數(shù)據(jù)的計算方法掸冤,而且與高通量實驗的預測相當,甚至更好,它被越來越多地用作變異分類的證據(jù)……我們的方法優(yōu)于實驗方法的主要優(yōu)勢是,以可忽略不計的成本在范圍內獲得了顯著的收益凹联”文樱”
“我們的結果比預期的要好得多。似乎通過簡單地訓練一個模型來擬合整個進化過程中序列的分布杠巡,我們就能提取信息量窘,從而使我們能夠對給定基因變異引起的疾病風險做出出乎意料的精確預測∏庥担”研究人員說蚌铜。
EVE與現(xiàn)有方法相比的一個顯著優(yōu)勢是,EVE與現(xiàn)有方法相比的一個顯著優(yōu)勢是嫩海,它分配的是連續(xù)分數(shù)冬殃,而不是二進制分數(shù)。這是因為叁怪,即使基因變異被標記為良性或致病性审葬,突變在生理上的表現(xiàn)方式也更為微妙。
“有一個完整的致病性連續(xù)體奕谭』辆酰”研究人員說,“連續(xù)評分對于預測致病性水平非常重要血柳。突變是意味著我的小腳趾會痛官册,還是明天就會死了?”
該工具的另一個重要方面是难捌,它在逐個基因的基礎上分配預測分數(shù)的置信度攀隔。這可以幫助臨床醫(yī)生對任何預測的確定程度進行相關分析皂贩。換句話說,對于每一種基因變異昆汹,EVE都會告訴專家他們可以相信它的判斷明刷。研究人員說,這是一個可信度和對模型的信心問題满粗。
“我們希望這種方法能夠產(chǎn)生強大的數(shù)據(jù)辈末,使一線臨床醫(yī)生能夠做出正確的診斷、預后和治療決策映皆〖菲福”研究人員說,“我們不僅為臨床醫(yī)生提供了一個數(shù)字捅彻,還為他們提供了隨之而來的不確定性程度组去。這是專家在決策過程中可以采取和使用的東西。該工具可以說步淹,‘我認為那個變異屬于那一堆从隆,但我以前從未見過任何類似的變異,所以請謹慎對待缭裆〖耄’或者該工具也可以說,‘我認為其他變異屬于這一堆澈驼,我見過與過去非常相似的變體辛燥,我看到它們屬于這一堆,因此我將非常自信地將它分配到這一堆缝其】嫠’在工具和專家之間建立信任是這項工作的一個重要方面∧诒撸”
研究人員說勃蜘,這種類型的建模仍處于起步階段,很明顯假残,進化和基因變異仍然可以教會我們很多關于疾病的知識,他們還計劃將這項工作擴展到蛋白質編碼區(qū)以外的基因組其他部分炉擅。然而辉懒,他們總結道,“一個吸引人的前景是谍失,我們的方法可能有助于指導未來的實驗工作眶俩,基本上可以作為一種確定哪些變異和哪些基因最能提供信息的手段】煊悖”
近期的一項緊迫任務是將我們確實了解的遺傳變異進行臨床應用颠印。為此纲岭,研究人員已經(jīng)與一家基因組測序公司合作,并通過Chan ZuckerbergInitiative與各個團體合作线罕。
該團隊還參與了變異效應圖譜聯(lián)盟(Atlas of Variant Effects Alliance)止潮,這是一項全球研究工作,任務是繪制整個基因組的變異效應圖钞楼,并創(chuàng)建所有可能的人類基因變異及其對蛋白質功能和生理學影響的綜合圖譜喇闸。這項工作的最終目標是改善人類疾病的診斷、預后和治療询件。