導(dǎo)讀
Konrad J. Karczewski, and Michael P. Snyder撰寫的關(guān)于整合多組學(xué)在疾病研究中的應(yīng)用一文《Integrative omics for health and disease》聚蝶,于2018年2月26日發(fā)表在nature reviews genetics (Nature系列綜述, 2018 IF: 41.465)杰妓。
對(duì)于發(fā)病原因復(fù)雜的疾病通常很難用單一的理論模式進(jìn)行全面表述,多組學(xué)技術(shù)通過整合生物系統(tǒng)中諸多相互聯(lián)系和作用的組分來研究復(fù)雜生物過程的機(jī)制碘勉,從而為更加準(zhǔn)確地對(duì)疾病進(jìn)行闡述提供了可能性巷挥。同時(shí)作者也闡述了多組學(xué)技術(shù)在臨床應(yīng)用中存在的問題和挑戰(zhàn),并且整合組學(xué)正推動(dòng)著真正的精準(zhǔn)醫(yī)學(xué)時(shí)代的來臨验靡。
摘要
多種組學(xué)技術(shù)(如基因組倍宾、轉(zhuǎn)錄組雏节、蛋白質(zhì)組和代謝組)的進(jìn)步已在極其詳盡的分子水平促使個(gè)體化醫(yī)療成為可能。盡管每個(gè)單獨(dú)的組學(xué)技術(shù)都促進(jìn)了醫(yī)學(xué)的進(jìn)步并已進(jìn)入臨床實(shí)踐高职,然而單個(gè)技術(shù)難以捕捉大多數(shù)人類疾病的整體復(fù)雜性钩乍。整合多組學(xué)技術(shù)正成為綜合研究生物和疾病的新方法。本文討論了多組學(xué)數(shù)據(jù)的整合怔锌,以及將其應(yīng)用于人類健康和疾病研究的可能性寥粹。我們提供了一些多組學(xué)數(shù)據(jù)整合的例子,用以理解产禾、診斷并監(jiān)測(cè)相應(yīng)疾病的治療排作,包括罕見病、常見病以及癌癥和移植生物學(xué)。最后我們討論了多組學(xué)技術(shù)在臨床應(yīng)用上面臨的技術(shù)和其它方面的挑戰(zhàn)仍劈。
生信老司機(jī)以中心法則為主線講解組學(xué)技術(shù)的應(yīng)用和生信分析心得
名詞解釋
1. 可操作性 (Actionability): 基礎(chǔ)研究的突破能用于改善某種疾病治療的醫(yī)學(xué)實(shí)踐琢唾。
2. 孟德爾遺傳病 (Mendelian diseases): 由遵循孟德爾遺傳規(guī)律(如顯性或者隱性)的單個(gè)位點(diǎn)或基因引起的疾病。
3. 遺傳病因?qū)W (Genetic aetiology): 研究引起特定疾病的遺傳因素的學(xué)科衫生。
4. 表達(dá)數(shù)量性狀位點(diǎn) (Expression quantitative trait loci (eQTLs)): 誘發(fā)基因表達(dá)顯著變化的遺傳變異。
5. 遺傳力 (Heritability): 性狀的表型變化可歸因于加性遺傳變異的比例土浸。
6. DNA酶超敏感性 (DNase hypersensitivity): 根據(jù)染色質(zhì)被DNA酶I切割的敏感性來度量染色質(zhì)的開放程度罪针。
7. 結(jié)構(gòu)變異 (Structural variants): 1 Kb或者更長區(qū)域的一類遺傳變異,包括拷貝數(shù)重復(fù)黄伊、插入泪酱、缺失以及易位和倒位。
8. 縱向數(shù)據(jù) (Longitudinal data): 在一段時(shí)間內(nèi)还最,從較大的群體中對(duì)同一受試者的重復(fù)觀測(cè)結(jié)果的集合墓阀。
高通量測(cè)序及其它大規(guī)模并行分析技術(shù)(如質(zhì)譜)成本的快速下降使他們能夠廣泛應(yīng)用于臨床研究與實(shí)踐。外顯子組和基因組測(cè)序技術(shù)已被用于疾病的輔助診斷(尤其是罕見病的診斷)拓轻、指導(dǎo)癌癥的治療和預(yù)后以及建立健康個(gè)體的疾病預(yù)測(cè)模型等斯撮。很多科研人員和公司正在致力于開發(fā)全基因組范圍內(nèi)的遺傳、基因表達(dá)和其它組學(xué)數(shù)據(jù)(如微生物組扶叉,BOX 1)做為疾病診斷的標(biāo)記物(詳細(xì)見TABLE 1)勿锅。例如全基因組關(guān)聯(lián)分析(GWAS)已經(jīng)成功地鑒定出了疾病的風(fēng)險(xiǎn)位點(diǎn)。然而多數(shù)情況下枣氧,一些疾病相關(guān)的驅(qū)動(dòng)變異或驅(qū)動(dòng)基因仍未被鑒定出來溢十。在此情況下,其它組學(xué)技術(shù)可以在精準(zhǔn)病理生理學(xué)上對(duì)這些疾病提供有效檢測(cè)达吞。有些組學(xué)技術(shù)如蛋白質(zhì)組學(xué)可以產(chǎn)生更接近于生物表型的數(shù)據(jù)张弛,但由于昂貴且不夠深入全面,在用于查明病因上仍有很多挑戰(zhàn)。因此乌庶,幾乎沒有一種單獨(dú)的技術(shù)能夠解釋導(dǎo)致人類疾病的分子事件的復(fù)雜性种蝶。測(cè)序發(fā)展史:150年的風(fēng)雨歷程
Box 1
方框1. 在多組學(xué)技術(shù)中引入微生物組
微生物組與許多人類常見疾病有關(guān),但由于不確定其是因是果瞒大,使得問題變得更加復(fù)雜螃征。基因組數(shù)據(jù)中透敌,致病性關(guān)系簡單明確盯滚,通常是DNA影響表型(除了癌癥導(dǎo)致的突變發(fā)生外)。但解密微生物組成與疾病的因果關(guān)系卻比較困難這些研究需要昂貴的縱向或介入性實(shí)驗(yàn)酗电,并且小鼠模型無法全面模擬人體生物學(xué)魄藕。盡管如此,患有諸如炎癥性腸病撵术、II型糖尿病和肥胖癥等疾病的患者確實(shí)具有與健康人群顯著不同的微生物組成背率。此外,微生物組對(duì)免疫功能有強(qiáng)烈影響嫩与,在動(dòng)物模型中被認(rèn)為是疾病發(fā)生的潛在因素寝姿。
隨著對(duì)微生物組理解的深入,綜合分析該組學(xué)及其它組學(xué)技術(shù)可以加深對(duì)人類疾病的理解划滋。最近研究顯示饵筑,人類基因序列影響整個(gè)腸道微生物群的組成,為某些疾病的相關(guān)遺傳位點(diǎn)提出新的致病解釋处坪。此外根资,人類遺傳物質(zhì)和微生物組之間的互作會(huì)影響疾病,同時(shí)整合這兩種圖譜的研究會(huì)很有價(jià)值同窘。宿主與其微生物組之間的代謝信號(hào)互作已成為一個(gè)熱門的研究領(lǐng)域玄帕,越來越多的證據(jù)表明來自腸道細(xì)菌的代謝物可能在人類疾病中起作用。因此塞椎,綜合分析基因組桨仿、代謝組睛低、微生物組及其它組學(xué)可能有助于健康管理和疾病診治案狠。
表1: 整合組學(xué)的數(shù)據(jù)類型
CPTAC, Clinical Proteomic TumourAnalysis Consortium; EDRN, Early Detection Research Network; ENCODE,Encyclopedia of DNA Elements; GEUVADIS, Genetic European Variation in Healthand Disease; gnomAD, Genome Aggregation Database; GTEx, Genotype–TissueExpression; GWAS, genome-wide association study.
理想情況下,不同的組學(xué)技術(shù)可以結(jié)合起來钱雷,用以輔助疾病診斷并全面了解人類的表型和疾病骂铁。然而多組學(xué)數(shù)據(jù)的分析引入了新的信息和解讀上的挑戰(zhàn)。尤其需要新穎的分析和統(tǒng)計(jì)方法來將不同類型的數(shù)據(jù)集整合和質(zhì)量控制指標(biāo)的標(biāo)準(zhǔn)化罩抗。此外該領(lǐng)域必須重視分子事件的解讀拉庵、基礎(chǔ)發(fā)現(xiàn)的可操作性以及是否可以用于指導(dǎo)治療和臨床護(hù)理。
下面將介紹整合組學(xué)如何通過幫助健康管理及疾病的診斷治療來影響醫(yī)學(xué)套蒂。我們討論了罕見的孟德爾遺傳病如肌營養(yǎng)不良癥和更為常見的疾病如自閉癥和阿爾茨海默病的臨床前和臨床應(yīng)用钞支。此外茫蛹,我們還研究了多層次組學(xué)技術(shù)在癌癥診斷和治療中的應(yīng)用。我們始終都在討論綜合多個(gè)數(shù)據(jù)集的優(yōu)勢(shì)烁挟,例如多種技術(shù)優(yōu)勢(shì)互補(bǔ)婴洼,有助于深入了解疾病的機(jī)制。此外撼嗓,還討論了目前的技術(shù)方法和將多個(gè)來源的數(shù)據(jù)進(jìn)行最優(yōu)組合和解讀的挑戰(zhàn)柬采,以及將其成功應(yīng)用于闡明人類疾病機(jī)制的一些令人鼓舞的例子。
1. Dissecting Mendelian disease
解析孟德爾遺傳病
在北美且警,大約10%的住院兒童和20%的嬰兒的死亡可歸因于孟德爾遺傳病粉捻。多數(shù)情況下,臨床醫(yī)生和病人家屬會(huì)借助外顯子組及基因組測(cè)序技術(shù)找到孟德爾遺傳病的相關(guān)致病突變斑芜。但是由于疾病類型和實(shí)驗(yàn)設(shè)計(jì)等因素肩刃,這一新技術(shù)在靶向測(cè)序未能找到致病機(jī)理的病例中只有25-50%獲得了成功。對(duì)于主要由隱性變異導(dǎo)致的疾病杏头,只有當(dāng)此致病變異已被收錄在疾病變異數(shù)據(jù)庫(如Clinvar)中或者在一個(gè)已知疾病基因上發(fā)生了蛋白質(zhì)截?cái)嘧儺悾ㄈ缣崆敖K止树酪,移碼或關(guān)鍵剪接位點(diǎn)變異)時(shí),這種檢測(cè)技術(shù)才最為有效大州。然而续语,有時(shí)變異的影響可能比較微弱(例如可誘發(fā)新的隱性剪接位點(diǎn)的內(nèi)含子變異),或由于體細(xì)胞嵌合導(dǎo)致突變難以被檢測(cè)到厦画,或多個(gè)候選變異都可能是驅(qū)動(dòng)變異疮茄,這些都會(huì)使導(dǎo)致疾病發(fā)生的真正變異變得難以被檢測(cè)到。此外根暑,不了解遺傳病因或?qū)蜻x變異基因研究較少時(shí)力试,這種診斷會(huì)格外復(fù)雜。綜合其它信息如RNA測(cè)序(RNA-seq)或網(wǎng)絡(luò)分析排嫌,有利于檢測(cè)可能的驅(qū)動(dòng)變異中更重要的分子事件畸裳,或提供更多的證據(jù)來表明某個(gè)候選突變是導(dǎo)致疾病發(fā)生的原因。例如在對(duì)非典型范可尼貧血癥的患者進(jìn)行多組學(xué)分析時(shí)淳地,DNA測(cè)序和基因組雜交微陣列芯片(aCGH)在識(shí)別最終被鑒定為驅(qū)動(dòng)突變的位點(diǎn)是有效的怖糊,而RNA-seq可為一些最初不認(rèn)為有致病性的變異提供致病證據(jù),包括影響剪接模式的內(nèi)含子變異和同義突變颇象,以及導(dǎo)致轉(zhuǎn)錄本被削弱表達(dá)的非編碼外顯子及其上游區(qū)域的缺失伍伤。
最近,對(duì)大約50名患者的兩項(xiàng)系統(tǒng)性研究均使用了RNA-seq和其它技術(shù)(圖1)遣钳,使得診斷率提高了約10%到35%扰魂。其中一項(xiàng)研究表明,全外顯子組測(cè)序(whole-exome sequencing, WES)并沒有為被診斷為肌營養(yǎng)不良癥的(muscular dystrophy, MD)患者找到驅(qū)動(dòng)變異,但RNA-seq數(shù)據(jù)卻鑒定出導(dǎo)致剪接異常的隱性剪接突變事件劝评。特別的姐直,即使對(duì)這些患者進(jìn)行了全基因組測(cè)序(WGS)鑒定出這些變異,但由于它們多位于內(nèi)含子區(qū)域或被預(yù)測(cè)為不會(huì)影響剪接蒋畜,也可能不會(huì)被視為可誘發(fā)疾病的變異简肴。由于測(cè)序成本快速降低以及可獲得的信息量增加,RNA-seq可能會(huì)成為在臨床實(shí)踐中鑒定疾病病理與生理學(xué)的有力工具百侧。同樣地砰识,隨著蛋白質(zhì)組學(xué)技術(shù)的成本越來越低和更容易獲取,使其可用于鑒定諸如通過影響蛋白質(zhì)穩(wěn)定性或翻譯后修飾的錯(cuò)義突變而引起的蛋白水平變化佣渴。蛋白質(zhì)組學(xué)研究概述
圖1 鑒定可用于診斷罕見病的驅(qū)動(dòng)變異辫狼。在Kremer和Cummings等人的工作中,采用了多組學(xué)方法助力于診斷尚未診斷的疾病辛润。盡管現(xiàn)在外顯子組和基因組測(cè)序能夠在20%至50%的案例中有效地識(shí)別驅(qū)動(dòng)變異(取決于不同的遺傳和表型)膨处,但單一組學(xué)技術(shù)并不能診斷大多數(shù)的病例。(a,b)用來自患者組織的RNA-seq數(shù)據(jù)可以進(jìn)行分子診斷砂竖,鑒定出異常表達(dá)真椿、剪切或者是具有等位基因特異性表達(dá)的基因,從而幫助揭示疾病進(jìn)展的分子機(jī)制乎澄。(c)在某些情況下突硝,功能驗(yàn)證如蛋白質(zhì)組可以更進(jìn)一步助力疾病診斷。(生物AI插圖素材獲取和拼裝指導(dǎo)置济,高顏值可定制在線繪圖工具-第三版)
2. Genetic architecture of common disease
常見疾病的遺傳結(jié)構(gòu)
很多常見病比如糖尿病解恰、肥胖癥、精神分裂癥和自閉癥等發(fā)病機(jī)制復(fù)雜浙于,是多種遺傳和環(huán)境因素共同作用的結(jié)果护盈。目前已發(fā)現(xiàn)數(shù)千個(gè)基因組位點(diǎn)與人類疾病密切相關(guān)。然而一旦確立了這種相關(guān)性羞酗,難點(diǎn)則是在特定疾病的分子生理病理背景下研究該基因的特征以及與其影響的基因和通路腐宋。為此更多多組學(xué)數(shù)據(jù)集的分析方法被開發(fā)出來,其中包括網(wǎng)絡(luò)分析和富集分析檀轨。GO胸竞、GSEA富集分析一網(wǎng)打進(jìn)
2.1 Network analyses
網(wǎng)絡(luò)分析
多種正交類型數(shù)據(jù)的整合可用于縮小疾病相關(guān)基因的搜索范圍并鑒定致病機(jī)制。特別是一些網(wǎng)絡(luò)模型裤园,包括蛋白質(zhì)-蛋白質(zhì)相互作用生信寶典之傻瓜式(四)蛋白蛋白互作網(wǎng)絡(luò)在線搜索撤师、調(diào)控和共表達(dá)網(wǎng)絡(luò)剂府,已被證明是鑒定疾病基因和通路的寶貴資源拧揽。這些網(wǎng)絡(luò)可以與任何全基因組范圍的數(shù)據(jù)集(包括單核苷酸多態(tài)性(SNP)或基因表達(dá)數(shù)據(jù))相結(jié)合,用于考察在某項(xiàng)研究中與疾病顯著相關(guān)基因網(wǎng)絡(luò)的拓?fù)鋵W(xué)性質(zhì),這對(duì)那些在全基因組統(tǒng)計(jì)分析不顯著的基因更為適用 (因?yàn)榭梢钥紤]其加性效應(yīng)淤袜,GSEA富集分析 - 界面操作)痒谴。對(duì)于遺傳變異數(shù)據(jù),挑戰(zhàn)在于將SNP位點(diǎn)映射到受影響的基因:在某些情況下這種變異的作用比較明確铡羡,比如克羅恩氏病的免疫應(yīng)答相關(guān)基因NOD2的移碼突變积蔚,但更多的情況是變異影響的基因并不明確。此外烦周,多個(gè)SNPs可以組團(tuán)增強(qiáng)調(diào)控能力尽爆,這時(shí)就需要考慮連鎖不平衡模式的影響。
盡管存在這些挑戰(zhàn)读慎,網(wǎng)絡(luò)法已經(jīng)成功地幫助理解了一些人類疾病漱贱。例如,在自閉癥類群(ASD)患者中具有新的錯(cuò)義或無義突變的基因夭委,往往富集于蛋白-蛋白相互作用網(wǎng)絡(luò)中與其它基因(為了速成生物學(xué)幅狮,一位程序員探索了"爆款"基因背后的秘密)尤其是先前認(rèn)為參與ASD的基因有高度連結(jié)的基因中。這種方式提供了一種在候選疾病基因中進(jìn)行優(yōu)選的機(jī)制株灸,要么是表示這些基因由于是網(wǎng)絡(luò)的中樞基因而具有更重要的影響崇摄,或因?yàn)榕c已知的疾病基因有關(guān)而被推定為疾病相關(guān)基因。生信寶典之傻瓜式 (四) 蛋白蛋白互作網(wǎng)絡(luò)在線搜索
此外慌烧,我們實(shí)驗(yàn)室最近的兩項(xiàng)工作將基因組學(xué)逐抑、RNA-seq和蛋白質(zhì)組學(xué)數(shù)據(jù)整合在一起,鑒定出與自閉癥有關(guān)的新基因和復(fù)合物屹蚊,并對(duì)其功能特點(diǎn)進(jìn)行了描述泵肄。特別是對(duì)蛋白-蛋白相互作用網(wǎng)絡(luò)的分析揭示了一個(gè)模塊(或稱為互作基因群),此模塊富集了已知的參與自閉癥的基因淑翼,以及在自閉癥病例中攜帶拷貝數(shù)突變和罕見突變的基因腐巢。該模塊富集了參與突觸傳導(dǎo)的基因,并且RNA-seq數(shù)據(jù)顯示其中一個(gè)子模塊中的許多基因在ASD患者的胼胝體具有差異表達(dá)(DESeq2差異基因分析和批次效應(yīng)移除)玄括,這為許多ASD患者相比于正常人有更小胼胝體的現(xiàn)象提供了一個(gè)假定的分子解釋冯丙。同樣,通過將自閉癥患者的罕見變異比對(duì)到蛋白質(zhì)復(fù)合體上揭示了參與自閉癥的新蛋白質(zhì)和復(fù)合體遭京,包括組蛋白去乙跷赶В化酶(HDAC)、染色質(zhì)重塑復(fù)合體和其它蛋白質(zhì)復(fù)合體哪雕。因此船殉,全基因組測(cè)序數(shù)據(jù)和全外顯子測(cè)序數(shù)據(jù)與蛋白質(zhì)互作數(shù)據(jù)的整合可以為重要疾病(如包括自閉癥斯嚎、II型糖尿病和心臟怖妗)提供新的機(jī)制解釋挨厚。來一場蛋白和小分子的風(fēng)花雪月
2.2 Enrichment analyses
富集分析
為了理解從DNA到生理機(jī)能的遺傳信息流整體的調(diào)控機(jī)制,最近已經(jīng)進(jìn)行了許多大規(guī)模的富集分析糠惫。蛋白質(zhì)的編碼變異是許多生物性狀的基礎(chǔ)疫剃,比如來自GWAS的許多與性狀相關(guān)的基因位點(diǎn)富集了蛋白質(zhì)序列的中斷變異(非同義變異)。然而只有一小部分的疾病屬于這一類硼讽,因此將非編碼調(diào)控注釋信息與疾病相關(guān)的其它數(shù)據(jù)整合起來巢价,對(duì)于鑒定疾病基因和查明病因非常有價(jià)值。特別是固阁,用于測(cè)量基因表達(dá)(RNA-seq壤躲,轉(zhuǎn)錄組分析工具哪家強(qiáng)?)以及用于測(cè)量基因表達(dá)調(diào)控區(qū)活性的方法(如用于檢測(cè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的染色質(zhì)免疫沉淀測(cè)序(ChIP-seq)或用于檢測(cè)染色質(zhì)開放區(qū)域的DNA酶高敏感位點(diǎn)測(cè)序(DNase-seq))备燃,在鑒定基因組調(diào)控的組織特異性研究上具有重要價(jià)值柒爵。因此,如果疾病相關(guān)變異富集在表達(dá)數(shù)量性狀基因位點(diǎn)(eQTL)以及轉(zhuǎn)錄因子結(jié)合位點(diǎn)赚爵,那么許多疾病的病因可能是對(duì)應(yīng)的調(diào)控機(jī)制異常棉胀。最近一項(xiàng)對(duì)108個(gè)精神分裂癥相關(guān)位點(diǎn)的研究證實(shí),其中20個(gè)位點(diǎn)的基因表達(dá)有變化冀膝,這可以至少部分解釋他們之間的部分關(guān)聯(lián)唁奢。ChIP-seq基本分析流程
最近使用GWAS總結(jié)統(tǒng)計(jì)和功能注釋數(shù)據(jù)的分區(qū)遺傳法(partitioning heritability methods),闡明了編碼區(qū)和調(diào)控區(qū)變異的相對(duì)貢獻(xiàn)窝剖,結(jié)果表明許多常見性狀的大部分遺傳特征來源自于調(diào)控區(qū)的變異(DNA酶超敏感的開放染色質(zhì)區(qū)域)麻掸,以及許多細(xì)胞類型特異的增強(qiáng)子區(qū)域 (從Richard Young教授的系列研究看超級(jí)增強(qiáng)子發(fā)現(xiàn)背后的故事 (附超級(jí)增強(qiáng)子鑒定代碼))。
此外赐纱,這種富集信息可用于辨別驅(qū)動(dòng)變異以及通過增加對(duì)每種性狀特異性注釋的權(quán)重來鑒定與疾病和性狀有關(guān)的新基因脊奋。在撰寫本文時(shí),這些方法尚未進(jìn)入臨床實(shí)踐疙描,但在揭示許多常見疾病的病因方面具有非常重要的價(jià)值诚隙。
3 Narrowing causal mechanisms in common disease
聚焦常見疾病的驅(qū)動(dòng)機(jī)制
如前所述,GWAS已成功識(shí)別出與疾病在統(tǒng)計(jì)學(xué)上有相關(guān)性的基因位點(diǎn)起胰,但卻很少發(fā)現(xiàn)驅(qū)動(dòng)變異久又。整合多種數(shù)據(jù)類型如功能注釋數(shù)據(jù),也可以加深對(duì)特定疾病相關(guān)變異潛在功能的理解效五。
3.1 Indirect integration across individuals
個(gè)體間的間接整合
目前地消,確定與某一性狀相關(guān)的驅(qū)動(dòng)變異的低成本方法是使用多個(gè)獨(dú)立的數(shù)據(jù)集,從一組具有生物學(xué)證據(jù)的候選位點(diǎn)中確定疾病形成的機(jī)制畏妖。此過程可以從GWAS開始脉执,然后對(duì)一組基因組范圍的統(tǒng)計(jì)顯著相關(guān)位點(diǎn)做后續(xù)的功能驗(yàn)證,具體的實(shí)驗(yàn)可能取決于所鑒定的基因位點(diǎn)的類型或疾病的遺傳結(jié)構(gòu)戒劫。對(duì)于編碼變異半夷,后續(xù)確定變異對(duì)蛋白質(zhì)結(jié)構(gòu)或功能影響的實(shí)驗(yàn)可以很好地解釋疾病的起因婆廊。對(duì)于非編碼區(qū)的變異,結(jié)果通常更難以解讀玻熙,但最近的大規(guī)模表觀遺傳學(xué)研究如DNA元件百科全書計(jì)劃(ENCODE)和表觀基因組路線圖項(xiàng)目(Roadmap Epigenomics projects)否彩,可以提示可能的調(diào)節(jié)機(jī)制以及后續(xù)實(shí)驗(yàn)需要關(guān)注的轉(zhuǎn)錄因子疯攒。例如嗦随,對(duì)系統(tǒng)性紅斑狼瘡(SLE)相關(guān)變異的詳細(xì)研究表明,變異不僅影響核轉(zhuǎn)錄因子-κB(NF-κB)的結(jié)合敬尺,并且與腫瘤壞死因子-α誘導(dǎo)蛋白3(TNFAIP3)在mRNA和蛋白質(zhì)水平上均相關(guān)枚尼。
Manolis Kellis和其同事最近兩項(xiàng)綜合多種數(shù)據(jù)類型的研究,極大地加深了對(duì)阿爾茨海默病和肥胖癥分子病理學(xué)的理解砂吞。首先署恍,該研究組結(jié)合基因表達(dá)和表觀組學(xué)數(shù)據(jù),發(fā)現(xiàn)在阿爾茨海默病小鼠模型中上調(diào)的基因具有免疫細(xì)胞增強(qiáng)子的特征蜻直。重要的是盯质,雖然免疫系統(tǒng)基因與阿爾茨海默病之間的聯(lián)系早已確立,但在此情形下多組學(xué)數(shù)據(jù)類型被證實(shí)可用于建立一個(gè)效應(yīng)(所施加)的方向概而,即阿爾茨海默病人免疫系統(tǒng)基因的表達(dá)和調(diào)節(jié)活性均有協(xié)調(diào)性地增加呼巷。同樣地,整合表觀基因組和染色體構(gòu)象數(shù)據(jù)赎瑰,以及攜帶FTO肥胖等位基因的患者的基因表達(dá)信息和許多其它數(shù)據(jù)類型王悍,為風(fēng)險(xiǎn)等位基因的機(jī)制提供了解釋(圖2)。使用CRISPR-Cas9(CRISPR-CAS9發(fā)展歷程小記)對(duì)風(fēng)險(xiǎn)等位基因進(jìn)行基因組編輯可以修復(fù)其異常表達(dá)和熱量生成餐曼,這提供了一種對(duì)于肥胖癥的潛在治療方式压储。
圖2 從全基因組關(guān)聯(lián)研究到機(jī)制解釋。在最近的一項(xiàng)研究中源譬,Claussnitzer和其同事提出了鑒定FTO基因中的一個(gè)與肥胖相關(guān)變異位點(diǎn)的疾病驅(qū)動(dòng)機(jī)制的綜合方法集惋。(熱圖、箱線圖在線繪制踩娘,教師節(jié)獻(xiàn)禮 - 文章用圖的修改和排版)
圖a展示了肥胖相關(guān)生物機(jī)制的整體研究策略芋膘,并對(duì)每一步進(jìn)行了順序編號(hào)。最開始的全基因組關(guān)聯(lián)研究(GWAS)中曼哈頓圖展示了FTO基因區(qū)與肥胖顯著相關(guān)(圖b)霸饲。首先为朋,研究人員確定了相關(guān)的組織或細(xì)胞類型(步驟1)以及下游靶基因。這主要通過調(diào)控組學(xué)包括染色質(zhì)狀態(tài)信息和染色體構(gòu)象捕獲(Hi-C)數(shù)據(jù)來分析實(shí)現(xiàn)的厚脉。同時(shí)他們確立了該變異為發(fā)育基因IRX3和IRX5(步驟2)的表達(dá)數(shù)量性狀基因位點(diǎn)(eQTL)习寸。這是因?yàn)樵谟酗L(fēng)險(xiǎn)突變的個(gè)體中這些基因的表達(dá)增加而相鄰其它基因的表達(dá)則沒有改變(圖C)。進(jìn)一步發(fā)現(xiàn)IRX3和IRX5的表達(dá)與參與線粒體功能的基因表達(dá)負(fù)相關(guān)傻工,與參與脂肪細(xì)胞大小調(diào)控的基因表達(dá)正相關(guān)(圖d)霞溪。然后使用CRISPR-Cas9編輯實(shí)驗(yàn)揭示核苷酸驅(qū)動(dòng)變異在ARID5B的富含AT的結(jié)合基序中(步驟3孵滞,4),并驗(yàn)證了其其分子效應(yīng)鸯匹,包括表達(dá)特征的改變和調(diào)節(jié)能量平衡的表型效應(yīng)對(duì)(步驟5)坊饶。最后,使用小鼠模型在生物體水平上確立了驅(qū)動(dòng)變異(步驟6)殴蓬。AKTIP, AKT interacting protein; CEU, Utah residents (CEPH) with northern and western European ancestry; CHD9, chromodomain helicase DNA binding protein 9; CRNDE, colorectal neoplasia differentially expressed; FXR, farnesoid X-activated receptor; LD, linkage disequilibrium; PGC1α, peroxisome proliferatoractivated receptor-γco-activator 1-α; PRDM16, PR domain zinc-finger protein 16; RBL2, RB transcriptional co-repressor like 2; RXR, retinoid X receptor; SNPs, single-nucleotide polymorphisms; TF, transcription factor; TSS, transcription start site; UCP1, mitochondrial brown fat uncoupling protein 1.
3.2 Direct integration within an individual
個(gè)體內(nèi)的直接整合
多組學(xué)技術(shù)數(shù)據(jù)的整合可以在生物調(diào)控的多個(gè)層次之間建立聯(lián)系匿级。繪制單個(gè)個(gè)體的多組學(xué)特征圖譜將會(huì)是全面揭示導(dǎo)致特定生理表型的分子機(jī)制的有力工具。然而這些方法需要對(duì)同一個(gè)體實(shí)施多次干預(yù)及技術(shù)處理染厅,所以比較昂貴痘绎,限制了其應(yīng)用于大量樣本。我們實(shí)驗(yàn)室第一次進(jìn)行了這個(gè)實(shí)驗(yàn)肖粮,隨訪了一個(gè)人7年多孤页,而另一個(gè)類似的研究隨訪了另一個(gè)人1年。在Chen等的文章中涩馆,基因組分析預(yù)測(cè)到升高的II型糖尿病風(fēng)險(xiǎn)行施,隨后通過詳盡的組學(xué)分析,包括轉(zhuǎn)錄組學(xué)魂那、蛋白質(zhì)組學(xué)蛾号、代謝組學(xué)和其它測(cè)量技術(shù)等進(jìn)行了深入驗(yàn)證。特殊地冰寻,在呼吸道合胞病毒感染期間须教,RNA-seq和液相色譜-串聯(lián)質(zhì)譜(LC-MS/MS)的蛋白質(zhì)組學(xué)發(fā)現(xiàn)參與胰島素信號(hào)傳遞和響應(yīng)的基因下調(diào),同時(shí)血糖濃度上升至糖尿病患者的水平斩芭。多組學(xué)技術(shù)的優(yōu)勢(shì)在于可以在共不變的遺傳和個(gè)體背景下追蹤分子機(jī)制的聯(lián)系轻腺,因?yàn)榭梢愿櫡肿邮录倪B續(xù)進(jìn)展,如GWAS鑒定的疾病相關(guān)基因的差異表達(dá)導(dǎo)致了RNA和蛋白質(zhì)水平及其相應(yīng)代謝物的差異划乖。
然而贬养,由于組學(xué)分析實(shí)驗(yàn)有很高的多重假設(shè)檢驗(yàn)負(fù)擔(dān)(如基因組中所有的基因或成千上萬的代謝物),更大的樣本量將有助于確定這種相關(guān)性的普遍性琴庵。最近一項(xiàng)研究監(jiān)測(cè)了23個(gè)個(gè)體的不同組學(xué)特征误算,確定了體重增加時(shí)的炎癥特征,并發(fā)現(xiàn)某些代謝途徑在體重減輕后沒有恢復(fù)到正常水平迷殿。該分析強(qiáng)調(diào)了個(gè)體縱向組學(xué)特征的相似性儿礼,以及在穩(wěn)態(tài)和實(shí)驗(yàn)干擾下的個(gè)體特異性特征。為了進(jìn)一步明確這些差異庆寺,將這些分析擴(kuò)展到數(shù)千個(gè)個(gè)體的研究已在早產(chǎn)蚊夫、炎癥性腸病和II型糖尿病中展開。同樣地懦尝,最近兩個(gè)獨(dú)立的研究組分別對(duì)遺傳和代謝組學(xué)數(shù)據(jù)進(jìn)行了分析:其中一個(gè)計(jì)算了100多個(gè)個(gè)體的多基因風(fēng)險(xiǎn)評(píng)分知纷,并與代謝產(chǎn)物的測(cè)量值相關(guān)聯(lián)壤圃;另一個(gè)則是在健康志愿者中鑒定了與個(gè)體代謝產(chǎn)物和代謝通路異常相關(guān)的罕見有害變異。此外琅轧,隨著健康個(gè)體的組學(xué)參考數(shù)據(jù)庫的建立(比如已經(jīng)可用的有:外顯子組數(shù)據(jù)伍绳、基因組數(shù)據(jù)(如Genome Aggregation Database (gnom AD)和RNA-seq數(shù)據(jù)),在這些對(duì)照組背景下解讀個(gè)體水平的數(shù)據(jù)將變得更加容易乍桂。
其它工作包括弗雷明漢心臟研究(Framingham Heart Study)和基因組表征研究冲杀,如基因型-組織表達(dá)(GTEx)項(xiàng)目,以及被提議的enhanced GTEx(eGTEx)項(xiàng)目中擴(kuò)展到基因表達(dá)之外的分析 (癌癥組織特異性基因怎么找模蜡?這是個(gè)不錯(cuò)的開始)漠趁。這些項(xiàng)目采用了廣度優(yōu)先的組學(xué)分析策略扁凛,其中大量的個(gè)體是通過一組數(shù)量有限的只測(cè)定一組分子標(biāo)記(例如全基因組DNA甲基化分析)的技術(shù)來繪制圖譜忍疾。
4. Cancer
癌癥
多組學(xué)分析已經(jīng)并將繼續(xù)產(chǎn)生巨大影響的領(lǐng)域是對(duì)于癌癥圖譜分析、診斷和治療的領(lǐng)域谨朝。實(shí)際上卤妒,許多之前討論的策略(如網(wǎng)絡(luò)法)在識(shí)別癌癥的遺傳機(jī)制上將會(huì)是有效的。然而字币,癌癥中不同突變類型 (conceptual differences in cancers)使分析變得復(fù)雜化并需要特殊處理则披。除了識(shí)別體細(xì)胞變異的技術(shù)挑戰(zhàn)外,癌癥病例中大多數(shù)明顯的遺傳改變是良性的洗出,并不會(huì)促進(jìn)癌細(xì)胞生長士复。因此,確定哪個(gè)突變是驅(qū)動(dòng)突變或哪種通路參與其中仍是一個(gè)嚴(yán)峻挑戰(zhàn)翩活。此外阱洪,盡管一些癌癥在個(gè)體間具有相同的遺傳特征,但驅(qū)動(dòng)突變的種類仍然高度多樣化菠镇,這可能會(huì)導(dǎo)致預(yù)后和治療的差異冗荸。腫瘤化療無效是對(duì)預(yù)先存在的突變的選擇還是誘發(fā)新突變,Cell給你答案
4.1 Identifying driver mutations
鑒定驅(qū)動(dòng)突變
一個(gè)典型的識(shí)別驅(qū)動(dòng)突變的過程包含對(duì)多個(gè)腫瘤進(jìn)行全基因組測(cè)序(WGS)來識(shí)別共有的突變基因利耍。添加功能數(shù)據(jù)有助于對(duì)這些基因的驅(qū)動(dòng)基因的可能性進(jìn)行排序蚌本,因?yàn)轵?qū)動(dòng)突變更可能出現(xiàn)在特定癌癥表達(dá)的基因中。例如隘梨,在使用全外顯子測(cè)序(WES)結(jié)合拷貝數(shù)變異(CNV)微陣列數(shù)據(jù)鑒定驅(qū)動(dòng)突變的分析中程癌,RNA-seq數(shù)據(jù)支持融合基因EGFR-SEPT14的表達(dá),后續(xù)功能驗(yàn)證表明該突變確實(shí)可影響神經(jīng)膠質(zhì)瘤的生長轴猎。在另一項(xiàng)使用類似技術(shù)的不同分析中嵌莉,個(gè)體內(nèi)多個(gè)轉(zhuǎn)移灶的驅(qū)動(dòng)突變和演化進(jìn)程在轉(zhuǎn)移灶之間基本相似,表明單個(gè)轉(zhuǎn)移灶足以進(jìn)行下游分析税稼。通過這種方式烦秩,使用額外多組學(xué)數(shù)據(jù)與遺傳數(shù)據(jù)共同分析垮斯,提供了一種機(jī)制來過濾大量的遺傳變異,最終獲得與功能相關(guān)的驅(qū)動(dòng)變異只祠。
4.2 Molecular signatures of cancer
癌癥的分子標(biāo)記
除了識(shí)別驅(qū)動(dòng)突變之外兜蠕,多組學(xué)數(shù)據(jù)還可以揭示在癌癥中活躍的生化途徑并將其分類為各種亞型。因此抛寝,這是確定患者體內(nèi)靶向哪種通路的一個(gè)有用工具熊杨,即使在這些通路中未檢測(cè)到強(qiáng)候選突變(如難以表征的非編碼突變或間接效應(yīng))。例如盗舰,轉(zhuǎn)錄組學(xué)和DNA甲基化模式分析已被用于識(shí)別與預(yù)后相關(guān)的癌癥亞型晶府。最近,臨床蛋白質(zhì)組學(xué)腫瘤分析聯(lián)盟(CPTAC)的三項(xiàng)研究使用基于蛋白質(zhì)表達(dá)特征的蛋白質(zhì)組學(xué)方法鑒定了結(jié)腸直腸癌钻趋、卵巢癌和乳腺癌的亞型川陆。重要的是,蛋白質(zhì)組學(xué)數(shù)據(jù)顯示出與轉(zhuǎn)錄組和遺傳數(shù)據(jù)重疊但不完全相同的相關(guān)性蛮位,表明不同的數(shù)據(jù)類型揭示不同的信息较沪。這些研究展示了的不同遺傳和轉(zhuǎn)錄過程通過蛋白質(zhì)組學(xué)變化發(fā)揮作用。最后失仁,影像學(xué)信息與多組學(xué)信息的整合有望在癌癥診斷和預(yù)后中發(fā)揮重要作用尸曼。
最近,調(diào)節(jié)基因表達(dá)的非編碼區(qū)域的研究對(duì)于理解癌癥的調(diào)控模式變得越來越有價(jià)值萄焦。將調(diào)控信息的數(shù)據(jù)集與來自癌癥基因組圖譜(TCGA控轿,UCSC XENA - 集大成者(TCGA, ICGC),TCGA數(shù)據(jù)庫在線使用)的WGS數(shù)據(jù)整合的一項(xiàng)研究拂封,揭示了一些調(diào)控區(qū)域富含癌癥患者的攜帶突變茬射。在此情況下,這些非編碼區(qū)域中哪些突變是驅(qū)動(dòng)變異仍然難以確定烘苹,表明還需要相關(guān)研究繼續(xù)對(duì)這些變異做進(jìn)一步篩選躲株;盡管如此,具有相同癌癥的個(gè)體之間共有的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以指示癌癥亞型镣衡,這些亞型可能有不同的預(yù)后和治療策略霜定。最后,鑒于癌癥生長對(duì)代謝變化的強(qiáng)烈依賴性廊鸥,代謝組學(xué)很可能在未來的癌癥診斷或預(yù)后中發(fā)揮重要作用望浩。代謝與腫瘤,超強(qiáng)綜述
5. Challenges
挑戰(zhàn)
到目前為止惰说,大多數(shù)整合模型已在科研領(lǐng)域被報(bào)道和發(fā)表磨德。從首次成功診斷到多機(jī)構(gòu)和國際采納,臨床基因組學(xué)的應(yīng)用在過去幾年中迅速擴(kuò)大。同樣典挑,隨著縱向多組學(xué)分析酥宴,最近有了第一個(gè)研究實(shí)例,在以后也會(huì)類似地成為一種臨床工具您觉。
然而拙寡,對(duì)于臨床采用的任何技術(shù),在檢測(cè)和解讀中都需要高特異性和靈敏度琳水。目前肆糕,除了在特殊情況下使用WES或WGS,這些技術(shù)在臨床實(shí)踐中并不經(jīng)常使用在孝,因?yàn)閷?duì)許多疾病來說它們并未被證明優(yōu)于當(dāng)前的檢測(cè)诚啃。未來,必須建立臨床指南以確保準(zhǔn)確性和有效性私沮,并且必須進(jìn)行測(cè)試以展現(xiàn)其非劣效性和成本優(yōu)勢(shì)始赎。
盡管存在以上挑戰(zhàn)于购,組學(xué)分析仍是檢測(cè)大規(guī)模變化或通路水平變化的有效方法凡壤,比進(jìn)行數(shù)千個(gè)獨(dú)立測(cè)試更便宜且通常更全面,并且縱向分析可以顯示患者特異的趨勢(shì),并可通過重復(fù)測(cè)量增加統(tǒng)計(jì)支持涨享。雖然建立臨床指南仍面臨挑戰(zhàn),但隨著我們對(duì)生物的理解和參考數(shù)據(jù)庫的成熟仆百,解釋遺傳變異(尤其是罕見或新變異)的許多概念可應(yīng)用于常見分子事件如差異表達(dá)基因厕隧、新蛋白磷酸化或獨(dú)特代謝組標(biāo)記。
5.1 Analytical challenges
分析挑戰(zhàn)
在臨床實(shí)踐中廣泛采用綜合組學(xué)俄周,必須解決各種分析挑戰(zhàn)吁讨,尤其是用于數(shù)據(jù)的聚合、可擴(kuò)展性和集成到電子健康記錄(EHR)的統(tǒng)計(jì)方法峦朗。最重要的是建丧,由于每個(gè)數(shù)據(jù)集都有自己的方差和偏差,因此需要一個(gè)穩(wěn)定且可重復(fù)的統(tǒng)計(jì)框架來正確分析多個(gè)統(tǒng)計(jì)上不相干的數(shù)據(jù)集波势。多組學(xué)數(shù)據(jù)可以在多個(gè)階段或多維度宏方式 (meta-dimensional)進(jìn)行分析翎朱。簡單地說,從這些數(shù)據(jù)中得出推論的一個(gè)方法就是對(duì)數(shù)據(jù)集進(jìn)行成對(duì)分析尺铣,增加證據(jù)來支持某個(gè)結(jié)論拴曲。然而,同時(shí)分析三個(gè)或更多個(gè)數(shù)據(jù)集需要更復(fù)雜的多維方法凛忿,如貝葉斯模型 (貝葉斯學(xué)習(xí)記錄)澈灼、神經(jīng)網(wǎng)絡(luò)或降維一文看懂PCA分析和還在用PCA降維?快學(xué)學(xué)大牛最愛的t-SNE算法吧(附Python/R代碼)。多組學(xué)數(shù)據(jù)類型本質(zhì)上的不同使得問題進(jìn)一步復(fù)雜化:例如遺傳變異數(shù)據(jù)是離散和靜態(tài)的叁熔,而RNA-seq數(shù)據(jù)是連續(xù)的并且可以提供縱向信息 (WGCNA分析委乌,簡單全面的最新教程)。
盡管上述數(shù)據(jù)分析方法對(duì)于理解生物學(xué)和疾病是有效的荣回,但它們可能不一定適用于臨床上個(gè)體水平的數(shù)據(jù)分析福澡。在基因組學(xué)領(lǐng)域,通過個(gè)體的基因型和GWAS數(shù)據(jù)庫驹马,可以計(jì)算多基因風(fēng)險(xiǎn)值來評(píng)估個(gè)體的患病風(fēng)險(xiǎn)革砸。構(gòu)建這樣的多組學(xué)分析框架仍然面臨一個(gè)主要障礙,即可能會(huì)面臨一些比如難以將一個(gè)群體的結(jié)果應(yīng)用于另一個(gè)群體的個(gè)體中類似的挑戰(zhàn)糯累。
除了分析方法的挑戰(zhàn)之外算利,這些分析和所有相關(guān)數(shù)據(jù)的存儲(chǔ)還需要巨大的計(jì)算資源:盡管個(gè)人的多組學(xué)數(shù)據(jù)量是可控的(例如,太字節(jié)數(shù)量級(jí)(1TB, 10^12 bytes))泳姐。但是這些數(shù)據(jù)需要放入更大的背景集中以理解與背景分布的偏差效拭,這需要來自數(shù)千個(gè)樣本(艾字節(jié)數(shù)量級(jí)(1EB , 10^18 bytes))的數(shù)據(jù)。幸運(yùn)的是胖秒,云計(jì)算慢慢可以緩解這些問題缎患,根據(jù)每個(gè)醫(yī)院或醫(yī)療保健服務(wù)系統(tǒng)的特定需求提供彈性的計(jì)算和存儲(chǔ)設(shè)備,同時(shí)提高計(jì)算過程的可重復(fù)性阎肝。可重復(fù)性編程bookdown和Python文學(xué)化編程 - Jupyter notebook使用和插件拓展 挤渔。
目前,這種綜合數(shù)據(jù)集通常沒有可用于研究的標(biāo)準(zhǔn)格式风题,更不用說用于結(jié)構(gòu)化的臨床系統(tǒng)判导;因此,需要建立基礎(chǔ)設(shè)施結(jié)構(gòu)來管理這些數(shù)據(jù)沛硅,而這會(huì)帶來財(cái)務(wù)和行政負(fù)擔(dān)眼刃。特別是,衛(wèi)生信息學(xué)家的任務(wù)是建立一個(gè)在電子健康記錄(HER)中存儲(chǔ)遺傳和轉(zhuǎn)錄組學(xué)數(shù)據(jù)的強(qiáng)大基礎(chǔ)設(shè)施摇肌。此外擂红,需要臨床醫(yī)生和研究人員的共同努力來決定將哪些信息報(bào)告給患者并納入EHR。
5.2 Accuracy and validation
準(zhǔn)確性和驗(yàn)證
個(gè)體水平上围小,全基因組數(shù)據(jù)集存在固有錯(cuò)誤率昵骤,結(jié)構(gòu)變異也仍然難以檢測(cè)和識(shí)別(因此也很少被提及)。更連續(xù)和縱向的數(shù)據(jù)如mRNA表達(dá)和蛋白質(zhì)組數(shù)據(jù)吩抓,根據(jù)所測(cè)定的組織特征其準(zhǔn)確性可能更難以評(píng)估涉茧,但是這些方法有較高技術(shù)重復(fù)和生物學(xué)重復(fù)性。在某些情況下疹娶,這些技術(shù)獨(dú)立地識(shí)別同一生物學(xué)過程的不同方面伴栓,因此可以相互驗(yàn)證:例如RNA-seq可以重現(xiàn)由WES或WGS鑒定的外顯子變異,而蛋白質(zhì)組表達(dá)可以驗(yàn)證RNA-seq的表達(dá)。然而钳垮,在需要高可信度的臨床環(huán)境中惑淳,這些測(cè)試目前由其它獨(dú)立的技術(shù)驗(yàn)證,可能包括現(xiàn)有的臨床測(cè)試如酶法或低通量測(cè)定試驗(yàn)饺窿。
對(duì)于癌癥基因組學(xué)歧焦,解讀異質(zhì)性數(shù)據(jù)是一項(xiàng)重大挑戰(zhàn)。由于每個(gè)腫瘤是由具有不同程度體細(xì)胞突變的細(xì)胞組成的嵌合體肚医,即使不區(qū)分伴隨突變和驅(qū)動(dòng)突變绢馍,變異的檢測(cè)也很困難。特別是癌癥中的體細(xì)胞突變是純系突變還是僅在組織中的一部分細(xì)胞中出現(xiàn)肠套,使得變異的發(fā)現(xiàn)復(fù)雜化舰涌,因此需要高覆蓋度和高質(zhì)量數(shù)據(jù)將其與測(cè)序錯(cuò)誤區(qū)分開來。利用細(xì)胞游離DNA(cell-free DNA)的超深度測(cè)序追蹤血液中痕量癌癥突變的存在以及利用單細(xì)胞測(cè)序檢測(cè)癌癥的異質(zhì)性正成為強(qiáng)有力的方法你稚。然而瓷耙,用于檢測(cè)早期癌癥的細(xì)胞游離DNA方法需要穩(wěn)健的方法來區(qū)分真正的低頻(變異)事件與測(cè)序錯(cuò)誤,并且單細(xì)胞測(cè)序仍然很昂貴刁赖。盡管如此搁痛,這些方法已經(jīng)被用于解析腫瘤異質(zhì)性并在產(chǎn)前檢測(cè)中識(shí)別出癌癥的一個(gè)附帶突變。隨著其它組學(xué)數(shù)據(jù)集與超深度測(cè)序結(jié)合宇弛,我們期望這些方法能夠優(yōu)勢(shì)互補(bǔ)鸡典,為臨床分子咨詢提供獨(dú)特而且強(qiáng)大的方法。
5.3 Interpretation
解讀
即使擁有高度精確的數(shù)據(jù)涯肩,另一個(gè)困難在于對(duì)基因組規(guī)模結(jié)果的解讀轿钠,特別是罕見的和新的分子事件,它們通常遠(yuǎn)遠(yuǎn)超過可以合理地進(jìn)行功能驗(yàn)證的(分子)事件的數(shù)量病苗。個(gè)體基因組中的許多變異,特別是以前沒有見過且沒有明確功能效應(yīng)的症汹,被稱為“不確定意義的變異(VUS)”硫朦,該問題對(duì)于其它數(shù)據(jù)類型(例如轉(zhuǎn)錄組或蛋白質(zhì)組數(shù)據(jù))也存在。另外背镇,判斷臨床上重要的分子事件如RNA表達(dá)閾值在不同的數(shù)據(jù)類型中很難確定咬展。幸運(yùn)的是,可用于外顯子組瞒斩、基因組測(cè)序(gnom AD)和基因表達(dá)的大型群體參考數(shù)據(jù)集已可用破婆。它們通過提供群體中的實(shí)際(變異)頻率來幫助解釋罕見事件。特別是胸囱,驅(qū)動(dòng)變異在受影響的個(gè)體中應(yīng)該比在更多的無癥狀群體中有更高的變異頻率祷舀,這可以支持或否定先前的致病機(jī)制。此外,醫(yī)生可能會(huì)發(fā)現(xiàn)不相關(guān)條件下的其它致病性分子事件裳扯,也稱偶發(fā)性發(fā)現(xiàn)抛丽,對(duì)于哪些結(jié)果反饋給患者到什么程度的信息仍存在相當(dāng)大的爭議。
當(dāng)結(jié)合多組學(xué)技術(shù)時(shí)饰豺,這些問題有時(shí)會(huì)得到改善亿鲜,尤其是對(duì)于那些難以進(jìn)行統(tǒng)計(jì)分析的、罕見的及新的分子事件冤吨。特別是蒿柳,顯示為正交信息的多組學(xué)技術(shù)的直接整合可以為某個(gè)分子事件提供額外的證據(jù):例如,如果RNA-seq顯示VUS(不確定意義的變異)影響關(guān)鍵疾病基因的剪接漩蟆,則可以證實(shí)其潛在的致病機(jī)制其馏。通過這種方法,多技術(shù)整合可以建立起單一技術(shù)無法實(shí)現(xiàn)的因果關(guān)系鏈爆安。
5.4 Finding the relevant tissue
尋找相關(guān)組織
為了維持樣品間的一致性叛复,許多大規(guī)模研究對(duì)已經(jīng)得到的樣品進(jìn)行了分析,例如血液或細(xì)胞系扔仓,包括轉(zhuǎn)化的淋巴母細(xì)胞樣細(xì)胞系( 被高中生物騙了這么多年褐奥,原來人體內(nèi)細(xì)胞的DNA是有不同的?)翘簇。然而撬码,對(duì)于臨床應(yīng)用,理想情況是研究與特定疾病相關(guān)的組織版保,因?yàn)榛虮磉_(dá)在不同組織中顯著變化(圖3)呜笑。GTEx、表觀組學(xué)路線圖和哺乳動(dòng)物基因組的功能注釋5(FANTOM5)項(xiàng)目為多組織基因表達(dá)和表觀基因組數(shù)據(jù)提供了參考數(shù)據(jù)集彻犁。多數(shù)情況下叫胁,疾病相關(guān)組織可能已有記錄,例如MD(肌營養(yǎng)不良)的肌肉組織汞幢。然而驼鹅,如果疾病定義不太明確或組織不可用,則可以通過對(duì)疾病的網(wǎng)絡(luò)分析來鑒定組織森篷。事實(shí)上输钩,已證明使用疾病相關(guān)組織對(duì)MD患者的診斷是有益的。對(duì)肌肉組織的轉(zhuǎn)錄組分析得到的診斷結(jié)果不同通過儲(chǔ)蓄替代組織(例如血液或成纖維細(xì)胞)來獲得仲智,因?yàn)榧膊∠嚓P(guān)基因在這些里面表達(dá)低买乃。
在將此類數(shù)據(jù)用于臨床應(yīng)用時(shí),應(yīng)注意確保來自患者樣本的數(shù)據(jù)與參考數(shù)據(jù)集具有可比性钓辆,這對(duì)于整合其它組學(xué)數(shù)據(jù)(例如代謝組學(xué)和蛋白質(zhì)組學(xué))將是至關(guān)重要的剪验。當(dāng)然肴焊,在組織(例如大腦)中存在大量細(xì)胞異質(zhì)性的情況下,這種分析更加復(fù)雜:在此情況下碉咆,具有單細(xì)胞分辨率的技術(shù)將為解析每種單獨(dú)的細(xì)胞類型提供有價(jià)值的見解抖韩。在原代組織難以獲得或難以維持培養(yǎng)的情況下,使用CRISPR系統(tǒng)將突變引入誘導(dǎo)多能干細(xì)胞(iPS疫铜,周琪院士正面回應(yīng):60萬一針有用嗎茂浮?(干細(xì)胞治療))可以為分子驗(yàn)證提供一個(gè)強(qiáng)有力的方法。
圖3 尋找相關(guān)組織壳咕。由于其可用性和易于采集(a部分)席揽,血液通常是最方便的實(shí)驗(yàn)組織,但它通常不是觀察特定疾病如主要影響腦或肺的疾病的分子表型的理想組織谓厘。特殊地幌羞,相比于疾病近端組織(例如肌營養(yǎng)不良的肌肉組織),血液的轉(zhuǎn)錄圖譜(包括表達(dá)水平竟稳、剪接模式和增強(qiáng)子的使用)可能不適于檢測(cè)這些疾病属桦。
5.4 Actionability and therapeutics
可操作性和治療
在討論臨床中使用的任何技術(shù)時(shí),可能最重要的是其可操作性他爸。實(shí)際上聂宾,一部分信息不足以說明其有意性:掌握診斷知識(shí)并結(jié)束診斷過程對(duì)患者和家屬來說是很有幫助的。 然而诊笤,在一個(gè)被稱為“精準(zhǔn)醫(yī)學(xué)”或“個(gè)性化醫(yī)療”的體系中系谐,可以指導(dǎo)干預(yù)的數(shù)據(jù)將十分有用讨跟。尤其是纪他,對(duì)患者的疾病亞型進(jìn)行分類以推薦特定的藥物,在組學(xué)分析(BOX 2)的基礎(chǔ)上來確定潛在移植是否匹配良好晾匠,或確定新疾病的驅(qū)動(dòng)機(jī)制(并開發(fā)可以靶向直接分子產(chǎn)物的治療方案)茶袒,可以改善治療結(jié)果并延長患者的生命。然而混聊,即使是與治療結(jié)果在統(tǒng)計(jì)學(xué)上存在相關(guān)性的非驅(qū)動(dòng)性分子事件也有可操作性弹谁,特別是以改變生活方式的建議形式,包括飲食句喜、監(jiān)測(cè)和預(yù)防性治療;事實(shí)上沟于,具有高遺傳性冠心病風(fēng)險(xiǎn)的個(gè)體從他汀類藥物治療中獲益更大咳胃。
Box 2
方框2 . 移植供體和受體的多組學(xué)分析
每年有數(shù)千名患者接受器官和造血干細(xì)胞移植,但移植患者的死亡率仍然很高旷太。檢測(cè)供體與受體匹配的慣例做法涉及人白細(xì)胞抗原(HLA)分型展懈,最近已使用高通量測(cè)序技術(shù)開發(fā)了這種方法销睁。然而,越來越清楚的是存崖,非HLA因子可以顯著影響移植物抗宿主反應(yīng)(GVHD)的預(yù)后和發(fā)展冻记,因?yàn)镠LA匹配的同胞供體移植比HLA匹配但卻無關(guān)的供體移植具有更低的GVHD風(fēng)險(xiǎn),且常見的非HLA多態(tài)性與GVHD有關(guān)来惧。
因此冗栗,多組學(xué)可用于確定最佳供體-受體匹配,以及監(jiān)測(cè)排斥標(biāo)記物供搀。例如隅居,對(duì)細(xì)胞游離DNA進(jìn)行測(cè)序可以檢測(cè)循環(huán)的供體DNA,其水平與器官排斥的嚴(yán)重程度相關(guān)葛虐。另外胎源,對(duì)這種細(xì)胞游離DNA進(jìn)行測(cè)序可同時(shí)檢測(cè)病毒DNA以指示感染標(biāo)志物。其它組學(xué)數(shù)據(jù)屿脐,例如RNA或蛋白表達(dá)涕蚤,也可用于評(píng)估供體-受體間的相容性,以及監(jiān)測(cè)排斥標(biāo)志物的诵。整合組學(xué)技術(shù)可能成為移植生物學(xué)的有用工具万栅。
6. Conclusions and future perspectives
結(jié)論和未來展望
目前,組學(xué)技術(shù)(尤其是基因組測(cè)序以及較小程度的RNA-seq)僅在極少數(shù)情況下顯示出優(yōu)于傳統(tǒng)的臨床測(cè)試奢驯,因此將這些技術(shù)納入臨床實(shí)踐存在較大的技術(shù)和監(jiān)管障礙申钩。然而,由于使用多種技術(shù)可以更清晰地了解健康和疾病瘪阁,這些技術(shù)的整合很可能在未來的臨床實(shí)踐中成為普遍現(xiàn)象撒遣。此外,最近大型生物銀行計(jì)劃(如UK Biobank, Million Veterans Project和“All of Us”計(jì)劃)收集了生物數(shù)據(jù)并對(duì)數(shù)百萬人進(jìn)行多組學(xué)分析管跺,這將對(duì)人類疾病產(chǎn)生深刻的理解义黎,并為更多其它的研究和臨床應(yīng)用提供有價(jià)值的參考數(shù)據(jù)庫。
6.1 Predictive models of disease risk for healthy individuals and early detection of disease
健康個(gè)體的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型和疾病的早期檢測(cè)
與傳統(tǒng)的臨床檢測(cè)一樣豁跑,大規(guī)模組學(xué)數(shù)據(jù)的分子測(cè)量可以整合到疾病風(fēng)險(xiǎn)模型中廉涕。特別是最近,已經(jīng)開發(fā)了一組用于計(jì)算特定疾病遺傳風(fēng)險(xiǎn)的方法艇拍,稱為多基因風(fēng)險(xiǎn)評(píng)分狐蜕。這些方法成功地將某個(gè)疾病(如心血管病等疾残断Α)的患者分為高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)類別层释。在有了基于遺傳學(xué)或是家族史的疾病風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果后進(jìn)行針對(duì)性檢測(cè)。例如快集,如果一個(gè)患者被預(yù)測(cè)患有II型糖尿病的風(fēng)險(xiǎn)贡羔,則進(jìn)行葡萄糖和糖基化血紅蛋白(HbA1c)水平的測(cè)定和其它測(cè)試廉白,例如葡萄糖耐受性測(cè)試。然而乖寒,如果在未來能夠同時(shí)高質(zhì)量和低成本地進(jìn)行代謝組學(xué)的測(cè)量猴蹂,那么將不再需要進(jìn)行單獨(dú)化學(xué)測(cè)試。此外楣嘁,來自可穿戴設(shè)備的持續(xù)收集的數(shù)據(jù)可與組學(xué)數(shù)據(jù)相結(jié)合用于在疾病癥狀出現(xiàn)之前的早期檢測(cè)磅轻。
6.2 Disease management
疾病管理
除了疾病預(yù)測(cè)和早期診斷外,整合組學(xué)在疾病治療和預(yù)后方面的作用將會(huì)變得越來越強(qiáng)大马澈。來自轉(zhuǎn)錄組瓢省、表觀基因組、微生物組痊班、蛋白質(zhì)組和代謝組的信息以及成像和可穿戴設(shè)備的數(shù)據(jù)都將用于幫助破譯疾病勤婚,促進(jìn)預(yù)后,從而指導(dǎo)治療涤伐。在癌癥中馒胆,腫瘤-正常組織對(duì)(tumour–normal pairs)的DNA和RNA測(cè)序已經(jīng)鑒定了易位(變異)和基因表達(dá)的特征,針對(duì)性的靶向治療進(jìn)而治愈疾病凝果。在未來祝迂,隨著多組學(xué)的測(cè)量數(shù)據(jù)與疾病的預(yù)后關(guān)聯(lián),這種數(shù)據(jù)驅(qū)動(dòng)的范例很可能會(huì)成為醫(yī)學(xué)研究的有力工具器净,也將有助于促進(jìn)臨床診斷和治療型雳。
原文:Integrative omics for health and disease, DOI: 10.1038/nrg.2018.4
翻譯:RPM,宋紅衛(wèi)山害,凌路頔
整合組學(xué)這么有用纠俭,要不要入門下生物信息學(xué)?生物信息之程序?qū)W習(xí)浪慌,該如何自學(xué)入門生物信息學(xué)冤荆,關(guān)于編程學(xué)習(xí)的一些思考。也可以加入我們的培訓(xùn)班权纤,一起學(xué)習(xí)钓简,廣受好評(píng)哦。
蛋白質(zhì)組學(xué)研究
轉(zhuǎn)錄組研究
39個(gè)轉(zhuǎn)錄組分析工具汹想,120種組合評(píng)估(轉(zhuǎn)錄組分析工具哪家強(qiáng)-導(dǎo)讀版)
39個(gè)轉(zhuǎn)錄組分析工具外邓,120種組合評(píng)估(轉(zhuǎn)錄組分析工具大比拼 (完整翻譯版))
文獻(xiàn)精讀
王秀杰研究組合作發(fā)現(xiàn)m6A修飾在小腦發(fā)育中的新功能 (附2018上半年m6A研究文章和點(diǎn)評(píng))
把人類寶寶和黑猩猩幼崽一起養(yǎng)大幕庐,會(huì)發(fā)生什么有趣的事情呢?結(jié)局可能是有些出乎意料的~~
更多閱讀
心得體會(huì) 癌癥數(shù)據(jù)庫 Linux Python
高通量分析 在線畫圖 測(cè)序歷史 超級(jí)增強(qiáng)子