在過去的十年中,大量組學(xué)數(shù)據(jù)集被用于人腦研究堕担。來自美國的研究人員在《Briefings in Functional Genomics》發(fā)表綜述文章,總結(jié)了健康對照組和神經(jīng)精神疾病人腦的主要多組學(xué)數(shù)據(jù)資源,包括精神分裂癥讽营、自閉癥、雙相情感障礙泡徙、阿爾茨海默氏病橱鹏、帕金森病、進(jìn)行性核上性麻痹等堪藐±蚶迹回顧了近年來單細(xì)胞技術(shù)在大腦研究中的發(fā)展(如單核RNA-seq、單細(xì)胞ATAC-seq和空間轉(zhuǎn)錄組學(xué))礁竞,同時(shí)進(jìn)一步研究了組織和單細(xì)胞數(shù)據(jù)的綜合多組學(xué)分析方法糖荒。最后討論了人腦疾病多組學(xué)研究的局限性和未來方向。
神經(jīng)精神障礙正成為全世界的一個(gè)重大負(fù)擔(dān)模捂。了解人腦是最終找到神經(jīng)精神疾病治療方法的關(guān)鍵步驟之一捶朵,研究人類神經(jīng)精神疾病通常有兩大類:遺傳研究和生物標(biāo)志物研究。而遺傳和生物標(biāo)記物研究都嚴(yán)重依賴多組學(xué)數(shù)據(jù)來實(shí)現(xiàn)其目標(biāo)枫绅。??
腦研究的多組學(xué)數(shù)據(jù)資源
研究團(tuán)隊(duì)調(diào)查了產(chǎn)生多組學(xué)數(shù)據(jù)的主要隊(duì)列或項(xiàng)目泉孩,這些數(shù)據(jù)一般用于人類生物學(xué)或特定于神經(jīng)精神疾病。
注:由于篇幅限制并淋,項(xiàng)目/聯(lián)盟名單可能不完整寓搬,還有許多其他重要的組學(xué)資源未在此列出。
綜合性隊(duì)列/項(xiàng)目
>ENCODE:最初于2003年啟動(dòng)县耽,旨在確定約1%的人類基因組的調(diào)節(jié)功能句喷。盡管ENCODE主要關(guān)注細(xì)胞系镣典,但最近的更新包括一些來自人腦、原代神經(jīng)元或神經(jīng)元細(xì)胞系的組學(xué)數(shù)據(jù)(即截至2020年12月在人腦器官中進(jìn)行的449次實(shí)驗(yàn))唾琼。
>Roadmap Epigenomics:主要從人類血液和22種組織類型收集RNA-seq兄春、ChIP-seq(組蛋白)、DNase-seq和甲基化數(shù)據(jù)锡溯。截至2020年12月赶舆,ENCODE實(shí)驗(yàn)矩陣顯示了Roadmap中發(fā)布的2154個(gè)多組學(xué)人類數(shù)據(jù)集,包括158個(gè)與成人和胎兒人腦相關(guān)的數(shù)據(jù)集祭饭。
>FANTOM:在過去20年中芜茵,F(xiàn)ANTOM聯(lián)盟收集了大量資源,以了解健康人/小鼠細(xì)胞和組織的轉(zhuǎn)錄調(diào)控倡蝙,包括非編碼轉(zhuǎn)錄九串。FANTOM數(shù)據(jù)已被用于多種多組學(xué)工具,例如HACER寺鸥,整合FANTOM 5猪钮、表達(dá)數(shù)量性狀位點(diǎn)(eQTL)數(shù)據(jù)庫、來自ENCODE的轉(zhuǎn)錄因子結(jié)合位點(diǎn)(TFBSs)胆建、新生RNA測序(GRO/PRO-seq)和Hi-C數(shù)據(jù)烤低,包括腦細(xì)胞特異性分析。
>GTEx:旨在描述不同個(gè)體和人體不同組織的基因表達(dá)水平的變化笆载。GTEx有多個(gè)腦區(qū)的轉(zhuǎn)錄組圖譜拂玻,樣本量相當(dāng)大。
>?OmicsDI:是一個(gè)搜索多組學(xué)數(shù)據(jù)集的平臺(tái)宰译。它整合了來自多個(gè)數(shù)據(jù)庫的蛋白質(zhì)組學(xué)檐蚜、基因組學(xué)、代謝組學(xué)和轉(zhuǎn)錄組學(xué)數(shù)據(jù)集沿侈。截至2020年12月闯第,使用關(guān)鍵詞“大腦”搜索產(chǎn)生了116261個(gè)結(jié)果,其中10個(gè)是多組學(xué)數(shù)據(jù)集缀拭。? ??
腦科學(xué)研究隊(duì)列/項(xiàng)目
>Allen Brain Atlas:收集了兩個(gè)個(gè)體的大腦約900個(gè)神經(jīng)解剖切片的表達(dá)譜和MRI檢測結(jié)果咳短,有效地證明了基因表達(dá)與空間定位相關(guān)。進(jìn)一步的發(fā)展包括收集發(fā)育中的人類和小鼠大腦蛛淋、老化咙好、癡呆、創(chuàng)傷性腦損傷(TBI)和IVY膠質(zhì)母細(xì)胞瘤圖譜項(xiàng)目的時(shí)間和空間基因表達(dá)褐荷。最新補(bǔ)充的內(nèi)容包括人類勾效、小鼠和恒河猴皮層、海馬、脊髓各部分的scRNA-seq和原位雜交层宫,以及丘腦的比較細(xì)胞解剖學(xué)信息杨伙。雖然基因表達(dá)是Allen Brain Atlas的主要重點(diǎn),但電生理和形態(tài)學(xué)數(shù)據(jù)的可用性使其成為大腦空間轉(zhuǎn)錄組學(xué)的獨(dú)特資源萌腿。
>PsychENCODE:PsychENCODE 數(shù)據(jù)以最大的大腦集合(2793 個(gè)獨(dú)特的捐贈(zèng)者)為特色限匣,包括精神分裂癥、雙相情感障礙和自閉癥在內(nèi)的對照和疾病組數(shù)據(jù)毁菱。額葉皮質(zhì)是該聯(lián)盟研究的主要腦區(qū)米死。PsychENCODE 數(shù)據(jù)是評估人腦組學(xué)群體變異的最佳數(shù)據(jù)之一,其正在進(jìn)入其第二階段贮庞,重點(diǎn)是單細(xì)胞數(shù)據(jù)哲身。
>AMP-AD:其目標(biāo)是應(yīng)用尖端的系統(tǒng)和網(wǎng)絡(luò)生物學(xué)方法,將來自2000多個(gè)阿爾茨海默裁撤ァ(AD)各階段的人腦的多維人類分子數(shù)據(jù)(基因組、表觀基因組怔揩、RNA捉邢、蛋白質(zhì)組)與臨床和病理數(shù)據(jù)相結(jié)合。其中貢獻(xiàn)最多多組學(xué)數(shù)據(jù)的三個(gè)最大的AMP-AD研究是ROSMAP商膊、MSBB和MayoRNAseq伏伐。AMP-AD數(shù)據(jù)集連同其他AD項(xiàng)目被托管在最大的AD研究數(shù)據(jù)門戶之一:https://adknowledgeportal.synapse.org。
> AMP-PD:旨在通過對現(xiàn)有隊(duì)列中的PD患者數(shù)據(jù)和生物樣本進(jìn)行深入的分子特征分析和縱向臨床分析晕拆,確定和驗(yàn)證帕金森裁牯帷(PD)的診斷、預(yù)后和/或疾病進(jìn)展生物標(biāo)志物实幕×吡停總共有8461個(gè)RNA-seq數(shù)據(jù)集(來自n = 3274名參與者)以及統(tǒng)一的臨床數(shù)據(jù)可在AMP-PD網(wǎng)站的當(dāng)前版本中獲得,為研究帕金森病的進(jìn)展提供巨大的資源昆庇。AMP-PD項(xiàng)目將其數(shù)據(jù)托管在谷歌云平臺(tái)(GCP)末贾,并建議用戶通過Terra平臺(tái)(http://app.terra.bio/)訪問、運(yùn)行分析工具并進(jìn)行合作整吆。
>BRAINcode:BRAINcode的建立是為了通過對人類神經(jīng)元基因組拱撵、轉(zhuǎn)錄組和表觀基因組的綜合分析,解碼易患神經(jīng)退行性疾病的大腦神經(jīng)元的功能表蝙。在最初的版本中拴测,它包括大約100個(gè)死后大腦中激光捕獲的50000個(gè)神經(jīng)元的ribo-depleted總RNA的測序結(jié)果。BRAINcode的新階段重點(diǎn)是對另外200個(gè)人類大腦進(jìn)行單核RNA-seq府蛇、單核ATAC-seq集索、空間轉(zhuǎn)錄組和單細(xì)胞eQTL。相關(guān)網(wǎng)站:http://www.humanbraincode.org
>CommonMind:CMC從四個(gè)獨(dú)立的腦庫中生成了一個(gè)公共的功能基因組數(shù)據(jù)資源,這些數(shù)據(jù)來自于1000個(gè)個(gè)體的背外側(cè)前額葉皮層抄谐,包括501個(gè)對照組渺鹦,353個(gè)被診斷為精神分裂癥的個(gè)體和120個(gè)雙相情感障礙患者∮己基因組數(shù)據(jù)包括980人的RNA-seq和SNP分型以及269人的ATAC-seq數(shù)據(jù)毅厚,其中264人是RNA-seq的子集。原始數(shù)據(jù)和經(jīng)過處理的數(shù)據(jù)都可以在Synapse平臺(tái)上獲得浦箱,網(wǎng)址是:http://CommonMind.org吸耿。
>BrainSeq:BrainSeq是Lieber腦發(fā)育研究所和制藥公司領(lǐng)導(dǎo)的一個(gè)項(xiàng)目,旨在描述主要神經(jīng)精神疾病和對照組樣本中不同大腦區(qū)域轉(zhuǎn)錄組的遺傳和表觀遺傳調(diào)控酷窥。該聯(lián)盟的第一階段包括對738名跨越整個(gè)生命期和三個(gè)主要的精神病診斷組(精神分裂癥咽安、嚴(yán)重抑郁癥和雙相情感障礙)的受試者進(jìn)行DLPFC polyA+ RNA-seq。第二階段擴(kuò)大到海馬區(qū)蓬推,對551名跨越整個(gè)生命期的受試者和成年精神分裂癥患者進(jìn)行RiboZero-treated total RNA-seq妆棒。第二階段還包括Illumina 450 k芯片數(shù)據(jù),用于海馬和DLPFC的DNA甲基化分析沸伏。同時(shí)BrainSeq還提供了發(fā)育和精神分裂癥相關(guān)的基因圖譜和eQTL資源:http://eqtl.brainseq.org糕珊。值得注意的是,Lieber研究所還發(fā)起了非洲血統(tǒng)神經(jīng)科學(xué)研究計(jì)劃毅糟。
>NeMO:是一個(gè)數(shù)據(jù)存儲(chǔ)庫红选,專門用于存儲(chǔ)和共享由BRAIN Initiative和相關(guān)腦研究項(xiàng)目產(chǎn)生的組學(xué)數(shù)據(jù)。NeMO數(shù)據(jù)包括人類姆另、小鼠和狨猴的轉(zhuǎn)錄活性喇肋、甲基化、組蛋白修飾譜和染色質(zhì)可及性迹辐。目前在BICCN網(wǎng)站上對人類數(shù)據(jù)的搜索顯示蝶防,有418個(gè)樣本的scRNA-seq(n = 412)和scATAC-seq(n = 6)可以公開訪問。更多人腦單細(xì)胞組學(xué)數(shù)據(jù)(例如明吩,用于定義細(xì)胞類型特異性3D表觀基因組的單細(xì)胞PLAC-seq慧脱、ATAC-seq、RNA-seq數(shù)據(jù))可在NeMO上通過受限訪問獲得贺喝。??
腦研究中的綜合多組學(xué)分析?
單細(xì)胞水平上的多組學(xué)整合
大腦細(xì)胞的高度復(fù)雜性促使大家應(yīng)用單細(xì)胞多組學(xué)的方法來了解單細(xì)胞水平的基因組調(diào)控菱鸥。Darmanis等人的研究是最早從466個(gè)健康人大腦皮層細(xì)胞中提供單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的,隨后的工作包括在神經(jīng)發(fā)生過程中進(jìn)行scRNA-seq時(shí)間進(jìn)程分析躏鱼,揭示譜系特異性軌跡和神經(jīng)源性轉(zhuǎn)錄因子的動(dòng)力學(xué)氮采。單細(xì)胞甲基化數(shù)據(jù)也被用來揭示人類皮層中的神經(jīng)元亞群。例如ROSMAP隊(duì)列中48個(gè)阿爾茨海默病患者和健康人的單細(xì)胞轉(zhuǎn)錄組分析染苛,已經(jīng)擴(kuò)展到80K細(xì)胞鹊漠,揭示了對疾病病理生理學(xué)前所未有的見解主到。最近人類大腦的時(shí)空細(xì)胞圖譜項(xiàng)目(STAB)通過分析13個(gè)可用的人腦scRNA-seq數(shù)據(jù)集,定義了20個(gè)腦區(qū)和11個(gè)發(fā)育期的42種細(xì)胞亞型躯概。盡管人類單細(xì)胞數(shù)據(jù)仍然稀缺登钥,但各種數(shù)據(jù)資源平臺(tái)提供小鼠scRNA-seq數(shù)據(jù),其中DropViz(http://dropviz.org/娶靡,690K細(xì)胞)和10X Genomics(1.3 M細(xì)胞)目前是最大的牧牢。
scRNA-seq技術(shù)已經(jīng)更新到包含其他多組學(xué)信息層,開放染色質(zhì)是最近增加的一種姿锭。例如一項(xiàng)研究從來自成年人視覺皮層塔鳍、額葉皮層和小腦的60000多個(gè)細(xì)胞進(jìn)行了單核RNA測序(snDrop-seq)與單細(xì)胞開放染色質(zhì)分析(scTHS-seq)的整合,證明了整合分析將獲得細(xì)胞亞群的更好分辨率呻此,以及從一個(gè)組學(xué)數(shù)據(jù)預(yù)測另一個(gè)組學(xué)數(shù)據(jù)的能力轮纫。相關(guān)研究的詳細(xì)信息可通過如下鏈接獲取:https://github.com/mdozmorov/scRNA-seq_notes#brain.
通過整合基因分型芯片或WGS的遺傳變異信息焚鲜,scRNA-seq還可以在不同的細(xì)胞類型和動(dòng)態(tài)過程中定位eQTLs掌唾,為了將這項(xiàng)技術(shù)應(yīng)用于大規(guī)模的群體遺傳學(xué)研究,Luke Franke等人成立了單細(xì)胞eQTLGen聯(lián)盟(sc-eQTLGen)忿磅,旨在確定致病遺傳變異影響基因表達(dá)的細(xì)胞背景糯彬。
空間轉(zhuǎn)錄組學(xué)的最新發(fā)展,如10X Genomics Visium贝乎、Slide-seq、HDST叽粹、MERFISH和LCM-seq览效,能夠明確地識(shí)別特定位置的單細(xì)胞基因表達(dá)。這些技術(shù)正開始應(yīng)用于揭示人類DLPFC的分層結(jié)構(gòu)虫几,這種結(jié)構(gòu)以不同的基因表達(dá)為標(biāo)志锤灿。重要的是,空間轉(zhuǎn)錄組學(xué)與其他數(shù)據(jù)(如神經(jīng)精神基因組數(shù)據(jù)集)的整合辆脸,證明了疾病相關(guān)信號(hào)的位置特異性但校,開啟了整合多組學(xué)數(shù)據(jù)分析的新篇章。
另一個(gè)補(bǔ)充是腦細(xì)胞中的三維染色質(zhì)組織啡氢。一些研究使用Hi-C及其變體將人腦的三維基因組學(xué)與基因表達(dá)状囱、組蛋白修飾(ChIP-seq)、開放染色質(zhì)(ATAC-seq)和GWAS信號(hào)相結(jié)合倘是,證明了基因組空間組織的重要性亭枷。染色體構(gòu)象捕獲技術(shù)已在單細(xì)胞水平上得到擴(kuò)展,并與基因表達(dá)相結(jié)合搀崭,揭示了三維結(jié)構(gòu)和基因表達(dá)之間的關(guān)聯(lián)叨粘。最近的發(fā)展包括在單細(xì)胞中同時(shí)進(jìn)行染色質(zhì)構(gòu)象捕獲和甲基化的技術(shù)。??
多組學(xué)數(shù)據(jù)的分析方法和工具
多組學(xué)數(shù)據(jù)整合的目標(biāo)大致可分為三類:1.基于多組學(xué)特征的疾病亞型和分類;2.預(yù)測各種應(yīng)用的生物標(biāo)志物升敲;3.獲得生物學(xué)見解答倡。例如在一項(xiàng)關(guān)于中風(fēng)的研究中,研究人員回顧了多組學(xué)數(shù)據(jù)(包括蛋白質(zhì)組學(xué)驴党、基因組學(xué)瘪撇、轉(zhuǎn)錄組學(xué)和代謝組學(xué))的綜合分析,對中風(fēng)發(fā)病機(jī)制鼻弧、治療靶點(diǎn)的識(shí)別和生物標(biāo)記物的發(fā)現(xiàn)提供了有用的見解设江。實(shí)現(xiàn)這一分析結(jié)果的方法可分為早期和晚期整合,前者將組學(xué)矩陣組合成一個(gè)矩陣攘轩,然后對其進(jìn)行分析叉存,后者分別分析每個(gè)組學(xué)模式,然后結(jié)合結(jié)果度帮〖吣螅或者,集成方法可分為無監(jiān)督(Matrix Factorization, correlation-based, Bayesian methods, network-based methods)或有監(jiān)督(network-based methods, multiple kernel learning)笨篷,經(jīng)過基準(zhǔn)測試瞳秽,這些方法很多都可以在mixOmics R包中實(shí)現(xiàn)。最近開發(fā)的OmiVAE用于從多組數(shù)據(jù)中提取低維特征并對樣本進(jìn)行分類率翅,在TCGA泛癌癥多組學(xué)數(shù)據(jù)集中OmiVAE的平均分類準(zhǔn)確率為97.49%练俐,顯示出比其他現(xiàn)有方法更好的性能。
整合單細(xì)胞組學(xué)數(shù)據(jù)的方法包括使用非負(fù)矩陣分解(NMF)或類似的降維或低維嵌入方法冕臭。將scRNA-seq與其他單細(xì)胞數(shù)據(jù)集成的示例方法是LIGER腺晾,這是一種基于NMF的方法,可用于跨條件辜贵、技術(shù)(scRNA-seq悯蝉、甲基化、空間轉(zhuǎn)錄組學(xué))或物種(人類和小鼠)集成和分析多個(gè)單細(xì)胞數(shù)據(jù)集托慨。一種基于共享嵌入的方法Harmony已被用于整合scRNA-seq和空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)鼻由。在Seurat R軟件包的Signac擴(kuò)展中,使用LSI和TF-IDF程序?qū)cRNA-seq和scATAC-seq進(jìn)行了整合厚棵。利用降維和聚類蕉世,ArchR R軟件包在整合scATAC-sec和scRNA-seq數(shù)據(jù)時(shí)表現(xiàn)優(yōu)于Signac。基于網(wǎng)絡(luò)相似性的CellWalker方法已被證明對scRNA-seq和scATAC-seq數(shù)據(jù)的稀疏性和噪聲具有更強(qiáng)的穩(wěn)定性婆硬,其已被應(yīng)用于發(fā)育中的人類大腦研究讨彼。MAESTRO工具套件利用綜合數(shù)據(jù)分析的最佳實(shí)踐(如基于圖形和基于密度的聚類,從染色質(zhì)可及性建氖疗恚基因調(diào)控潛力)來全面整合scRNA-seq和scATAC-seq數(shù)據(jù)哈误,并提供血液和大腦特定的細(xì)胞特征來注釋細(xì)胞群哩至。三維基因組學(xué)整合方法也開始出現(xiàn)蜜自,最近提出了一種基于NMF的方法,利用scRNA-seq和scATAC-seq對大量Hi-ChIP信號(hào)進(jìn)行亞種群特異性解旋重荠。這些方法展示了單細(xì)胞多組學(xué)數(shù)據(jù)整合的潛力,揭示了對復(fù)雜細(xì)胞系統(tǒng)(如大腦和神經(jīng)精神疾哺曷场)的全新生物學(xué)見解。
最后研究團(tuán)隊(duì)還通過將多組學(xué)數(shù)據(jù)整合到PsychENCODE和其他聯(lián)盟項(xiàng)目中婆殿,進(jìn)行了精神分裂癥的多組學(xué)研究。
注:具體分析內(nèi)容詳見文獻(xiàn)原文婆芦。??
局限性和未來方向
新生成的數(shù)據(jù)
理想情況下,相關(guān)研究需要涵蓋所有生物水平消约、從DNA到蛋白質(zhì)的中間步驟、從干細(xì)胞到死亡的所有發(fā)育階段或粮、從神經(jīng)元到神經(jīng)膠質(zhì)細(xì)胞的所有細(xì)胞類型以及從藥物未使用到接受各種治療的患者的所有狀態(tài)的多組學(xué)數(shù)據(jù)。實(shí)際上氯材,所需數(shù)據(jù)中只有一小部分已經(jīng)生成并可供使用。未來1或2年內(nèi)將有更多的scRNA-seq浓体、ATAC-seq數(shù)據(jù)可用辈讶∶。空間轉(zhuǎn)錄組贱除、Hi-C數(shù)據(jù)將有助于更好地理解大腦轉(zhuǎn)錄組及其調(diào)控。越來越多的eQTL和其他分子QTL將在不同發(fā)育階段月幌、不同種族背景和性別的大腦、腦細(xì)胞上產(chǎn)生扯躺。
一些特定的組學(xué)數(shù)據(jù)仍然不足蝎困。DNA甲基化數(shù)據(jù)、microRNA表達(dá)和蛋白質(zhì)組學(xué)數(shù)據(jù)是可以更好地覆蓋的例子倍啥。在Illumina停止生產(chǎn)試劑盒后禾乘,Ribo-seq數(shù)據(jù)不太可能會(huì)增加。腦細(xì)胞中轉(zhuǎn)錄因子的ChIP-seq數(shù)據(jù)是一個(gè)主要的數(shù)據(jù)類別虽缕,不幸的是始藕,它在很大程度上是缺失的。線粒體相關(guān)的基因組學(xué)和表觀基因組學(xué)還沒有得到足夠重視氮趋。
我們還應(yīng)該注意到伍派,組學(xué)數(shù)據(jù)對性別、種族遺傳背景和其他變異很敏感剩胁,而在大多數(shù)公共數(shù)據(jù)庫中诉植,這些影響并沒有很好地呈現(xiàn)出來。種族多樣性的數(shù)據(jù)仍然普遍不可用摧冀。2019年倍踪,研究人員發(fā)現(xiàn)~78%的GWAS個(gè)體為歐洲血統(tǒng)。大腦組學(xué)數(shù)據(jù)的多樣性甚至更小索昂。例如建车,在當(dāng)前的AMP-PD版本中,只有不到4%的參與者是非白人/白種人椒惨。對于旨在更具包容性的研究來說缤至,這是一個(gè)巨大的問題。非洲血統(tǒng)神經(jīng)科學(xué)研究等計(jì)劃有望填補(bǔ)這一空白康谆。??
人腦的“真正”單細(xì)胞轉(zhuǎn)錄組
人腦研究中的大多數(shù)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)實(shí)際上是單核RNA-seq领斥,而不是單細(xì)胞RNA-seq,這是因?yàn)槟壳暗募夹g(shù)難以在不破壞細(xì)胞膜的情況下從死后冷凍腦組織中提取完整的神經(jīng)元細(xì)胞沃暗。此外月洛,除了一些單細(xì)胞總RNA測序的方法(例如SuPeR-seq、MATQ-seq孽锥、RamDA-seq和DART-seq)嚼黔,大多數(shù)當(dāng)前的單細(xì)胞RNA-seq研究都是基于富含polyA的RNA測序方法,使得許多非polyA RNA(例如miRNAs惜辑、piRNAs唬涧、circRNAs、ERNA)被排除在外盛撑。單細(xì)胞多組學(xué)的整合還受到單一模式數(shù)據(jù)問題的影響碎节,例如單細(xì)胞數(shù)據(jù)中的缺失以及細(xì)胞簇定義和注釋中的分辨率。另外對單細(xì)胞/整合分析工具進(jìn)行驗(yàn)證和基準(zhǔn)測試也是迫切需要的狮荔。??
人腦樣本 vs 細(xì)胞系
研究神經(jīng)系統(tǒng)疾病的典型方法是從健康人和患病者身上采集人腦標(biāo)本。與可廣泛獲取的血液標(biāo)本相比殖氏,腦標(biāo)本通常是從死后組織中獲取的,這有其局限性:組織降解是主要原因题涨。RNA對死亡后的時(shí)間特別敏感总滩。另一個(gè)限制是尸檢組織只能提供生物系統(tǒng)的快照,這可能不足以揭示癥狀和治療反應(yīng)的動(dòng)態(tài)席函。培養(yǎng)的細(xì)胞和新開發(fā)的腦類器官是產(chǎn)生多組學(xué)數(shù)據(jù)的重要選擇茂附,具有相對均勻的環(huán)境因素和細(xì)胞組成的優(yōu)勢督弓。??
宿主-微生物多組學(xué)整合
除了宿主本身,與微生物組學(xué)數(shù)據(jù)的整合也正在成為一個(gè)有趣的方向蒂阱。例如最近對阿爾茨海默病的研究表明狂塘,腸道感染可觸發(fā)阿爾茨海默病患者大腦中淀粉樣蛋白團(tuán)的產(chǎn)生。雖然這些腸-腦聯(lián)系背后的機(jī)制在很大程度上尚不清楚妈踊,但宿主和微生物之間的多組學(xué)整合可能會(huì)帶來新的見解泪漂。??
縱向多組學(xué)分析
人類神經(jīng)精神疾病的大多數(shù)多組學(xué)分析是橫向的(例如,病例與對照赘风、疾病亞型)纵刘。縱向分析組學(xué)荸哟,結(jié)合臨床措施和治療結(jié)果,可以提供更全面的評估舵抹,以改善疾病風(fēng)險(xiǎn)預(yù)測、早期發(fā)現(xiàn)和更好的治療扇救。先前的縱向多組學(xué)研究已經(jīng)成功地識(shí)別了少數(shù)疾病的疾病標(biāo)志物香嗓,但在神經(jīng)精神疾病中沒有太多。研究團(tuán)隊(duì)期望在神經(jīng)精神研究中有更多的縱向組學(xué)數(shù)據(jù)沧烈。這種縱向數(shù)據(jù)通常來自周圍組織锌雀。因此迅诬,需要對大腦和周圍組織進(jìn)行多組學(xué)比較分析以驗(yàn)證相關(guān)性。??
相關(guān)性與因果性分析
許多多組學(xué)研究產(chǎn)生了相關(guān)性的結(jié)果闲礼。例如铐维,eQTL分析是為了確定遺傳變異和基因表達(dá)之間的相關(guān)性。許多所謂的 "生物標(biāo)志物 "實(shí)際上是與疾病锨并、性狀或狀態(tài)有關(guān)/相關(guān)的生物分子信號(hào)睬棚。相關(guān)關(guān)系并不能證明因果關(guān)系抑党,一些統(tǒng)計(jì)學(xué)上的精細(xì)映射方法已經(jīng)被開發(fā)出來,以暗示GWAS輸出的潛在因果關(guān)系害晦。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已經(jīng)被用來尋找多組學(xué)數(shù)據(jù)中的模式和相關(guān)性暑中,這在很多情況下可能足夠有效(如腫瘤識(shí)別鲫剿、疾病預(yù)測)灵莲。然而殴俱,如果一個(gè)模型能夠捕捉到因果關(guān)系线欲,那么它將更具有普適性。此外榕堰,如果能從結(jié)果中分辨出原因就能更好地找到治療疾病的方法嫌套。一些互補(bǔ)的方法(如孟德爾隨機(jī)化、結(jié)構(gòu)方程模型魏蔗、貝葉斯網(wǎng)絡(luò))已被應(yīng)用于發(fā)現(xiàn)基因組和表觀基因組變異對脂質(zhì)表型的新因果效應(yīng)痹筛。??
數(shù)據(jù)降維問題
多組學(xué)整合的另一個(gè)挑戰(zhàn)是高維度。盡管本文回顧的許多多組學(xué)隊(duì)列提供了大量樣本谣旁,但樣本數(shù)量仍然遠(yuǎn)遠(yuǎn)少于特征數(shù)量滋早。在整合多組學(xué)之前,建議降低維度搁进。相關(guān)研究表明與基于原始基因表達(dá)的分類相比饼问,基于WGCNA共表達(dá)模塊的分類能夠更好地應(yīng)對數(shù)據(jù)集之間的差異揭斧。其他降維技術(shù),如支持向量機(jī)(SVM)驮吱、隨機(jī)森林(RF)和奇異值分解(SVD)也常用于減少過擬合問題左冬。在單細(xì)胞組學(xué)中纸型,使用PCA狰腌、t-SNE和UMAP等方法來降低維度滋戳。先進(jìn)的深度學(xué)習(xí)方法,如變分自動(dòng)編碼器(VAE)也可以輸出高維數(shù)據(jù)的低維潛在表示筐赔。多重測試信息和顯著性標(biāo)準(zhǔn)是伴隨而來的問題朗涩。??
數(shù)據(jù)源的異質(zhì)性和統(tǒng)一性
來自不同隊(duì)列或聯(lián)盟的樣本實(shí)際上可能來自相同的對象甥材。例如,PsychEN-CODE聯(lián)盟對1800多個(gè)大腦的DLPFC RNA-seq數(shù)據(jù)的綜合分析包括來自BrainSeq研究第一階段的500個(gè)大腦的數(shù)據(jù)鸳惯。通過源ID或通用ID 連接不同的隊(duì)列叠萍,可通過刪除重復(fù)樣本來潛在地減少偏差苛谷,并通過連接來自相同受試者的樣本來增加功效。當(dāng)分析依賴于來自相同受試者的多組學(xué)數(shù)據(jù)時(shí)瓢湃,樣本識(shí)別和匹配對于某些數(shù)據(jù)整合分析至關(guān)重要赫蛇,例如QTL定位。DRAMS方法提供了基于基因型的解決方案落蝙,以確保數(shù)據(jù)匹配筏勒。隨著越來越多的單細(xì)胞組學(xué)數(shù)據(jù)的出現(xiàn),一個(gè)統(tǒng)一質(zhì)量控制的單細(xì)胞多組學(xué)數(shù)據(jù)集中存儲(chǔ)庫將有助于跨隊(duì)列的比較和整合厨埋。??
開放式的數(shù)據(jù)共享
開放的基因組數(shù)據(jù)共享一直是成功研究的重要組成部分捐顷。在過去的十年里,公共和私人資助機(jī)構(gòu)都認(rèn)識(shí)到了數(shù)據(jù)共享的重要性废赞,并敦促在數(shù)據(jù)產(chǎn)生后叮姑,甚至在數(shù)據(jù)生產(chǎn)者首次使用前就進(jìn)行共享。與大腦相關(guān)的聯(lián)盟渣蜗,如psychENCODE耕拷、AMP-AD、CommonMind和AMP-PD是該政策的良好倡導(dǎo)者和實(shí)踐者骚烧。集中的數(shù)據(jù)庫如Synapse(https://www.synapse.org)和NIGADS(https://www.niagads.org)使數(shù)據(jù)共享和下載變得容易赃绊。開放共享政策也被應(yīng)用于流程羡榴、方法和代碼,以提高研究的可重復(fù)性忠售。??
首發(fā)公號(hào):國家基因庫大數(shù)據(jù)平臺(tái)??
參考文獻(xiàn)
Dong X, Liu C, Dozmorov M. Review of multi-omics data resources and integrative analysis for human brain disorders[J]. Briefings in Functional Genomics, 2021.
圖片均來源于Briefings in Functional Genomics官網(wǎng)和參考文獻(xiàn)稻扬,如有侵權(quán)請聯(lián)系刪除羊瘩。