多組學(xué)1在這里論文日鑒7--單細(xì)胞數(shù)據(jù)整合 - 簡書 (jianshu.com)
MOGONE
第一個利用圖卷積網(wǎng)絡(luò)(GCNs) 進(jìn)行組學(xué)數(shù)據(jù)學(xué)習(xí)以對新樣本進(jìn)行有效類別預(yù)測的有監(jiān)督的多組學(xué)集成方法膝擂。
MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification
一個用于生物醫(yī)學(xué)應(yīng)用中分類任務(wù)的多組學(xué)數(shù)據(jù)分析框架杠步。MOGONET 在標(biāo)簽空間上將組學(xué)特定學(xué)習(xí)與多組學(xué)綜合分類相結(jié)合孝赫。具體來說,MOGONET 利用圖卷積網(wǎng)絡(luò)(GCN)進(jìn)行組學(xué)特定的學(xué)習(xí)膨报。與全連通神經(jīng)網(wǎng)絡(luò)相比要拂,GCN 既利用了組學(xué)特征闷哆,又利用了相似網(wǎng)絡(luò)描述的樣本之間的相關(guān)性,從而獲得了更好的分類性能蝠引。MOGONET 除了直接連接每個組學(xué)數(shù)據(jù)類型的標(biāo)簽分布曙痘,還利用視圖相關(guān)發(fā)現(xiàn)網(wǎng)絡(luò)(VCDN)探索標(biāo)簽空間的交叉組學(xué)相關(guān)性,以實現(xiàn)有效的多組學(xué)集成立肘。MOGONET 是第一個利用 GCNs 進(jìn)行組學(xué)數(shù)據(jù)學(xué)習(xí)边坤,對新樣本進(jìn)行有效類別預(yù)測的有監(jiān)督的多組學(xué)集成方法。我們通過廣泛的生物醫(yī)學(xué)分類應(yīng)用谅年,包括阿爾茨海默病患者分類茧痒,低級別膠質(zhì)瘤(LGG)的腫瘤分級分類,腎癌類型分類和乳腺浸潤癌亞型分類融蹂,證明了 MOGONET 的能力和多功能性旺订。我們還通過綜合的消融研究,說明了整合多種組學(xué)數(shù)據(jù)類型的必要性超燃,以及將 GCN 和 VCDN 結(jié)合起來進(jìn)行多組學(xué)數(shù)據(jù)分類的重要性区拳。此外,我們證明 MOGONET 可以識別與所研究的生物醫(yī)學(xué)問題相關(guān)的重要組學(xué)特征和生物標(biāo)志物意乓。
比如能利用三種組學(xué)數(shù)據(jù)(即 mRNA 表達(dá)數(shù)據(jù)樱调、 DNA 甲基化數(shù)據(jù)和 miRNA 表達(dá)數(shù)據(jù))進(jìn)行分類,以提供關(guān)于疾病的全面和互補(bǔ)的信息
txWang/MOGONET: MOGONET (Multi-Omics Graph cOnvolutional NETworks) is a novel multi-omics data integrative analysis framework for classification tasks in biomedical applications. (github.com)
Single-cell multiomics: technologies and data analysis methods
單細(xì)胞多組學(xué)分析的基本特征包括: (1)用于單細(xì)胞分離届良,條形碼和測序的技術(shù)笆凌,以測量來自單個細(xì)胞的多種類型的分子; (2)分子的綜合分析,以表征基于分子標(biāo)記的細(xì)胞類型及其關(guān)于病理生理過程的功能士葫。在這里乞而,我們總結(jié)了單細(xì)胞多組學(xué)分析(mRNA 基因組,mRNA-DNA 甲基化慢显,mRNA 染色質(zhì)可及性和 mRNA-蛋白質(zhì))的技術(shù)以及單細(xì)胞多組學(xué)數(shù)據(jù)的綜合分析方法爪模。
20年的文章欠啤,可能有點老了?(感覺分析方法應(yīng)該是的屋灌,技術(shù)上還不清楚)
為了對單細(xì)胞多組學(xué)數(shù)據(jù)進(jìn)行綜合分析洁段,對單細(xì)胞單組學(xué)數(shù)據(jù)的處理方法進(jìn)行了擴(kuò)展和組合。這些策略可以分類為(1)單細(xì)胞單組學(xué)數(shù)據(jù)之間的相關(guān)性分析(圖5a) ; (2)一種類型的單細(xì)胞數(shù)據(jù)(例如 scRNA-seq)的分析声滥,然后整合另一種單細(xì)胞數(shù)據(jù)類型(例如來自 scWGS 的 SNV 或來自 scATAC-seq 的開放染色質(zhì)位點)(圖5b) ; 和(3)所有類型的單細(xì)胞組學(xué)數(shù)據(jù)的綜合分析以產(chǎn)生整體單細(xì)胞圖(例如眉撵,細(xì)胞群體或分化軌跡)(圖5c)。
Using machine learning approaches for multi-omics data analysis: A review
Concatenation-based 的集成方法考慮使用由多個組學(xué)數(shù)據(jù)集合構(gòu)成的聯(lián)合數(shù)據(jù)矩陣來開發(fā)模型落塑。圖2顯示了Concatenation-based 的集成的階段纽疟。第一階段包括來自三個獨立組學(xué)(如基因組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué))的原始數(shù)據(jù)以及相應(yīng)的表型信息憾赁。通常污朽,Concatenation-based 集成不需要任何預(yù)處理,因此沒有第2階段龙考。在第三階段蟆肆,來自個體組學(xué)的數(shù)據(jù)被連接起來,形成一個單一的大型多組學(xué)數(shù)據(jù)矩陣晦款。最后炎功,在第四階段,聯(lián)合矩陣用于監(jiān)督或非監(jiān)督分析缓溅。使用Concatenation-based 的方法的主要優(yōu)點是蛇损,一旦所有個體組學(xué)的Concatenation完成,使用機(jī)器學(xué)習(xí)進(jìn)行回歸或分類就比較簡單坛怪。這些方法平等地使用所有的連接特征淤齐,并且可以為給定的表型選擇最有區(qū)別的特征。
Model-based 的集成方法為不同的組學(xué)數(shù)據(jù)創(chuàng)建多個中間模型袜匿,然后從不同的中間模型構(gòu)建最終模型(圖2)更啄。第一階段建立三個獨立組學(xué)的原始數(shù)據(jù)以及相應(yīng)的表型信息。在第二階段居灯,為每個組學(xué)開發(fā)單獨的模型祭务,然后在第三階段將其集成到一個聯(lián)合模型中。最后穆壕,對第四階段的關(guān)節(jié)模型進(jìn)行了分析待牵。基于模型的整合方法的主要優(yōu)勢在于它們可以用于基于不同組學(xué)類型的合并模型喇勋,其中每個模型都是從具有相同疾病信息的不同患者組開發(fā)的。
Model-based 的整合方法有助于理解不同組學(xué)之間對某一表型的相互作用(例如偎行,在胰腺癌中的生存)川背。第四階段的最終多維關(guān)節(jié)模型可以使用 ML 算法(例如神經(jīng)網(wǎng)絡(luò))建立贰拿,該算法使用每個組學(xué)模型(第三階段)中最相關(guān)的變量。這種方法可以分析個別模型的預(yù)測能力的改善熄云,并找到最佳的區(qū)分特征膨更。
Transformation-based 的集成方法首先將組學(xué)數(shù)據(jù)集轉(zhuǎn)換為圖形或核矩陣,然后將其組合成一個模型缴允。圖2顯示了Transformation-based 的集成的各個階段荚守。第一階段建立三個個體組學(xué)的原始數(shù)據(jù)以及相應(yīng)的表型信息。在第二階段练般,為為獨立組學(xué)開發(fā)轉(zhuǎn)換方法(以圖形或核關(guān)系的形式)矗漾,這些組學(xué)后來被整合到第三階段的聯(lián)合轉(zhuǎn)換中。最后薄料,在第四階段進(jìn)行了分析敞贡。Transformation-based的集成方法的主要優(yōu)點是,如果可以獲得獨特的信息(如患者 ID) 摄职,則可以使用它們來組合各種組學(xué)誊役。
圖形提供了一種形式化的手段來轉(zhuǎn)換和描述不同組學(xué)樣本之間的關(guān)系,其中圖形的節(jié)點和邊分別表示主題及其關(guān)系谷市。類似地蛔垢,核方法能夠?qū)?shù)據(jù)從其原始空間轉(zhuǎn)換為更高維的特征空間。然后迫悠,這些方法在特征空間中探索線性決策函數(shù)鹏漆,但這些函數(shù)在原始空間中是非線性的。
注: 其實可以看出第三種方法正在越來越多