關(guān)鍵詞:
微生物組大數(shù)據(jù),population-scale纸颜,網(wǎng)絡(luò)分析兽泣,基于拓?fù)鋵W(xué)的數(shù)據(jù)挖掘新方法
本文提綱:
- 微生物組大數(shù)據(jù)分析目前存在的問(wèn)題
- tmap可以解決的問(wèn)題
- tmap應(yīng)用實(shí)例
- 總結(jié)
發(fā)表文章: Genome Biology, 2019; https://doi.org/10.1186/s13059-019-1871-4
軟件代碼: https://github.com/GPZ-Bioinfo/tmap
tmap軟件教程: https://tmap.readthedocs.io/en/latest/
微生物組大數(shù)據(jù)分析目前存在的問(wèn)題
隨著多組學(xué)技術(shù)的發(fā)展唠倦,現(xiàn)有的分析方法往往難以滿足當(dāng)前微生物組日益復(fù)雜,規(guī)模龐大浊洞,且附帶著大量表型及環(huán)境相關(guān)元數(shù)據(jù)的分析需求。目前主要存在以下幾個(gè)亟需解決的問(wèn)題:
海量高維大數(shù)據(jù)來(lái)源復(fù)雜法希,難以用傳統(tǒng)統(tǒng)計(jì)學(xué)方法得到可靠的結(jié)論
非線性關(guān)聯(lián)難以用常用的線性方法(如envfit, adonis, ADONISM)檢測(cè)出來(lái)
在數(shù)據(jù)集龐大,樣本之間存在各種復(fù)雜差異苫亦,特征之間存在關(guān)聯(lián)的情況下怨咪,細(xì)微但可能是研究目的所在的差異容易被掩蓋掉润匙。
以上數(shù)據(jù)分析的挑戰(zhàn)對(duì)創(chuàng)新可靠分析方法提出新的需求诗眨。本課題組開(kāi)發(fā)了基于拓?fù)鋵W(xué)數(shù)據(jù)分析的tmap軟件孕讳,提供了一個(gè)整合大規(guī)模人群樣本微生物組數(shù)據(jù)的分析框架匠楚,可以將以下兩個(gè)微生物組研究的重要方向結(jié)合起來(lái):1. 總結(jié)微生物組數(shù)據(jù)規(guī)律(pattern discovery)厂财;2. 為發(fā)現(xiàn)新的科學(xué)問(wèn)題(hypothesis generation)提供線索。
tmap可以解決的問(wèn)題
通過(guò)Mapper算法及網(wǎng)絡(luò)富集分析璃饱,tmap利用樣本的微生物組數(shù)據(jù)構(gòu)建TDA網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)SAFE score量化了樣本表型或者物種在一簇樣本中的富集程度荚恶。基于SAFE score可以實(shí)現(xiàn)以下3個(gè)分析目的:
Ranking: 對(duì)每個(gè)表型或物種的SAFE score之和排序谒撼,其含義與linear regression中的effective size類(lèi)似,但是對(duì)線性及非線性的關(guān)聯(lián)都可以較好的識(shí)別嗤栓。
Ordination: 對(duì)SAFE score做PCA冻河,目的為展示一個(gè)整體富集規(guī)律(overall enrichment pattern)不僅可以識(shí)別對(duì)微生物組變化貢獻(xiàn)最大的物種或表型茉帅,也可以了解哪些表型或物種的聯(lián)系比較緊密。
Co-enrichment network: 這里的網(wǎng)絡(luò)基于物種及表型關(guān)聯(lián)的顯著性構(gòu)建堪澎,用于探索其生物學(xué)意義上的關(guān)聯(lián)或者混雜因素(confounding factor),需要以研究目的和意義為導(dǎo)向樱蛤。
tmap應(yīng)用實(shí)例
本研究通過(guò)對(duì)4個(gè)數(shù)據(jù)集(包括1個(gè)合成數(shù)據(jù)和3個(gè)真實(shí)世界數(shù)據(jù))對(duì)tmap方法加以驗(yàn)證钮呀,結(jié)果表明與傳統(tǒng)的線性方法(如envfit, adonis, ADONISM)相比昨凡,tmap都表現(xiàn)更好,對(duì)非線性關(guān)聯(lián)及潛在規(guī)律都有較好的識(shí)別便脊。以比利時(shí)隊(duì)列FGFP為例:
比利時(shí)FGFP隊(duì)列的簡(jiǎn)要介紹:
- 2016年發(fā)表在Science,研究?jī)?nèi)容為健康正常人群的腸道微生物組。
- 研究納入了1106個(gè)糞便16S rtRNA樣本遂赠,及樣本的69個(gè)宿主表型特征,包括了7個(gè)metadata類(lèi)別:社會(huì)人口學(xué)特征跷睦,生活方式,血液指標(biāo)抑诸,健康狀況,飲食習(xí)慣蜕乡,腸道健康狀況及病史用藥情況监右。文章表明异希,僅有7.63%的微生物組改變與宿主表型的變化有關(guān)绒瘦。tmap提高了識(shí)別并解讀population-scale的微生物組-宿主表型關(guān)聯(lián)的能力称簿。
如上圖所示惰帽,tmap不僅可以較好的復(fù)現(xiàn)envfit這種基于線性回歸的方法憨降,也在對(duì)非線性變化的捕捉上绣夺,比envfit更加靈敏晓勇。通過(guò)對(duì)FGFP數(shù)據(jù)轉(zhuǎn)化的SAFE score分析悔叽,可以得到許多原始文章中沒(méi)有挖掘到的規(guī)律和線索。如下圖所示爵嗅,比如兩種藥物雖然與同一種疾病相關(guān)聯(lián),但其對(duì)微生物組的影響是不同的睹晒,具體表現(xiàn)為在網(wǎng)絡(luò)圖上的富集部位不一樣。這都是傳統(tǒng)線性分析難以得到的伪很。
總結(jié)
tmap有助于將不同國(guó)家地區(qū),不同疾病類(lèi)型锉试,不同宿主表型的人群微生物組大數(shù)據(jù)加以整合,對(duì)人群做精細(xì)分層,為特異性的干預(yù)性治療炫彩,數(shù)據(jù)來(lái)源多樣化的meta分析等研究提供了有效線索。有效融合不同來(lái)源的微生物組極其宿主的醫(yī)療健康大數(shù)據(jù)江兢,是實(shí)現(xiàn)微生物組數(shù)據(jù)共享和整合的創(chuàng)新性方向。
tmap不僅可以勝任傳統(tǒng)線性研究對(duì)線性關(guān)系的刻畫(huà)杉允,也對(duì)非線性關(guān)聯(lián)靈敏,優(yōu)于傳統(tǒng)分析方法叔磷。且基于微生物組網(wǎng)絡(luò)地圖,可以挖掘基于微生物組變化背景的宿主表型關(guān)聯(lián)改基,使表型之間的關(guān)系不會(huì)與微生物組變化割裂開(kāi)來(lái)。
了解不同宿主表型在網(wǎng)絡(luò)圖上的分布秕狰,捕捉變量之間聯(lián)系及變量自身的重要性排序稠腊,對(duì)大規(guī)模人群隊(duì)列的數(shù)據(jù)分析鸣哀,不僅歸納總結(jié)了現(xiàn)有數(shù)據(jù)規(guī)律,也對(duì)科學(xué)假設(shè)的提出我衬,科學(xué)問(wèn)題的提煉有很大幫助叹放。