微生物組數(shù)據(jù)挖掘新方法tmap

關(guān)鍵詞:
微生物組大數(shù)據(jù),population-scale纸颜,網(wǎng)絡(luò)分析兽泣,基于拓?fù)鋵W(xué)的數(shù)據(jù)挖掘新方法

本文提綱:

  • 微生物組大數(shù)據(jù)分析目前存在的問(wèn)題
  • tmap可以解決的問(wèn)題
  • tmap應(yīng)用實(shí)例
  • 總結(jié)

發(fā)表文章: Genome Biology, 2019; https://doi.org/10.1186/s13059-019-1871-4
軟件代碼: https://github.com/GPZ-Bioinfo/tmap
tmap軟件教程: https://tmap.readthedocs.io/en/latest/

微生物組大數(shù)據(jù)分析目前存在的問(wèn)題

隨著多組學(xué)技術(shù)的發(fā)展唠倦,現(xiàn)有的分析方法往往難以滿足當(dāng)前微生物組日益復(fù)雜,規(guī)模龐大浊洞,且附帶著大量表型及環(huán)境相關(guān)元數(shù)據(jù)的分析需求。目前主要存在以下幾個(gè)亟需解決的問(wèn)題

  • 海量高維大數(shù)據(jù)來(lái)源復(fù)雜法希,難以用傳統(tǒng)統(tǒng)計(jì)學(xué)方法得到可靠的結(jié)論

  • 非線性關(guān)聯(lián)難以用常用的線性方法(如envfit, adonis, ADONISM)檢測(cè)出來(lái)

  • 在數(shù)據(jù)集龐大,樣本之間存在各種復(fù)雜差異苫亦,特征之間存在關(guān)聯(lián)的情況下怨咪,細(xì)微但可能是研究目的所在的差異容易被掩蓋掉润匙。

以上數(shù)據(jù)分析的挑戰(zhàn)對(duì)創(chuàng)新可靠分析方法提出新的需求诗眨。本課題組開(kāi)發(fā)了基于拓?fù)鋵W(xué)數(shù)據(jù)分析的tmap軟件孕讳,提供了一個(gè)整合大規(guī)模人群樣本微生物組數(shù)據(jù)的分析框架匠楚,可以將以下兩個(gè)微生物組研究的重要方向結(jié)合起來(lái):1. 總結(jié)微生物組數(shù)據(jù)規(guī)律(pattern discovery)厂财;2. 為發(fā)現(xiàn)新的科學(xué)問(wèn)題(hypothesis generation)提供線索。

tmap可以解決的問(wèn)題

通過(guò)Mapper算法及網(wǎng)絡(luò)富集分析璃饱,tmap利用樣本的微生物組數(shù)據(jù)構(gòu)建TDA網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)SAFE score量化了樣本表型或者物種在一簇樣本中的富集程度荚恶。基于SAFE score可以實(shí)現(xiàn)以下3個(gè)分析目的:

  • Ranking: 對(duì)每個(gè)表型或物種的SAFE score之和排序谒撼,其含義與linear regression中的effective size類(lèi)似,但是對(duì)線性及非線性的關(guān)聯(lián)都可以較好的識(shí)別嗤栓。

  • Ordination: 對(duì)SAFE score做PCA冻河,目的為展示一個(gè)整體富集規(guī)律(overall enrichment pattern)不僅可以識(shí)別對(duì)微生物組變化貢獻(xiàn)最大的物種或表型茉帅,也可以了解哪些表型或物種的聯(lián)系比較緊密。

  • Co-enrichment network: 這里的網(wǎng)絡(luò)基于物種及表型關(guān)聯(lián)的顯著性構(gòu)建堪澎,用于探索其生物學(xué)意義上的關(guān)聯(lián)或者混雜因素(confounding factor),需要以研究目的和意義為導(dǎo)向樱蛤。

tmap應(yīng)用實(shí)例

本研究通過(guò)對(duì)4個(gè)數(shù)據(jù)集(包括1個(gè)合成數(shù)據(jù)和3個(gè)真實(shí)世界數(shù)據(jù))對(duì)tmap方法加以驗(yàn)證钮呀,結(jié)果表明與傳統(tǒng)的線性方法(如envfit, adonis, ADONISM)相比昨凡,tmap都表現(xiàn)更好,對(duì)非線性關(guān)聯(lián)及潛在規(guī)律都有較好的識(shí)別便脊。以比利時(shí)隊(duì)列FGFP為例

比利時(shí)FGFP隊(duì)列的簡(jiǎn)要介紹:

  • 2016年發(fā)表在Science,研究?jī)?nèi)容為健康正常人群的腸道微生物組。
  • 研究納入了1106個(gè)糞便16S rtRNA樣本遂赠,及樣本的69個(gè)宿主表型特征,包括了7個(gè)metadata類(lèi)別:社會(huì)人口學(xué)特征跷睦,生活方式,血液指標(biāo)抑诸,健康狀況,飲食習(xí)慣蜕乡,腸道健康狀況及病史用藥情況监右。文章表明异希,僅有7.63%的微生物組改變與宿主表型的變化有關(guān)绒瘦。tmap提高了識(shí)別并解讀population-scale的微生物組-宿主表型關(guān)聯(lián)的能力称簿。

如上圖所示惰帽,tmap不僅可以較好的復(fù)現(xiàn)envfit這種基于線性回歸的方法憨降,也在對(duì)非線性變化的捕捉上绣夺,比envfit更加靈敏晓勇。通過(guò)對(duì)FGFP數(shù)據(jù)轉(zhuǎn)化的SAFE score分析悔叽,可以得到許多原始文章中沒(méi)有挖掘到的規(guī)律和線索。如下圖所示爵嗅,比如兩種藥物雖然與同一種疾病相關(guān)聯(lián),但其對(duì)微生物組的影響是不同的睹晒,具體表現(xiàn)為在網(wǎng)絡(luò)圖上的富集部位不一樣。這都是傳統(tǒng)線性分析難以得到的伪很。

總結(jié)

  • tmap有助于將不同國(guó)家地區(qū),不同疾病類(lèi)型锉试,不同宿主表型的人群微生物組大數(shù)據(jù)加以整合,對(duì)人群做精細(xì)分層,為特異性的干預(yù)性治療炫彩,數(shù)據(jù)來(lái)源多樣化的meta分析等研究提供了有效線索。有效融合不同來(lái)源的微生物組極其宿主的醫(yī)療健康大數(shù)據(jù)江兢,是實(shí)現(xiàn)微生物組數(shù)據(jù)共享和整合的創(chuàng)新性方向

  • tmap不僅可以勝任傳統(tǒng)線性研究對(duì)線性關(guān)系的刻畫(huà)杉允,也對(duì)非線性關(guān)聯(lián)靈敏,優(yōu)于傳統(tǒng)分析方法叔磷。且基于微生物組網(wǎng)絡(luò)地圖,可以挖掘基于微生物組變化背景的宿主表型關(guān)聯(lián)改基,使表型之間的關(guān)系不會(huì)與微生物組變化割裂開(kāi)來(lái)。

  • 了解不同宿主表型在網(wǎng)絡(luò)圖上的分布秕狰,捕捉變量之間聯(lián)系及變量自身的重要性排序稠腊,對(duì)大規(guī)模人群隊(duì)列的數(shù)據(jù)分析鸣哀,不僅歸納總結(jié)了現(xiàn)有數(shù)據(jù)規(guī)律,也對(duì)科學(xué)假設(shè)的提出我衬,科學(xué)問(wèn)題的提煉有很大幫助叹放。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挠羔,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子破加,更是在濱河造成了極大的恐慌,老刑警劉巖拌喉,帶你破解...
    沈念sama閱讀 222,590評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異尿背,居然都是意外死亡端仰,警方通過(guò)查閱死者的電腦和手機(jī)田藐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)吱七,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人踊餐,你說(shuō)我怎么就攤上這事×吡耄” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,301評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵窜管,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我稚机,道長(zhǎng),這世上最難降的妖魔是什么赖条? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,078評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮纬乍,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蕾额。我一直安慰自己彼城,他們只是感情好诅蝶,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布募壕。 她就那樣靜靜地躺著调炬,像睡著了一般舱馅。 火紅的嫁衣襯著肌膚如雪缰泡。 梳的紋絲不亂的頭發(fā)上代嗤,一...
    開(kāi)封第一講書(shū)人閱讀 52,682評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音干毅,去河邊找鬼。 笑死硝逢,一個(gè)胖子當(dāng)著我的面吹牛姨拥,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播叫乌,決...
    沈念sama閱讀 41,155評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼憨奸!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起膀藐,我...
    開(kāi)封第一講書(shū)人閱讀 40,098評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎额各,沒(méi)想到半個(gè)月后国觉,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體虾啦,經(jīng)...
    沈念sama閱讀 46,638評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評(píng)論 3 342
  • 正文 我和宋清朗相戀三年傲醉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片硬毕。...
    茶點(diǎn)故事閱讀 40,852評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖吐咳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情韭脊,我是刑警寧澤童谒,帶...
    沈念sama閱讀 36,520評(píng)論 5 351
  • 正文 年R本政府宣布沪羔,位于F島的核電站饥伊,受9級(jí)特大地震影響蔫饰,放射性物質(zhì)發(fā)生泄漏琅豆。R本人自食惡果不足惜篓吁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望越除。 院中可真熱鬧节腐,春花似錦、人聲如沸翼雀。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,674評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)箱熬。三九已至狈邑,卻和暖如春城须,著一層夾襖步出監(jiān)牢的瞬間米苹,已是汗流浹背糕伐。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,788評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工蘸嘶, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留良瞧,地道東北人训唱。 一個(gè)月前我還...
    沈念sama閱讀 49,279評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像况增,于是被迫代替她去往敵國(guó)和親赞庶。 傳聞我的和親對(duì)象是個(gè)殘疾皇子澳骤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評(píng)論 2 361