@(Dayueban)[靶向|非靶向|代謝組學(xué)數(shù)據(jù)分析]
導(dǎo)讀
如今組學(xué)數(shù)據(jù)的產(chǎn)出量日益龐大划栓。代謝組學(xué)數(shù)據(jù)也是如此废士,隨著科技的創(chuàng)新和技術(shù)的變革灶搜,允許科研工作者們通過(guò)大樣本數(shù)據(jù)去挖掘和解決人們關(guān)心的疾病和健康問(wèn)題沧侥。然而大樣本,大數(shù)據(jù)勢(shì)必會(huì)對(duì)我們的分析手段提出挑戰(zhàn)水援,因此密强,通過(guò)建立一套標(biāo)準(zhǔn)化,適合自己數(shù)據(jù)類型的分析方法顯得尤為重要蜗元。那么在這里或渤,我會(huì)花一段時(shí)間去重新回顧并總結(jié)我在代謝組學(xué)(血清樣本)數(shù)據(jù)分析過(guò)程所用到的方法以及碰到的問(wèn)題。
主要內(nèi)容
那么在學(xué)習(xí)數(shù)據(jù)分析之前奕扣,我還是想和大家一起回顧一下什么叫代謝組學(xué)(Metabolomics)
和代謝組(Metabolome)
薪鹦。
- 代謝組學(xué),首先給出 維基百科 給出的解釋:metabolomics is the "systematic study of the unique chemical fingerprints that specific cellular processes leave behind", the study of their small-molecule metabolite profiles.也就是說(shuō)惯豆,代謝組學(xué)是一種研究手段池磁。
- 代謝組:The metabolome represents the complete set of metabolites in a biological cell, tissue, organ or organism, which are the end products of cellular processes.而代謝組指的是通過(guò)一系列方法能檢測(cè)到的所有的代謝物合集。
非靶向代謝組學(xué)
為什么非靶向代謝組學(xué)在生物學(xué)領(lǐng)域的位置越來(lái)越重要
在中心法則的指導(dǎo)下循帐,基因組框仔、轉(zhuǎn)錄組舀武、蛋白組通常以信息流
的方式呈現(xiàn)拄养,而代謝組被認(rèn)為是新陳代謝的結(jié)果。但是银舱,很多研究表明代謝物可以參與到生命有機(jī)體的生理學(xué)功能和穩(wěn)態(tài)瘪匿,比如:
- 氧化脂類(oxylipins),是一種被氧化的脂肪族代謝物寻馏,其生物活性包括與炎癥反應(yīng)和防衛(wèi)系統(tǒng)相關(guān)棋弥;
- oncometabolites,因?yàn)樾玛惔x改變而參與到腫瘤生成的一種代謝物诚欠;
- 有害代謝物顽染,一類由酶錯(cuò)誤或自發(fā)反應(yīng)產(chǎn)生的化學(xué)反應(yīng)性化合物漾岳,通常由損害控制系統(tǒng)調(diào)節(jié);
- 微生物代謝物粉寞,由腸道菌群分泌并且可以影響宿主生理的一代代謝物尼荆;
- 最后,植物素唧垦,由植物產(chǎn)生并且對(duì)宿主代謝發(fā)揮多種生物學(xué)活性捅儒。
非靶向代謝組學(xué)技術(shù)基礎(chǔ)
既然代謝組學(xué)是解密人體生理學(xué)基礎(chǔ)的重要一環(huán)巧还,那么它所用到的技術(shù)有哪些呢?
- 基于質(zhì)譜(MS)的非靶向代謝組學(xué)使得代謝物的發(fā)現(xiàn)和分析化學(xué)的更新變得可能坊秸,信息學(xué)是闡明新的生理功能和生物學(xué)機(jī)制必不可少的工具麸祷。這里我們從非靶向代謝組學(xué)下機(jī)數(shù)據(jù)開始講起,如下圖所示:
質(zhì)譜技術(shù)運(yùn)用到的主要是液相色譜質(zhì)譜聯(lián)用和氣相色譜質(zhì)譜聯(lián)用技術(shù)妇斤,根據(jù)分析的性質(zhì)不同而定摇锋。那么非靶向代謝組學(xué)的測(cè)定平臺(tái)主要是
ultra performance liquid chromatogram quadrupole-time of flight mass spectrometry(UPLC/q-TOFMS,超高效液相色譜四級(jí)桿飛行時(shí)間質(zhì)譜)
或者two-dimensional gas chromatogram combined with time-of-flight mass spectrometry (GC * GC-TOFMS站超,全二維氣相色譜飛行時(shí)間質(zhì)譜)
以及linear ion trap quadrupole-Orbitrap-mass spectrometry(LTQ Orbitrap MS荸恕,線性離子肼四級(jí)桿軌道肼質(zhì)譜)
-
通過(guò)上述儀器采集的原始質(zhì)譜信號(hào)需要經(jīng)過(guò)一系列的數(shù)據(jù)轉(zhuǎn)換得到分析物的相對(duì)含量值表:具體為行名為樣品名,列名為化合物保留時(shí)間/質(zhì)荷比對(duì)死相,每個(gè)樣品對(duì)應(yīng)每個(gè)化合物的單元格則為該化合物在該樣品的相對(duì)含量值融求。得到這個(gè)表的一系列步驟包括:
當(dāng)然還有很多其它的軟件也可以做這樣的事情算撮,比如MS-DIAL生宛,MZmine,XCMS肮柜,OpenMS等軟件陷舅,最終得到的表格如下圖
數(shù)據(jù)前處理
這個(gè)小節(jié)的內(nèi)容主要介紹得到化合物表后,正式統(tǒng)計(jì)分析前的數(shù)據(jù)前處理工作芒澜。包括校正測(cè)定批次(特別是成百上千的樣品仰剿,測(cè)定周期少則幾個(gè)星期,多則幾個(gè)月的樣品類型)痴晦;數(shù)據(jù)轉(zhuǎn)換——中心化或者標(biāo)準(zhǔn)化等處理(根據(jù)數(shù)據(jù)分析的目的決定)
1. 校正批次
- 針對(duì)大樣本南吮,多批次進(jìn)行的實(shí)驗(yàn),在質(zhì)譜采集的過(guò)程中誊酌,勢(shì)必會(huì)產(chǎn)生離子信號(hào)的偏移部凑。不管是批次內(nèi)還是批次之間露乏,如下圖:
[圖片上傳失敗...(image-1d2c73-1544511793679)]
如果這些效應(yīng)不去除的話,會(huì)嚴(yán)重影響數(shù)據(jù)的質(zhì)量涂邀。那么代謝組學(xué)數(shù)據(jù)的校正方法主要有哪些呢施无?
1.1 內(nèi)標(biāo)校正:在樣品中加入內(nèi)標(biāo),然后對(duì)所有的峰都使用該內(nèi)標(biāo)進(jìn)行校正必孤。但是這種方法使用一個(gè)或者幾個(gè)內(nèi)標(biāo)對(duì)所有的峰進(jìn)行標(biāo)準(zhǔn)哈猾骡,并不可靠,因此用的不多敷搪。
1.2 基于樣品本身:比如使用樣品中所有峰的平均值兴想、中位值或者總和對(duì)所有峰進(jìn)行校正。另外還有比如PQN等等方法赡勘。
1.3 第三種在代謝組學(xué)數(shù)據(jù)中最為常見的標(biāo)準(zhǔn)化方法是基于QC(質(zhì)量控制)樣本的數(shù)據(jù)標(biāo)準(zhǔn)化嫂便。簡(jiǎn)單來(lái)說(shuō),就是將所要采集的所有樣本取等量混合起來(lái)闸与,組成QC樣本毙替,然后在采集數(shù)據(jù)的時(shí)候,每隔一定數(shù)量的樣品践樱,插入一針QC樣本厂画。因?yàn)镼C樣本都是一樣的,因此可以用QC樣本來(lái)模擬數(shù)據(jù)采集過(guò)程中信號(hào)的變化拷邢。得到數(shù)據(jù)之后袱院,對(duì)每一個(gè)峰(peak),都將QC作為訓(xùn)練集瞭稼,然后建立預(yù)測(cè)模型忽洛,預(yù)測(cè)信號(hào)變化,從而對(duì)樣品中的信號(hào)進(jìn)行校正环肘。 -
那么現(xiàn)在一般都是基于QC樣品作為數(shù)據(jù)標(biāo)準(zhǔn)化的首選方法欲虚,這里主要運(yùn)用到的是上海朱正江課題組的博士生沈小濤博士開發(fā)的一個(gè)R包來(lái)做的,MetNormalizer悔雹,具體的用法請(qǐng)參考博文:http://shenxt.me/2018/05/16/metabolomics-data-normalization/
主要的流程為下圖所示:
統(tǒng)計(jì)學(xué)分析
1. 數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)經(jīng)過(guò)測(cè)定批次的校正之后复哆,便可以用于后續(xù)的統(tǒng)計(jì)學(xué)分析,那么在進(jìn)行統(tǒng)計(jì)學(xué)分析之前還需要進(jìn)行數(shù)據(jù)的轉(zhuǎn)化荠商,主要有如下幾種
- Centering scaling:中心化寂恬,即減去每個(gè)變量的均值续誉;
- Auto scaling:自動(dòng)標(biāo)度化莱没,也叫UV scaling(univariate scaling,單變量標(biāo)準(zhǔn)化)酷鸦,也就是上一步中心化后除以該變量的標(biāo)準(zhǔn)差饰躲,也叫
Z-score
標(biāo)準(zhǔn)化牙咏; - Pareto scaling:
柏拉圖標(biāo)準(zhǔn)化
,一般寫成Par標(biāo)準(zhǔn)化嘹裂,與UV scaling的不同之處就是對(duì)標(biāo)準(zhǔn)差開根號(hào)妄壶。
一般用的較多的是Z-score標(biāo)準(zhǔn)化
2. 數(shù)據(jù)分析
2.1 多元統(tǒng)計(jì)分析
- PCA分析
PCA分析主要是為了看數(shù)據(jù)的一個(gè)質(zhì)量,也就是穩(wěn)定性如何寄狼,QC樣品如果比較集中丁寄,那么則反映數(shù)據(jù)的質(zhì)量較好。另外可以直觀的觀察被分析樣本有無(wú)天然的分組(適用于疾病-正巢蠢ⅲ或者case-control研究中)
那么PCA分析可以由很多方法實(shí)現(xiàn)伊磺,包括桌面版的軟件SIMCA-P
,在線分析軟件Metaboanalyst
删咱,以及R語(yǔ)言軟件包(stats包里的prcomp()和princomp()函數(shù)屑埋,F(xiàn)actoMineR包的PCA()函數(shù),ade4包的dudi.pca()函數(shù)痰滋,以及ExPosition包的epPCA()函數(shù))
- (O)PLS-DA分析
主要是用來(lái)篩選對(duì)樣本分類貢獻(xiàn)較大的生物標(biāo)記物敲街,通常選擇
VIP>1的代謝物
(需要注意的是团搞,有監(jiān)督模型建立之后需要進(jìn)行模型的驗(yàn)證,如置換檢驗(yàn)(permutation test多艇,PLS-DA)莺丑,交叉驗(yàn)證(cross-validation,OPLS-DA)等)(這里也可以參考一個(gè)用于分析代謝組學(xué)數(shù)據(jù)的R包 ropls 1.15.0)
另外補(bǔ)充一下墩蔓,瑞典查爾默斯理工大學(xué)的施琳老師最近發(fā)表在bioinformatics上的一篇文章梢莽,介紹了一個(gè)用于多元統(tǒng)計(jì)分析(分類或者回歸)的方法,并開發(fā)了一個(gè)R包MUVR
- 相關(guān)性分析
通過(guò)非靶向或者后期靶向鑒定到的代謝物奸披,和表型做相關(guān)性分析昏名,可以運(yùn)用Spearman 相關(guān)性分析,如果需要校正其它的confounders或者modifiers阵面,可以用Partial Spearman 相關(guān)性分析(R語(yǔ)言的ppcor包)
2.2 單變量統(tǒng)計(jì)分析
對(duì)上一步篩選出的潛在的生物標(biāo)記物進(jìn)行差異統(tǒng)計(jì)學(xué)分析轻局,找出組間差異的代謝物(兩組之間用Wilcoxon t-test,三組以上用kruskal-waillis檢驗(yàn)或者方差檢驗(yàn))样刷;另外還可以結(jié)合fold-change(差異倍數(shù))分析仑扑。
2.3 構(gòu)建回歸方程進(jìn)行預(yù)測(cè)
- 表型是分類變量(如疾病-健康組)
case-control,則使用前面步驟分析得到的差異化合物作為分析變量來(lái)預(yù)測(cè)表型置鼻,這一步一般用到的是
邏輯回歸
!
- 表型是連續(xù)變量(如BMI)
針對(duì)表型是連續(xù)變量镇饮,如BMI,可以用前面分析到的與表型相關(guān)的n個(gè)代謝物構(gòu)建一個(gè)嶺回歸(ridge model箕母,之所以運(yùn)用嶺回歸是因?yàn)榇x物之間可能會(huì)存在較強(qiáng)的共線性储藐,而一般普通的線性回歸對(duì)于變量之間存在共線性會(huì)有不穩(wěn)定的解俱济。另外套索回歸-lasso model也可以)
2.4 網(wǎng)絡(luò)分析
挖掘到差異或者和表型強(qiáng)相關(guān)的代謝物后,還需挖掘和這些代謝物相關(guān)的代謝通路钙勃。這里一般用的多的是Metaboanalyst里的兩個(gè)模塊
- 富集分析(Enrichment analysis)
- 通路分析(Pathway analysis):通路分析中添加了通路的拓?fù)浞治觯?code>topology analysis蛛碌,會(huì)計(jì)算代謝物在網(wǎng)絡(luò)中的一個(gè)中心位置),會(huì)輸出通路在整體網(wǎng)絡(luò)中的重要性(impact)辖源,重要性越大蔚携,可能意味著在整個(gè)通路中的地位越核心,那么從impact值也可以反映出來(lái)克饶。
參考
[1] Advances in computational metabolomics and databases deepen the understanding of metabolisms