非靶向 | 靶向代謝組學(xué)數(shù)據(jù)分析總結(jié)-綱要

@(Dayueban)[靶向|非靶向|代謝組學(xué)數(shù)據(jù)分析]

導(dǎo)讀

如今組學(xué)數(shù)據(jù)的產(chǎn)出量日益龐大划栓。代謝組學(xué)數(shù)據(jù)也是如此废士,隨著科技的創(chuàng)新和技術(shù)的變革灶搜,允許科研工作者們通過(guò)大樣本數(shù)據(jù)去挖掘和解決人們關(guān)心的疾病和健康問(wèn)題沧侥。然而大樣本,大數(shù)據(jù)勢(shì)必會(huì)對(duì)我們的分析手段提出挑戰(zhàn)水援,因此密强,通過(guò)建立一套標(biāo)準(zhǔn)化,適合自己數(shù)據(jù)類型的分析方法顯得尤為重要蜗元。那么在這里或渤,我會(huì)花一段時(shí)間去重新回顧并總結(jié)我在代謝組學(xué)(血清樣本)數(shù)據(jù)分析過(guò)程所用到的方法以及碰到的問(wèn)題。

主要內(nèi)容

那么在學(xué)習(xí)數(shù)據(jù)分析之前奕扣,我還是想和大家一起回顧一下什么叫代謝組學(xué)(Metabolomics)代謝組(Metabolome)薪鹦。

  1. 代謝組學(xué),首先給出 維基百科 給出的解釋:metabolomics is the "systematic study of the unique chemical fingerprints that specific cellular processes leave behind", the study of their small-molecule metabolite profiles.也就是說(shuō)惯豆,代謝組學(xué)是一種研究手段池磁。
  2. 代謝組:The metabolome represents the complete set of metabolites in a biological cell, tissue, organ or organism, which are the end products of cellular processes.而代謝組指的是通過(guò)一系列方法能檢測(cè)到的所有的代謝物合集

非靶向代謝組學(xué)

為什么非靶向代謝組學(xué)在生物學(xué)領(lǐng)域的位置越來(lái)越重要

在中心法則的指導(dǎo)下循帐,基因組框仔、轉(zhuǎn)錄組舀武、蛋白組通常以信息流的方式呈現(xiàn)拄养,而代謝組被認(rèn)為是新陳代謝的結(jié)果。但是银舱,很多研究表明代謝物可以參與到生命有機(jī)體的生理學(xué)功能和穩(wěn)態(tài)瘪匿,比如:

  • 氧化脂類(oxylipins),是一種被氧化的脂肪族代謝物寻馏,其生物活性包括與炎癥反應(yīng)和防衛(wèi)系統(tǒng)相關(guān)棋弥;
  • oncometabolites,因?yàn)樾玛惔x改變而參與到腫瘤生成的一種代謝物诚欠;
  • 有害代謝物顽染,一類由酶錯(cuò)誤或自發(fā)反應(yīng)產(chǎn)生的化學(xué)反應(yīng)性化合物漾岳,通常由損害控制系統(tǒng)調(diào)節(jié);
  • 微生物代謝物粉寞,由腸道菌群分泌并且可以影響宿主生理的一代代謝物尼荆;
  • 最后,植物素唧垦,由植物產(chǎn)生并且對(duì)宿主代謝發(fā)揮多種生物學(xué)活性捅儒。
Fig 1 代謝組研究概況,可見振亮,目前我們所發(fā)現(xiàn)的代謝物只是冰山一角

非靶向代謝組學(xué)技術(shù)基礎(chǔ)

既然代謝組學(xué)是解密人體生理學(xué)基礎(chǔ)的重要一環(huán)巧还,那么它所用到的技術(shù)有哪些呢?

  • 基于質(zhì)譜(MS)的非靶向代謝組學(xué)使得代謝物的發(fā)現(xiàn)和分析化學(xué)的更新變得可能坊秸,信息學(xué)是闡明新的生理功能和生物學(xué)機(jī)制必不可少的工具麸祷。這里我們從非靶向代謝組學(xué)下機(jī)數(shù)據(jù)開始講起,如下圖所示:
Fig 2 非靶向代謝組學(xué)實(shí)驗(yàn)及數(shù)據(jù)分析的一般流程
  • 質(zhì)譜技術(shù)運(yùn)用到的主要是液相色譜質(zhì)譜聯(lián)用氣相色譜質(zhì)譜聯(lián)用技術(shù)妇斤,根據(jù)分析的性質(zhì)不同而定摇锋。那么非靶向代謝組學(xué)的測(cè)定平臺(tái)主要是 ultra performance liquid chromatogram quadrupole-time of flight mass spectrometry(UPLC/q-TOFMS,超高效液相色譜四級(jí)桿飛行時(shí)間質(zhì)譜)或者 two-dimensional gas chromatogram combined with time-of-flight mass spectrometry (GC * GC-TOFMS站超,全二維氣相色譜飛行時(shí)間質(zhì)譜)以及linear ion trap quadrupole-Orbitrap-mass spectrometry(LTQ Orbitrap MS荸恕,線性離子肼四級(jí)桿軌道肼質(zhì)譜)

  • 通過(guò)上述儀器采集的原始質(zhì)譜信號(hào)需要經(jīng)過(guò)一系列的數(shù)據(jù)轉(zhuǎn)換得到分析物的相對(duì)含量值表:具體為行名為樣品名列名為化合物保留時(shí)間/質(zhì)荷比對(duì)死相,每個(gè)樣品對(duì)應(yīng)每個(gè)化合物的單元格則為該化合物在該樣品的相對(duì)含量值融求。得到這個(gè)表的一系列步驟包括:

    Fig 3 非靶向代謝組下機(jī)數(shù)據(jù)處理步驟,以Waters Progenesis QI軟件為例

當(dāng)然還有很多其它的軟件也可以做這樣的事情算撮,比如MS-DIAL生宛,MZmine,XCMS肮柜,OpenMS等軟件陷舅,最終得到的表格如下圖

Fig 4 保留時(shí)間、m/z值對(duì)和樣品名及相對(duì)含量值組成的分析物表审洞,是經(jīng)過(guò)前面質(zhì)譜采集莱睁,軟件將質(zhì)譜采集的化學(xué)信號(hào)轉(zhuǎn)為數(shù)字的結(jié)果

數(shù)據(jù)前處理

這個(gè)小節(jié)的內(nèi)容主要介紹得到化合物表后,正式統(tǒng)計(jì)分析前的數(shù)據(jù)前處理工作芒澜。包括校正測(cè)定批次(特別是成百上千的樣品仰剿,測(cè)定周期少則幾個(gè)星期,多則幾個(gè)月的樣品類型)痴晦;數(shù)據(jù)轉(zhuǎn)換——中心化或者標(biāo)準(zhǔn)化等處理(根據(jù)數(shù)據(jù)分析的目的決定)

1. 校正批次

  • 針對(duì)大樣本南吮,多批次進(jìn)行的實(shí)驗(yàn),在質(zhì)譜采集的過(guò)程中誊酌,勢(shì)必會(huì)產(chǎn)生離子信號(hào)的偏移部凑。不管是批次內(nèi)還是批次之間露乏,如下圖:
    [圖片上傳失敗...(image-1d2c73-1544511793679)]
    如果這些效應(yīng)不去除的話,會(huì)嚴(yán)重影響數(shù)據(jù)的質(zhì)量涂邀。那么代謝組學(xué)數(shù)據(jù)的校正方法主要有哪些呢施无?
    1.1 內(nèi)標(biāo)校正:在樣品中加入內(nèi)標(biāo),然后對(duì)所有的峰都使用該內(nèi)標(biāo)進(jìn)行校正必孤。但是這種方法使用一個(gè)或者幾個(gè)內(nèi)標(biāo)對(duì)所有的峰進(jìn)行標(biāo)準(zhǔn)哈猾骡,并不可靠,因此用的不多敷搪。
    1.2 基于樣品本身:比如使用樣品中所有峰的平均值兴想、中位值或者總和對(duì)所有峰進(jìn)行校正。另外還有比如PQN等等方法赡勘。
    1.3 第三種在代謝組學(xué)數(shù)據(jù)中最為常見的標(biāo)準(zhǔn)化方法是基于QC(質(zhì)量控制)樣本的數(shù)據(jù)標(biāo)準(zhǔn)化嫂便。簡(jiǎn)單來(lái)說(shuō),就是將所要采集的所有樣本取等量混合起來(lái)闸与,組成QC樣本毙替,然后在采集數(shù)據(jù)的時(shí)候,每隔一定數(shù)量的樣品践樱,插入一針QC樣本厂画。因?yàn)镼C樣本都是一樣的,因此可以用QC樣本來(lái)模擬數(shù)據(jù)采集過(guò)程中信號(hào)的變化拷邢。得到數(shù)據(jù)之后袱院,對(duì)每一個(gè)峰(peak),都將QC作為訓(xùn)練集瞭稼,然后建立預(yù)測(cè)模型忽洛,預(yù)測(cè)信號(hào)變化,從而對(duì)樣品中的信號(hào)進(jìn)行校正环肘。
  • 那么現(xiàn)在一般都是基于QC樣品作為數(shù)據(jù)標(biāo)準(zhǔn)化的首選方法欲虚,這里主要運(yùn)用到的是上海朱正江課題組的博士生沈小濤博士開發(fā)的一個(gè)R包來(lái)做的,MetNormalizer悔雹,具體的用法請(qǐng)參考博文:http://shenxt.me/2018/05/16/metabolomics-data-normalization/
    主要的流程為下圖所示:
    MetNormalizer包校正方法

統(tǒng)計(jì)學(xué)分析

1. 數(shù)據(jù)標(biāo)準(zhǔn)化

數(shù)據(jù)經(jīng)過(guò)測(cè)定批次的校正之后复哆,便可以用于后續(xù)的統(tǒng)計(jì)學(xué)分析,那么在進(jìn)行統(tǒng)計(jì)學(xué)分析之前還需要進(jìn)行數(shù)據(jù)的轉(zhuǎn)化荠商,主要有如下幾種

  • Centering scaling:中心化寂恬,即減去每個(gè)變量的均值续誉;
  • Auto scaling:自動(dòng)標(biāo)度化莱没,也叫UV scaling(univariate scaling,單變量標(biāo)準(zhǔn)化)酷鸦,也就是上一步中心化后除以該變量的標(biāo)準(zhǔn)差饰躲,也叫Z-score標(biāo)準(zhǔn)化牙咏;
  • Pareto scaling:柏拉圖標(biāo)準(zhǔn)化,一般寫成Par標(biāo)準(zhǔn)化嘹裂,與UV scaling的不同之處就是對(duì)標(biāo)準(zhǔn)差開根號(hào)妄壶。
    一般用的較多的是Z-score標(biāo)準(zhǔn)化

2. 數(shù)據(jù)分析

2.1 多元統(tǒng)計(jì)分析

  • PCA分析

PCA分析主要是為了看數(shù)據(jù)的一個(gè)質(zhì)量,也就是穩(wěn)定性如何寄狼,QC樣品如果比較集中丁寄,那么則反映數(shù)據(jù)的質(zhì)量較好。另外可以直觀的觀察被分析樣本有無(wú)天然的分組(適用于疾病-正巢蠢ⅲ或者case-control研究中)

那么PCA分析可以由很多方法實(shí)現(xiàn)伊磺,包括桌面版的軟件SIMCA-P,在線分析軟件Metaboanalyst删咱,以及R語(yǔ)言軟件包(stats包里的prcomp()和princomp()函數(shù)屑埋,F(xiàn)actoMineR包的PCA()函數(shù),ade4包的dudi.pca()函數(shù)痰滋,以及ExPosition包的epPCA()函數(shù))

PCA圖摘能,QC樣品聚集在一起,說(shuō)明實(shí)驗(yàn)穩(wěn)定性較好

  • (O)PLS-DA分析

主要是用來(lái)篩選對(duì)樣本分類貢獻(xiàn)較大的生物標(biāo)記物敲街,通常選擇VIP>1的代謝物(需要注意的是团搞,有監(jiān)督模型建立之后需要進(jìn)行模型的驗(yàn)證,如置換檢驗(yàn)(permutation test多艇,PLS-DA)莺丑,交叉驗(yàn)證(cross-validation,OPLS-DA)等)(這里也可以參考一個(gè)用于分析代謝組學(xué)數(shù)據(jù)的R包 ropls 1.15.0)

另外補(bǔ)充一下墩蔓,瑞典查爾默斯理工大學(xué)的施琳老師最近發(fā)表在bioinformatics上的一篇文章梢莽,介紹了一個(gè)用于多元統(tǒng)計(jì)分析(分類或者回歸)的方法,并開發(fā)了一個(gè)R包MUVR

  • 相關(guān)性分析

通過(guò)非靶向或者后期靶向鑒定到的代謝物奸披,和表型做相關(guān)性分析昏名,可以運(yùn)用Spearman 相關(guān)性分析,如果需要校正其它的confounders或者modifiers阵面,可以用Partial Spearman 相關(guān)性分析(R語(yǔ)言的ppcor包)

2.2 單變量統(tǒng)計(jì)分析

對(duì)上一步篩選出的潛在的生物標(biāo)記物進(jìn)行差異統(tǒng)計(jì)學(xué)分析轻局,找出組間差異的代謝物(兩組之間用Wilcoxon t-test,三組以上用kruskal-waillis檢驗(yàn)或者方差檢驗(yàn))样刷;另外還可以結(jié)合fold-change(差異倍數(shù))分析仑扑。

2.3 構(gòu)建回歸方程進(jìn)行預(yù)測(cè)

  • 表型是分類變量(如疾病-健康組)

case-control,則使用前面步驟分析得到的差異化合物作為分析變量來(lái)預(yù)測(cè)表型置鼻,這一步一般用到的是邏輯回歸!

  • 表型是連續(xù)變量(如BMI)

針對(duì)表型是連續(xù)變量镇饮,如BMI,可以用前面分析到的與表型相關(guān)的n個(gè)代謝物構(gòu)建一個(gè)嶺回歸(ridge model箕母,之所以運(yùn)用嶺回歸是因?yàn)榇x物之間可能會(huì)存在較強(qiáng)的共線性储藐,而一般普通的線性回歸對(duì)于變量之間存在共線性會(huì)有不穩(wěn)定的解俱济。另外套索回歸-lasso model也可以)

2.4 網(wǎng)絡(luò)分析

挖掘到差異或者和表型強(qiáng)相關(guān)的代謝物后,還需挖掘和這些代謝物相關(guān)的代謝通路钙勃。這里一般用的多的是Metaboanalyst里的兩個(gè)模塊

  • 富集分析(Enrichment analysis)
  • 通路分析(Pathway analysis):通路分析中添加了通路的拓?fù)浞治觯?code>topology analysis蛛碌,會(huì)計(jì)算代謝物在網(wǎng)絡(luò)中的一個(gè)中心位置),會(huì)輸出通路在整體網(wǎng)絡(luò)中的重要性(impact)辖源,重要性越大蔚携,可能意味著在整個(gè)通路中的地位越核心,那么從impact值也可以反映出來(lái)克饶。

參考

[1] Advances in computational metabolomics and databases deepen the understanding of metabolisms

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末浮梢,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子彤路,更是在濱河造成了極大的恐慌秕硝,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件洲尊,死亡現(xiàn)場(chǎng)離奇詭異远豺,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)坞嘀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門躯护,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人丽涩,你說(shuō)我怎么就攤上這事棺滞。” “怎么了矢渊?”我有些...
    開封第一講書人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵继准,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我矮男,道長(zhǎng)移必,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任毡鉴,我火速辦了婚禮崔泵,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘猪瞬。我一直安慰自己憎瘸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開白布陈瘦。 她就那樣靜靜地躺著幌甘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上含潘,一...
    開封第一講書人閱讀 51,115評(píng)論 1 296
  • 那天,我揣著相機(jī)與錄音线婚,去河邊找鬼遏弱。 笑死,一個(gè)胖子當(dāng)著我的面吹牛塞弊,可吹牛的內(nèi)容都是我干的漱逸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼游沿,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼饰抒!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起诀黍,我...
    開封第一講書人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤袋坑,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后眯勾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體枣宫,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年吃环,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了也颤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡郁轻,死狀恐怖翅娶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情好唯,我是刑警寧澤竭沫,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站骑篙,受9級(jí)特大地震影響输吏,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜替蛉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一贯溅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧躲查,春花似錦它浅、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春镊折,著一層夾襖步出監(jiān)牢的瞬間胯府,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工恨胚, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留骂因,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓赃泡,卻偏偏與公主長(zhǎng)得像寒波,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子升熊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容