代謝組學(xué)( Metabolomics 或Metabonomics )是有機(jī)化學(xué)蹂喻、分析化學(xué)、化學(xué)計(jì)量學(xué)、信息學(xué)和基因組學(xué)抓于、表達(dá)組學(xué)等多學(xué)科相結(jié)合的交叉學(xué)科,旨在研究生物體或組織甚至單個(gè)細(xì)胞的全部小分子代謝物成分及其動(dòng)態(tài)變化( Oliver et al., 1998; Fiehn, 2002 )浇借。
化學(xué)計(jì)量學(xué)通過(guò)運(yùn)用數(shù)學(xué)捉撮、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)與化學(xué)相結(jié)合的方法與手段妇垢,設(shè)計(jì)和選擇最優(yōu)的化學(xué)測(cè)量方法巾遭,解析化學(xué)測(cè)量數(shù)據(jù)并最大限度地獲得測(cè)量數(shù)據(jù)所包含的信息肉康。在化學(xué)計(jì)量學(xué)方法中,解決復(fù)雜體系中歸類(lèi)問(wèn)題和標(biāo)記物搜索的主要手段是模式識(shí)別灼舍。它的主要思想是借助計(jì)算機(jī)對(duì)采集的多維海量原始信息進(jìn)行壓縮降維和歸類(lèi)分析吼和,然后根據(jù)化學(xué)測(cè)量數(shù)據(jù)矩陣將樣本集按照樣本的某種性質(zhì)(通常是隱含的)進(jìn)行分類(lèi)、特征選取以及尋找其內(nèi)部規(guī)律的一種多元分析技術(shù)片仿,通常包括非監(jiān)督和監(jiān)督兩種分類(lèi)方法
1. 背景和意義
優(yōu)勢(shì)
由于距表型最接近纹安,代謝組學(xué)研究能更全面地揭示基因的功能,為生物技術(shù)的應(yīng)用提供科學(xué)依據(jù)砂豌。
基本概念
它效仿基因組學(xué)和蛋白質(zhì)組學(xué)的研究思想厢岂,對(duì)生物體內(nèi)所有代謝物進(jìn)行定量分析,并尋找代謝物與生理病理變化的相對(duì)關(guān)系的研究方式阳距,是系統(tǒng)生物學(xué)的組成部分塔粒。其研究對(duì)象大都是相對(duì)分子質(zhì)量1000以內(nèi)的小分子物質(zhì)。先進(jìn)分析檢測(cè)技術(shù)結(jié)合模式識(shí)別和專(zhuān)家系統(tǒng)等計(jì)算分析方法是代謝組學(xué)研究的基本方法筐摘。
相關(guān)分類(lèi)
應(yīng)用方向
一般認(rèn)為卒茬,參與某個(gè)生物學(xué)過(guò)程的某些基因(蛋臼質(zhì)或者代謝物)存在于一個(gè)控制系統(tǒng)中,有著協(xié)調(diào)調(diào)節(jié)咖熟、共表達(dá)的關(guān)系圃酵。因此,如果一個(gè)未知的基因和已知的基因共表達(dá)馍管,研究者可以假定這個(gè)未知基因可能涉及這個(gè)已知基因參與的生物學(xué)過(guò)程郭赐,這個(gè)共同發(fā)生的原則可以延伸到共累積的關(guān)系。假如一個(gè)代謝途徑通過(guò)基因突變或環(huán)境變化被修飾了确沸,這個(gè)修飾過(guò)程能夠通過(guò)代謝譜的變化來(lái)顯示捌锭,通過(guò)基因表達(dá)譜和代謝譜分析可以比較全面地預(yù)測(cè)哪些基因可能參與到這個(gè)修飾過(guò)程。
植物代謝組學(xué)正在迅猛發(fā)展罗捎,在揭示植物生長(zhǎng)發(fā)育及適應(yīng)逆境的分子機(jī)制中發(fā)揮著越來(lái)越重要的作用观谦。通過(guò)代謝物與基因之間的相關(guān)分析,可以獲得候選基因桨菜,再通過(guò)反向遺傳學(xué)或反向生物化學(xué)的方法研究候選基因的功能豁状。代謝物的遺傳分析可以幫助解析未知代謝途徑。代謝組學(xué)結(jié)合致敏反應(yīng)和毒理反應(yīng)實(shí)驗(yàn)雷激,可以綜合評(píng)價(jià)轉(zhuǎn)基因植物的安全性替蔬。代謝紹學(xué)從代謝物的組成上能夠區(qū)分像引起甜、酸等口味的化合物成分屎暇, 在提高營(yíng)養(yǎng)承桥、品質(zhì)及食品品質(zhì)等育種方面有著很好的應(yīng)用前景。
實(shí)驗(yàn)標(biāo)準(zhǔn)和數(shù)據(jù)框
2007 年國(guó)際代謝組學(xué)雜志"Metabohmics" 推出三篇論文根悼,分別介紹代謝組學(xué)標(biāo)準(zhǔn)發(fā)起組織(Fiehn et 址凶异,2007 )蜀撑、化學(xué)分析基本報(bào)告標(biāo)準(zhǔn)( Sumner et 此, 2007 )和數(shù)據(jù)分析基本報(bào)告標(biāo)準(zhǔn)( Goodacre et al., 2007 )剩彬。
綜合性好且含有代謝途徑數(shù)據(jù)庫(kù)的有:
京都基因與基因組百科全書(shū)( Kyoto Encyclopedia of Genes and Genomes, KEGG) 酷麦。KEGG 提供代謝途徑查詢,代謝途徑包括碳水化合物代謝喉恋、核昔代謝飛氨基酸代謝及次生代謝等沃饶。
MetaCyc (http://metacyc.org/) 屬于BioCyc 子數(shù)據(jù)庫(kù),是一個(gè)關(guān)于代謝途徑 和酶的數(shù)據(jù)庫(kù)轻黑。其闡述了超過(guò)1600 種生物體中的代謝途徑糊肤,包含了從大量的文獻(xiàn) 和網(wǎng)上資源中得到的代謝途徑、反應(yīng)氓鄙、酶和底物的資料馆揉。
格勒姆代謝組數(shù)據(jù)庫(kù)( Golm Metabolome Database, GMD ) ( http://gmd.mpimpgolm.mpg.de/ )包括代謝產(chǎn)物衍生后的GC-MS 和GC-TOF-MS 質(zhì)譜圖庫(kù)。
METLIN代謝物數(shù)據(jù)庫(kù)由美國(guó)斯克里普斯研究所生物質(zhì)譜中心建立抖拦,包含了人的23 000 多種內(nèi)源性和外源性代謝物升酣、小分子藥物及藥物代謝物、小肽等态罪。數(shù)據(jù)庫(kù)含有各個(gè)化合物的LC-MS " MS/MS 噩茄、FTMS 質(zhì)譜數(shù)據(jù),可以通過(guò)質(zhì)量复颈、化學(xué)式和結(jié)構(gòu)等檢索巢墅。
MMCD ( Madison-Qingdao Metabolomics Consortium Database, http://mmcd.nmrfam.wisc.edu/ )是由美國(guó)威斯康星大學(xué)麥迪遜分校同家核磁共振中心開(kāi)發(fā)維持的數(shù)據(jù)庫(kù), 數(shù)據(jù)庫(kù)還從網(wǎng)絡(luò)數(shù)據(jù)庫(kù)和文獻(xiàn)中收集了超過(guò)2 萬(wàn)個(gè)小分子代謝物的數(shù)據(jù)券膀,配置有文本、化學(xué)結(jié)構(gòu)驯遇、核磁共振數(shù)據(jù)飛質(zhì)譜學(xué)數(shù)據(jù)等搜索引擎芹彬。
KNApSAcK ( http://kanaya.naist.jp/KNApSAcKl )是一個(gè)涵蓋大部分植物物種 和代謝化合物關(guān)系的網(wǎng)站, 包括了4 萬(wàn)多種化合物和8 千多植物物種的信息叉庐, 用戶 可以很方便地查詢舒帮, 獲得某個(gè)植物物種中已報(bào)溢的代謝物等信息。
MassBank ( http : //www.massbank.jp/) 是日本多所大學(xué)和研究機(jī)構(gòu)共同建立的質(zhì)譜譜圖數(shù)據(jù)庫(kù)陡叠, 主要收錄高分辨的質(zhì)譜玩郊, 包含多種質(zhì)譜儀事如ESI-Q-TOF-MS/MS 、ESI-QqQ-MSIMS 枉阵、E SI-IT-(MS )'I ( Ion Trop, IT ), G C-EI-TOF-孔1S 译红、LC -ESITOF-MS 等產(chǎn)生的數(shù)據(jù), 參考譜圖含有多級(jí)質(zhì)譜的信息兴溜。到目前為止侦厚, 已收集了超過(guò)12000 種初生代謝物和次生代謝物在正離子和負(fù)離子模式下獲得的24993 多張質(zhì)譜圖耻陕。MassBank 支持用戶通過(guò)輸入文本恪式的質(zhì)譜, 進(jìn)行搜索和三維可視化的質(zhì)譜比較刨沦。
2. 研究流程
流程概述
研究對(duì)象
實(shí)驗(yàn)設(shè)計(jì)
嚴(yán)格的實(shí)驗(yàn)設(shè)計(jì)是獲得代謝組學(xué)實(shí)驗(yàn)成功的第一步诗宣。實(shí)驗(yàn)設(shè)計(jì)要求: ①控制基本一致的植物生長(zhǎng)環(huán)境條件,如果不能達(dá)到每次實(shí)驗(yàn)在完全一致的條件下完成想诅,也要保證同一實(shí)驗(yàn)內(nèi)不同處理或材料的生長(zhǎng)環(huán)境條件一致· ②設(shè)置實(shí)驗(yàn)重復(fù)挣柬, 一般為4—6 次,這將進(jìn)一步消除環(huán)境和實(shí)驗(yàn)操作的誤差餐曼, 獲得具有統(tǒng)計(jì)意義的數(shù)據(jù)货岭。
為了控制和監(jiān)測(cè)樣品提取、前處理及儀器分析過(guò)程中的誤差讳癌, 一般要求:①設(shè)置空白對(duì)照穿稳。②設(shè)置質(zhì)控樣本。③設(shè)置內(nèi)標(biāo)晌坤。④保留時(shí)間指數(shù)標(biāo)準(zhǔn)物質(zhì)的添加逢艘。
樣本預(yù)處理和提取
取樣、代謝物提取及分析前處理(衍生化)是代謝組學(xué)樣品制備技術(shù)的三個(gè)關(guān)鍵組成部分骤菠,是獲得可靠數(shù)據(jù)的前提它改。評(píng)價(jià)代謝物提取方法好壞的標(biāo)準(zhǔn)主要有:①保持代謝物原來(lái)的生化狀態(tài);②提取全面;③提取過(guò)程中不應(yīng)有選擇性和任何物理化學(xué)修飾;④較好的可重復(fù)性和可操作性。
為了使取樣和提取過(guò)程達(dá)到快速商乎、高效央拖、均一性好及保持化合物的穩(wěn)定, 一般將植物組織器官用液氮快速冷凍鹉戚,研磨成粉末后鲜戒,迅速加入樣品提取液。
分離和檢測(cè)技術(shù)
代謝物的分離和檢測(cè)是植物代謝組學(xué)分析技術(shù)的兩個(gè)核心組成部分抹凳。分離技術(shù)主要采用各種色譜分離方法遏餐,如氣相色譜( Gas Chromatography, GC ) 液相色譜( Liquid Chromatography, LC )及毛細(xì)管電泳( Capillary Electrophoresis,CE )等,而檢測(cè)技術(shù)目前主要是使用質(zhì)譜( Mass Spectrorneter, MS )赢底、核磁共振( Nuclear Magnetic Resonance, NMR )等手段失都。二者的有效結(jié)合可基本實(shí)現(xiàn)植物代謝組學(xué)分析的需求。
GC/MS 聯(lián)用
氣相色譜部分起分離作用幸冻,并將目標(biāo)物質(zhì)引人質(zhì)譜系統(tǒng)粹庞。質(zhì)譜部分實(shí)為檢測(cè)器,目標(biāo)物質(zhì)通過(guò)氣相色譜儀進(jìn)入質(zhì)譜后洽损,在電離源被電離成氣相離子庞溜,然后進(jìn)入質(zhì)量分析器。不同質(zhì)荷比離子被依次分開(kāi)到達(dá)電子倍增管產(chǎn)生電信號(hào)碑定,這樣就會(huì)得到目標(biāo)物質(zhì)的三維信息强缘,利用離子碎片信息可以更準(zhǔn)確地對(duì)物質(zhì)進(jìn)行定性督惰。
LC/MS聯(lián)用
HPLC 作為目前常用的化學(xué)分離分析手段, 有高壓旅掂、高速赏胚、高效、高靈敏度和適應(yīng)范圍寬的特點(diǎn)商虐。
質(zhì)譜部分
質(zhì)譜部分實(shí)為檢測(cè)器觉阅, 主要包括電離源、質(zhì)量分析器和電子倍增管等秘车。目標(biāo)物質(zhì)通過(guò)氣相色譜儀進(jìn)入質(zhì)譜后在電離源被電離成氣相離子典勇,然后進(jìn)入質(zhì)量分析器。不同質(zhì)荷比離子被依次分開(kāi)到達(dá)電子倍增管產(chǎn)生電信號(hào)叮趴,這樣就會(huì)得到目標(biāo)物質(zhì)的三維信息割笙,通過(guò)檢測(cè)離子質(zhì)荷比的大小和豐度,利用離子碎片信息可以更準(zhǔn)確地對(duì)物質(zhì)進(jìn)行定性眯亦,從而對(duì)化合物進(jìn)行定性和定量分析伤溉,并獲得非常有用的元素組成和結(jié)構(gòu)信息。
核磁共振
?.......
常見(jiàn)技術(shù)優(yōu)缺點(diǎn)比較
3. 統(tǒng)計(jì)分析
a.模式識(shí)別簡(jiǎn)介
由于通過(guò)NMR和MS 方法所得到的代謝組學(xué)信息具有樣品量多妻率、數(shù)據(jù)信息復(fù)雜乱顾、以及多維數(shù)據(jù)矩陣內(nèi)各變量之間具有高度的相關(guān)性等特點(diǎn),我們常常無(wú)法用傳統(tǒng)的單 變量分析方法提取數(shù)據(jù)信息宫静。因而走净,如何從這些海量數(shù)據(jù)中挖掘并提煉出各代謝物之間潛在相關(guān)的信息,對(duì)于后續(xù)生物標(biāo)記物群的尋找和生物學(xué)意義的解釋影響重大孤里。同時(shí)伏伯,選擇劊毒的數(shù)據(jù)分析方法對(duì)于代謝組學(xué)信息的正確提取也是至關(guān)重要的。歸納起來(lái)捌袜,代謝組學(xué)數(shù)據(jù)具有以下特點(diǎn):
高噪聲:生物體內(nèi)含有大量維持自身正常功能的內(nèi)源性小分子舵鳞,具有特定研究意義的生物標(biāo)志物只是其中很少一部分,絕大部分代謝物和研究目的無(wú)關(guān)琢蛤。
高維、小樣本:代謝物的數(shù)目遠(yuǎn)大于樣品個(gè)數(shù)抛虏,不適合使用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法進(jìn)行分析博其,多變量分析容易出現(xiàn)過(guò)擬合和維數(shù)災(zāi)難問(wèn)題。
高變異性:一是不同代謝物質(zhì)的理化性質(zhì)差異巨大迂猴,其濃度含量動(dòng)態(tài)范圍寬達(dá)7~9個(gè)數(shù)量級(jí)慕淡,二是生物個(gè)體間存在各種來(lái)源的變異,如年齡沸毁、性別都可能影響代謝產(chǎn)物的變化峰髓,三是儀器測(cè)量受各種因素影響傻寂,容易出現(xiàn)隨機(jī)測(cè)量誤差和系統(tǒng)誤差,這使得識(shí)別有重要作用的生物標(biāo)志物可能極其困難携兵。
相互作用關(guān)系復(fù)雜:各種代謝物質(zhì)可能不僅具有簡(jiǎn)單的相加效應(yīng)疾掰,而且可能具有交互作用,從而增加了識(shí)別這些具有復(fù)雜關(guān)系的生物標(biāo)志物的難度徐紧。
相關(guān)性和冗余性:各種代謝物并非獨(dú)立存在静檬,而是相互之間具有不同程度的相關(guān)性,同時(shí)由于碎片并级、加合物和同位素的存在使得數(shù)據(jù)結(jié)構(gòu)存在很大的冗余性拂檩,這就需要采用合理的統(tǒng)計(jì)分析策略來(lái)揭示隱藏其中的復(fù)雜數(shù)據(jù)關(guān)系。
分布的不規(guī)則和稀疏性: 代謝組學(xué)數(shù)據(jù)分布不規(guī)則嘲碧,而且數(shù)據(jù)具有稀疏性(即有很多值為零) 稻励,因此,傳統(tǒng)的一些線性和參數(shù)分析方法此時(shí)可能失效愈涩。
目前在代謝組學(xué)中運(yùn)用較多的多元統(tǒng)計(jì)分析方法望抽,包括主成分分析(Principal component analysis, PCA)、系統(tǒng)聚類(lèi)分析(Hierarchical clustering analysis, HCA)钠署、非線性映射(Nonlinear innuendo analysis, NLM)糠聪、分級(jí)聚類(lèi)法(hierarchical cluster analysis, HCA)等非監(jiān)督分類(lèi)方法,以及K最鄰近法(K-nearest neighbor classification method, K-NN)谐鼎、偏最小二乘法-判別分析(Partial least squares projections to latent structures - discriminant analysis, PLS-DA)舰蟆、正交偏最小二乘法-判別分析(Orthogonal projections to latent structures - discriminant analysis, OPLS-DA)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)狸棍、支持向量機(jī)(Support Vector Machine, SVM)等監(jiān)督分類(lèi)方法身害。
一般來(lái)講,模式識(shí)別過(guò)程通常包括數(shù)據(jù)集的預(yù)處理草戈、數(shù)據(jù)特征的提取和選擇(包括非監(jiān)督和監(jiān)督的模式識(shí)別方法)以及數(shù)據(jù)模型的建立和驗(yàn)證等三個(gè)方面塌鸯。
b.數(shù)據(jù)的預(yù)處理
為了得到可以進(jìn)行后期分析的數(shù)據(jù),原始數(shù)據(jù)集通常需要進(jìn)行預(yù)處理唐片。其中丙猬,數(shù)據(jù)的預(yù)處理主要包括譜峰對(duì)齊(PeakAlignment ) 、缺失值評(píng)價(jià)费韭、數(shù)據(jù)降噪等茧球。其中為了克服量綱不同和濃度差異對(duì)結(jié)果的影響,并提高模型的預(yù)測(cè)能力星持,優(yōu)化數(shù)據(jù)信息的提取抢埋,需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)度換算( Scaling ) 和加權(quán)( Weighting ) 以及數(shù)據(jù)的回溯轉(zhuǎn)換( Back Transfofrnation )等。
譜峰對(duì)齊(PeakAlignment ):在NMR實(shí)驗(yàn)過(guò)程中,由于樣品的pH 值和濃度等因素影響揪垄,容易造成某些官能團(tuán)出現(xiàn)化學(xué)位移偏移的現(xiàn)象穷吮。雖然對(duì)譜峰分段積分的方法能夠緩解積分間距內(nèi)微小的譜峰漂移現(xiàn)象,但是對(duì)偏移較大的代謝物仍然不起作用饥努,造成后期數(shù)據(jù)分析中出現(xiàn)線性負(fù)載圖的畸變捡鱼。譜峰對(duì)齊的目的,再進(jìn)行歸一化等操作肪凛,而提供更接近于原始譜的數(shù)據(jù)信息堰汉,為后續(xù)數(shù)據(jù)的多變量分析奠定堅(jiān)實(shí)的基礎(chǔ)。
缺失值(missing value)進(jìn)行評(píng)價(jià):在代謝組學(xué)研究中伟墙,由于技術(shù)以及樣本的原因可能會(huì)包含很多的缺失值翘鸭,大量的缺失值的存在以及不同的缺失值填充的方法會(huì)對(duì)接下來(lái)的統(tǒng)計(jì)分析產(chǎn)生影響。
數(shù)據(jù)降噪:代謝組學(xué)數(shù)據(jù)分析的目的是希望從中挖掘出生物相關(guān)信息戳葵,然而就乓,代謝組學(xué)數(shù)據(jù)的變異來(lái)源很多,不僅包括生物變異拱烁,還包括環(huán)境影響和操作性誤差等方面生蚁。這就需要通過(guò)一些操作去除系統(tǒng)噪音信號(hào),去除由系統(tǒng)不穩(wěn)定引起的干擾信號(hào)戏自,消除操作的誤差等邦投。為下一步統(tǒng)計(jì)分析提供更加可靠的數(shù)據(jù)集。處理手段主要包括歸一化(standardization) 擅笔、標(biāo)準(zhǔn)化(normalization) 志衣,即中心化(centering) 和尺度化(scaling),以及數(shù)據(jù)轉(zhuǎn)換(transformation)猛们。
歸一化是針對(duì)樣品的操作念脯,為了使不同濃度的樣品之間具有可比性,常常需要對(duì)原始譜圖分段積分以進(jìn)行譜圖數(shù)據(jù)的量化分析弯淘,如用歸一化方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處 理绿店。a. 第一種是以全譜有效信號(hào)和為1 ,以分段積分值占全譜有效信號(hào)的比重為歸一化后的變量值。此種歸一化方式主要用于消除不同樣品之間適度范圍內(nèi)的濃度差異庐橙。b. 但是假勿,當(dāng)樣品中某種代謝物的含量變化極高時(shí),不適用于這種歸一化方法态鳖。這是因?yàn)轱@著升高的代謝物會(huì)使其他本來(lái)沒(méi)有變化的代謝物含量相對(duì)下降转培,繼而導(dǎo)致后期數(shù)據(jù)分析中偽結(jié)果的產(chǎn)生。此時(shí)就需要第二種方法郁惜,即以單位分段積分值與相對(duì)不變的代謝物的峰面積之間的比值作為歸一化后的變量。值得注意的是,這種方法法對(duì)葡萄糖以外其余代謝物變化規(guī)律的尋找和生物學(xué)意義的解釋影響較小兆蕉。c. 對(duì)植物代謝組分析羽戒,最好的方法是以植物提取之前的干重為基礎(chǔ)進(jìn)行歸一化,這種方法得到的結(jié)果是代謝物變化的絕對(duì)值虎韵。
標(biāo)準(zhǔn)化是對(duì)不同樣品代謝物的操作易稠,即統(tǒng)計(jì)學(xué)意義上的變量標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化的目的是消除不同代謝物濃度數(shù)量級(jí)的差別包蓝,但同時(shí)也可能會(huì)過(guò)分夸大低濃度組分的重要性驶社,即低濃度代謝物的變異系數(shù)可能更大。
數(shù)據(jù)轉(zhuǎn)換是指對(duì)數(shù)據(jù)進(jìn)行非線性變換测萎,如log轉(zhuǎn)換和power轉(zhuǎn)換等亡电。數(shù)據(jù)轉(zhuǎn)換的目的是將一些偏態(tài)分布的數(shù)據(jù)轉(zhuǎn)換成對(duì)稱分布的數(shù)據(jù),并消除異方差性的影響硅瞧,以滿足一些線性分析技術(shù)的要求份乒。在實(shí)際應(yīng)用中,我們應(yīng)該根據(jù)具體的研究目的﹑數(shù)據(jù)類(lèi)型以及要選用的統(tǒng)計(jì)分析方法綜合考慮腕唧,選擇適當(dāng)?shù)念A(yù)處理方式或辖。例如,Robert A. van den Berg等(2006) 通過(guò)實(shí)際代謝組學(xué)數(shù)據(jù)的分析發(fā)現(xiàn)枣接,選用不同預(yù)處理方法在很大程度上影響著主成分分析(PCA) 的結(jié)果颂暇,自動(dòng)尺度化(auto scaling)和全距尺度化(range scaling) 在對(duì)代謝組學(xué)數(shù)據(jù)進(jìn)行探索性分析時(shí)表現(xiàn)更優(yōu),其PCA 分析后的結(jié)果在生物學(xué)上能夠得到更合理的解釋但惶。
c.分析方法模型選擇
非監(jiān)督的學(xué)習(xí)方法
非監(jiān)督方法是用來(lái)探索完全未知的數(shù)據(jù)特征的方法耳鸯,對(duì)原始數(shù)據(jù)信息依據(jù)樣本特性進(jìn)行歸類(lèi),把具有相似特征的目標(biāo)數(shù)據(jù)歸在同源的類(lèi)中榆骚,并采用相應(yīng)的可視化技術(shù)直觀地表達(dá)出來(lái)片拍。應(yīng)用在此領(lǐng)域的常見(jiàn)方法有聚類(lèi)分析( Cluster Analysis, CA) 和主成分分析( Principal Components Analysis , PCA) 、非線性映射(NLM)等妓肢。
PCA
PCA(Principal Components Analysis)即主成分分析捌省,也稱主分量分析或主成分回歸分析法,是一種無(wú)監(jiān)督的數(shù)據(jù)降維方法碉钠。首先利用線性變換纲缓,將數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中;然后再利用降維的思想喊废,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上祝高,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上。這種降維的思想首先減少數(shù)據(jù)集的維數(shù)污筷,同時(shí)還保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征工闺,最終使數(shù)據(jù)直觀呈現(xiàn)在二維坐標(biāo)系。直觀地描述不同組別之間的代謝模式差別和聚類(lèi)結(jié)果,并通過(guò)載荷圖尋找對(duì)組間分類(lèi)有貢獻(xiàn)的原始變量作為生物標(biāo)志物陆蟆。
通常情況下雷厂,由于代謝組學(xué)數(shù)據(jù)具有高維、小樣本的特性叠殷,同時(shí)有噪聲變量的干擾改鲫,PCA的分類(lèi)結(jié)果往往不夠理想。盡管如此林束,PCA作為代謝組學(xué)數(shù)據(jù)的預(yù)分析和質(zhì)量控制步驟像棘,通常用于觀察是否具有組間分類(lèi)趨勢(shì)和數(shù)據(jù)離群點(diǎn)。
直觀的觀察被分析樣本有無(wú)天然的分組
檢查異常樣本(在置信區(qū)間之外的點(diǎn))
揭示研究中存在的隱藏的偏向性
展示樣本分類(lèi)的細(xì)節(jié)信息
這一步分析可以看作是一個(gè)數(shù)據(jù)質(zhì)量控制的過(guò)程壶冒,如果樣本點(diǎn)在score plot(得分圖)中根據(jù)樣本的分組展現(xiàn)出一定程度聚集缕题,則證明數(shù)據(jù)的質(zhì)量可信度。此外也可以在QC樣本點(diǎn)被移除之前依痊,通過(guò)觀察QC樣本點(diǎn)的空間分布來(lái)判斷數(shù)據(jù)的質(zhì)量避除,如果QC樣本點(diǎn)緊密聚集則證明數(shù)據(jù)質(zhì)量高。在組間分類(lèi)趨勢(shì)明顯時(shí)胸嘁,說(shuō)明其中一定有能夠分類(lèi)的標(biāo)志物瓶摆。PCA還可以用于分析質(zhì)控樣品是否聚集在一起,如果很分散或具有一定的變化趨勢(shì)性宏,則說(shuō)明檢測(cè)質(zhì)量存在一定的問(wèn)題群井。
在PCA分析之后,我們需要去除異常值(樣本及變量)毫胜,因此數(shù)據(jù)集的大小將會(huì)有所改變书斜。通常來(lái)源于分析時(shí)程中,由于操作偏差引起的異常值需要從數(shù)據(jù)集中刪除酵使;但是荐吉,有些時(shí)候這些異常值可能并不是由于操作誤差引起,可能代表了數(shù)據(jù)中一些新的發(fā)現(xiàn)口渔,則這些數(shù)值需要保留用作進(jìn)一步分析样屠。
聚類(lèi)法
代謝組學(xué)中常用的聚類(lèi)方法有ι 平均(距離平方和最小聚類(lèi)法)和迭代自組織( Iterative Self-Organizing Data Analysis Technology Algorithm, ISODATA ) 法。
典型相關(guān)分析/CCA
監(jiān)督的多元統(tǒng)計(jì)分析
如果存在一些有關(guān)數(shù)據(jù)的先驗(yàn)信息和假設(shè)缺脉, 有監(jiān)督方法比非監(jiān)督方法更適合旦更有效痪欲。有監(jiān)督方法在已有知識(shí)的基礎(chǔ)上建立信息組( Class Infonnation ) , 并利用所建立的組對(duì)未知數(shù)據(jù)進(jìn)行辨識(shí)攻礼、歸類(lèi)和預(yù)測(cè)业踢。在這類(lèi)方法中,由于建立模型時(shí)有可供學(xué)習(xí)利用的訓(xùn)練樣本礁扮,所以稱為有監(jiān)督學(xué)習(xí)知举。用以選擇對(duì)樣本分類(lèi)貢獻(xiàn)較大的變量即篩選標(biāo)記物瞬沦。這一步可以作為數(shù)據(jù)分析的最后一步,或者在這一步之后接著做單變量統(tǒng)計(jì)分析來(lái)檢測(cè)所篩選的化合物的差異有無(wú)統(tǒng)計(jì)學(xué)意義雇锡。
應(yīng)用于該領(lǐng)域的常見(jiàn)方法有線性判別分析( Linear Discrimination Analysis ) 和偏最小二乘判別分析法( Partial Least Square-Discriminant Analysis , PLS-DA ) 等蛙埂。
PLS-DA
PLS-DA 是目前代謝組學(xué)數(shù)據(jù)分析中最常使用的一種分類(lèi)方法,它在降維的同時(shí)結(jié)合了回歸模型遮糖,并利用一定的判別閾值對(duì)回歸結(jié)果進(jìn)行判別分析。PLS-DA的思想是叠赐,通過(guò)最大化自變量數(shù)據(jù)和應(yīng)變量數(shù)據(jù)集之間的協(xié)方差來(lái)構(gòu)建正交得分向量(潛變量或主成分) 欲账,從而擬合自變量數(shù)據(jù)和應(yīng)變量數(shù)據(jù)之間的線性關(guān)系,并鑒定出具有判別能力生物標(biāo)志物芭概。
PLS-DA的降維方法與PCA 的不同之處在于PLS -DA既分解自變量X 矩陣也分解應(yīng)變量Y 矩陣赛不,并在分解時(shí)利用其協(xié)方差信息,從而使降維效果較PCA 能夠更高效地提取組間變異信息罢洲。
當(dāng)因變量Y為二分類(lèi)情況下踢故,通常一類(lèi)編碼為1,另一類(lèi)編碼為0或-1惹苗;當(dāng)因變量Y為多分類(lèi)時(shí)殿较,則需將其化為啞變量。通常桩蓉,評(píng)價(jià)PLS-DA 模型擬合效果使用R2X淋纲、R2Y和Q2Y這三個(gè)指標(biāo),這些指標(biāo)越接近1 表示PLS-DA 模型擬合數(shù)據(jù)效果越好院究。其中洽瞬,R2X 和R2Y 分別表示PLSDA分類(lèi)模型所能夠解釋X 和Y 矩陣信息的百分比,Q2Y 則為通過(guò)交叉驗(yàn)證計(jì)算得出业汰,用以評(píng)價(jià)PLS-DA模型的預(yù)測(cè)能力伙窃,Q2Y 越大代表模型預(yù)測(cè)效果較好。
實(shí)際中样漆,PLS-DA 得分圖常用來(lái)直觀地展示模型的分類(lèi)效果为障,圖中兩組樣品分離程度越大,說(shuō)明分類(lèi)效果越顯著氛濒。代謝組學(xué)數(shù)據(jù)分析中另一種常用的方法是OPLS-DA产场,它是PLS-DA 的擴(kuò)展,即首先使用正交信號(hào)校正技術(shù)舞竿,將X 矩陣信息分解成與Y 相關(guān)和不相關(guān)的兩類(lèi)信息京景,然后過(guò)濾掉與分類(lèi)無(wú)關(guān)的信息,相關(guān)的信息主要集中在第一個(gè)預(yù)測(cè)成分骗奖。Johan Trygg 等認(rèn)為該方法可以在不降低模型預(yù)測(cè)能力的前提下确徙,有效減少模型的復(fù)雜性和增強(qiáng)模型的解釋能力醒串。與PLSDA模型相同,可以用R2X鄙皇、R2Y芜赌、Q2Y 和OPLS-DA 得分圖來(lái)評(píng)價(jià)模型的分類(lèi)效果。
線性判別分析
判別分析方法有多種伴逸,包括距離判別缠沈、Bayes 判別以及Fisher判別。線性判別分析在形式上同主成分分析很相似错蝴,但兩者在原理上有本質(zhì)的差別洲愤。主成分分析關(guān)注的是尋找能最高效表達(dá)原數(shù)據(jù)信息的方向,而線性判別分析的重心則在尋找最能區(qū)分不同類(lèi)數(shù)據(jù)的方向顷锰。線性判別分析方法使得類(lèi)間距離與類(lèi)內(nèi)距離的比值最大柬赐,所以,經(jīng)過(guò)線性判別分析變換官紫,所獲得的新的數(shù)據(jù)將達(dá)到最大的區(qū)分性肛宋。
支持向量機(jī)
隨機(jī)森林
單變量分析方法
單變量分析方法簡(jiǎn)便﹑直觀和容易理解,在代謝組學(xué)研究中通常用來(lái)快速考察各個(gè)代謝物在不同類(lèi)別之間的差異束世,既可以在有監(jiān)督分析之前酝陈,也可以用在監(jiān)督分析之后使用。代謝組學(xué)數(shù)據(jù)在一般情況下難以滿足參數(shù)檢驗(yàn)的條件毁涉,使用較多的是非參數(shù)檢驗(yàn)的方法后添,如Wilcoxon 秩和檢驗(yàn)或Kruskal-Wallis 檢驗(yàn),t’檢驗(yàn)也是一種比較好的統(tǒng)計(jì)檢驗(yàn)方法薪丁。由于代謝組學(xué)數(shù)據(jù)具有高維的特點(diǎn)遇西,所以在進(jìn)行單變量分析時(shí),會(huì)面臨多重假設(shè)檢驗(yàn)的問(wèn)題严嗜。如果我們不對(duì)每次假設(shè)檢驗(yàn)的檢驗(yàn)水準(zhǔn)α進(jìn)行校正粱檀,則總體犯一類(lèi)錯(cuò)誤的概率會(huì)明顯增加。
對(duì)于各種單維檢驗(yàn)結(jié)果漫玄,通常要求其P值小于0 .05 或者0 .1 茄蚯, Pearson 和ROC曲線下面積均需在0.6 以上。對(duì)于多維模型的結(jié)果睦优, SIMCA 系列方法( PLS 和O-PLS) 的VIP 值要求大于1 又活。RF兽叮、SVM 和LDA 方法采用分類(lèi)時(shí)每個(gè)變量對(duì)應(yīng)的權(quán)值或系數(shù)對(duì)其重要性進(jìn)行排序,盡量選取排位靠前的物質(zhì)。
其他方法
除了進(jìn)行傳統(tǒng)的單變量假設(shè)檢驗(yàn)分析体谒,代謝組學(xué)分析中通常也計(jì)算代謝物濃度在兩組間的改變倍數(shù)值(fold change) 求冷,如計(jì)算某個(gè)代謝物濃度在兩組中的均值之比,判斷該代謝物在兩組之間的高低表達(dá)。計(jì)算ROC 曲線下面積(AUC) 也是一種經(jīng)常使用的方法健蕊。
總結(jié)
多變量分析代謝組學(xué)產(chǎn)生的是高維的數(shù)據(jù),單變量分析不能揭示變量間復(fù)雜的相互作用關(guān)系踢俄,因此多變量統(tǒng)計(jì)分析在代謝組學(xué)數(shù)據(jù)分析中具有重要的作用缩功。總體來(lái)說(shuō)都办,代謝組學(xué)數(shù)據(jù)多變量統(tǒng)計(jì)分析方法大致可以分為兩類(lèi):
R包
ropls包嫡锌、muma包、MetabolomicsBasics{GC-MS/}
d.模型檢驗(yàn)
由于代謝組學(xué)數(shù)據(jù)具有高維琳钉、小樣本的特性世舰,使用有監(jiān)督學(xué)習(xí)方法進(jìn)行分析時(shí)很容易產(chǎn)生過(guò)擬合的現(xiàn)象,即模型可以很好地將樣本進(jìn)行區(qū)分槽卫,但用來(lái)預(yù)測(cè)新的樣本集時(shí)卻表現(xiàn)很差。因此對(duì)于有監(jiān)督的分類(lèi)模型胰蝠,我們需要驗(yàn)證模型的可靠性歼培,下面列出幾種常見(jiàn)的模型評(píng)價(jià)方法:
K折交互驗(yàn)證(K-fold cross validation):最可靠的方式是將數(shù)據(jù)分為訓(xùn)練集(Training set)、驗(yàn)證集(Validation set)和測(cè)試集(Test set)茸塞,訓(xùn)練集用于訓(xùn)練模型躲庄,驗(yàn)證集優(yōu)化模型,測(cè)試集測(cè)試模型的預(yù)測(cè)能力钾虐。但受限于樣本數(shù)量噪窘,通常采用K折交互驗(yàn)證。其中七折交互驗(yàn)證較為常用效扫,即將數(shù)據(jù)集分為7份倔监,每次挑選出1份作為測(cè)試樣本,剩余的6份用來(lái)訓(xùn)練建模菌仁,整個(gè)過(guò)程將會(huì)被重復(fù)直到所有樣品都被預(yù)測(cè)過(guò)浩习。預(yù)測(cè)的數(shù)據(jù)將會(huì)和原始數(shù)據(jù)作對(duì)比得到預(yù)測(cè)殘差平方和(Predicted residual sum of squares, PRESS)。為方便起見(jiàn)济丘,將PRESS轉(zhuǎn)變?yōu)镼2(1-PRESS/SS)谱秽。Q2越大表示模型的預(yù)測(cè)能力越好。對(duì)于生物學(xué)樣本摹迷,Q2≥0.4是比較理想的[2]疟赊,Q2≥0.******2往往也可以接受,只是模型比較弱**峡碉。軟件在自動(dòng)建模(Autofit)時(shí)近哟,會(huì)根據(jù)Q2決定模型所用的主成分或Orthogonal component個(gè)數(shù)(OPLS-DA模型)。當(dāng)Q2停止增長(zhǎng)時(shí)鲫寄,模型將不再增加主成分椅挣。
置換檢驗(yàn)(Permutation test):僅用Q2仍不足以證明模型的可靠性头岔,置換檢驗(yàn)也是常用的模型評(píng)判方式,常和Q2結(jié)合使用鼠证。其原理是將每個(gè)樣本的分組標(biāo)記隨機(jī)打亂峡竣,再來(lái)建模和預(yù)測(cè)。一個(gè)可靠模型的Q2應(yīng)當(dāng)顯著大于將數(shù)據(jù)隨機(jī)打亂建模后得到的Q2量九∈赎基于置換檢驗(yàn)的結(jié)果,可以畫(huà)出Permutation plot(圖6)荠列。該圖展示了置換檢驗(yàn)得到的分組變量和原始分組變量的相關(guān)性以及對(duì)應(yīng)的Q2值类浪,虛線為回歸線。一個(gè)可靠的有監(jiān)督模型要求回歸線在Y軸上的截距小于0肌似。
基于交互驗(yàn)證的方差分析(CV-ANOVA):CV-ANOVA是基于交互驗(yàn)證預(yù)測(cè)殘差的方差分析费就,利用方差分析測(cè)試預(yù)測(cè)的Y變量(Yhat)和預(yù)設(shè)Y變量(Yobs)的殘差和Yobs圍繞均值變化的差異。它的好處是可以將交互驗(yàn)證的結(jié)果以更加熟悉的方式展現(xiàn)出來(lái)川队,輸出表征統(tǒng)計(jì)學(xué)意義的P值力细。但CV-ANOVA對(duì)于小樣本集的檢驗(yàn)效能較低。
由于樣本量的不足固额,通常采用上述的交叉驗(yàn)證和置換檢驗(yàn)方法作為模型驗(yàn)證方法眠蚂。而實(shí)際中,在樣本量允許的情況下斗躏,最為有效的模型驗(yàn)證方法即將整個(gè)數(shù)據(jù)集嚴(yán)格按照時(shí)間順序劃分為內(nèi)部訓(xùn)練數(shù)據(jù)和外部測(cè)試數(shù)據(jù)兩部分逝慧,利用內(nèi)部訓(xùn)練數(shù)據(jù)建立模型,再對(duì)外部測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)啄糙,客觀地評(píng)價(jià)模型的有效性和適用性
e.生物標(biāo)志物的篩選
代謝組學(xué)分析的最終目標(biāo)是希望從中篩選出潛在的生物相關(guān)標(biāo)志物笛臣,從而探索其中的生物代謝機(jī)制,因此需要借助一定的特征篩選方法進(jìn)行變量篩選隧饼。
對(duì)于高維代謝組學(xué)數(shù)據(jù)的特征篩選捐祠,研究的目的是從中找出對(duì)樣本分類(lèi)能力最強(qiáng)或較強(qiáng)的一個(gè)或若干個(gè)變量。特征篩選方法主要分為三類(lèi): 過(guò)濾法桑李、封裝法和嵌入法踱蛀。
過(guò)濾法主要是采用單變量篩選方法對(duì)變量進(jìn)行篩選,優(yōu)點(diǎn)是簡(jiǎn)單而快捷贵白,能夠快速的降維率拒,如t’檢驗(yàn)、Wilcoxon秩和檢驗(yàn)禁荒、SAM等方法猬膨。
封裝法是一種多變量特征篩選策略,通常是以判別模型分類(lèi)準(zhǔn)確性作為優(yōu)化函數(shù)的前向選擇、后向選擇和浮動(dòng)搜索特征變量的算法勃痴,它通常是按照“節(jié)省原則”進(jìn)行特征篩選谒所,最終模型可能僅保留其中很少部分的重要變量,如遺傳算法等沛申。
嵌入法的基本思想是將變量選擇與分類(lèi)模型的建立融合在一起劣领,變量的重要性評(píng)價(jià)依靠特定分類(lèi)模型的算法實(shí)現(xiàn),在建立模型的同時(shí)铁材,可以給出各變量重要性的得分值尖淘,如OPLS-DA方法的VIP統(tǒng)計(jì)量等。篩選的標(biāo)準(zhǔn)通常是基于以下兩個(gè)指標(biāo):a. Corr.Coeffs./p(corr) (Correlation Coefficient)著觉,是樣本得分值t和變量X間的相關(guān)系數(shù)-Corr(t, X)村生,代表了變量的可靠度。該值沒(méi)有固定閾值饼丘,通常設(shè)定對(duì)應(yīng)的P值 < 0.05趁桃。b. VIP (Variable importance in the projection),為變量對(duì)模型的重要性肄鸽,描述了每一個(gè)變量對(duì)模型的總體貢獻(xiàn)卫病,通常設(shè)定閾值為VIP >1。
除此之外贴捡,基于單維檢驗(yàn)的P值和變化倍數(shù)(Fold change)所作的火山圖(Volcano plot)也是常用的篩選方法〈迳埃或者變量重要性VIP和相關(guān)系數(shù)火山圖烂斋。
為了更加客觀、全面地評(píng)價(jià)每個(gè)變量的重要性础废,代謝組學(xué)研究中一般采取將上述方法結(jié)合起來(lái)的方式進(jìn)行變量篩選汛骂。比較常見(jiàn)的一種策略是先進(jìn)行單變量分析,再結(jié)合多變量模型中變量重要性評(píng)分作為篩選標(biāo)準(zhǔn)评腺,如挑選fdr≤0.05 和VIP>1.5的變量作為潛在生物標(biāo)志物帘瞭。用篩選的潛在生物標(biāo)志物對(duì)外部測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè),評(píng)價(jià)其預(yù)測(cè)效果蒿讥。最后蝶念,可以通過(guò)研究生物標(biāo)志物的生物學(xué)功能和代謝通路,分析不同生物標(biāo)志物之間的相互作用和關(guān)系芋绸,從而為探索生物代謝機(jī)制提供重要線索和信息媒殉。
f.代謝而通路分析
通過(guò)上述方法篩選到差異代謝物后,還需要挖掘和這些代謝物相關(guān)的代謝通路摔敛。此時(shí)廷蓉,可以采用MetaboAnalyst網(wǎng)站(http://www.metaboanalyst.ca/)進(jìn)行代謝通路分析(Metabolic pathway analysis),代謝通路分析分為富集分析(Enrichment analysis)和通路分析(pathway analysis)马昙。通路分析中添加通路拓?fù)浞治觯╰opology analysis)桃犬,會(huì)輸出通路在整體網(wǎng)絡(luò)中的重要性(impact)刹悴。
g. 結(jié)果呈現(xiàn)
代謝組學(xué)數(shù)據(jù)分析及生物信息分析主要呈現(xiàn)內(nèi)容包括:
主成分分析(PCA)
多維統(tǒng)計(jì):PLS-DA/OPLS-DA二維圖
單變量統(tǒng)計(jì)—火山圖:可以直觀地顯示樣本間代謝物變化的顯著性,從而幫助我們篩選潛在的標(biāo)志代謝物攒暇。
差異代謝物聚類(lèi)分析:利用定性的顯著性差異代謝物的表達(dá)量對(duì)各組樣本進(jìn)行層次聚類(lèi)(Hierarchical Clustering)土匀,從而輔助我們準(zhǔn)確地篩選標(biāo)志代謝物,并對(duì)相關(guān)代謝過(guò)程的改變進(jìn)行研究扯饶。
差異代謝物KEGG通路分析
h. 流程總結(jié)
原始數(shù)據(jù)
數(shù)據(jù)預(yù)處理
主成分分析(PCA) 觀察樣本整體的分布趨勢(shì)和是杏有離群點(diǎn)的發(fā)生恒削。
偏最小二乘法( PLS) 發(fā)現(xiàn)NMR數(shù)據(jù)(x 變量) 和其他變量(y 變量) 之間的相關(guān)關(guān)系。偏最小二乘判別分析法( PLSDA)對(duì)模型的質(zhì)量用合一法進(jìn)行交叉驗(yàn)證檢驗(yàn)尾序,并用交叉驗(yàn)證后得到的R2x 和if對(duì)模型有效性進(jìn)行評(píng)判钓丰。
模型有效性檢驗(yàn)
正交矯正處理( O-PLS-DA ),最大化地凸顯模型內(nèi)部不同組別之間的差異
分析相關(guān)系數(shù)每币,對(duì)有統(tǒng)計(jì)意義的代謝物進(jìn)行進(jìn)一步的歸納携丁。
通過(guò)查閱文獻(xiàn)重點(diǎn)分析出現(xiàn)顯著性差異的代謝物所涉及的代謝途徑對(duì)其生物學(xué)意義進(jìn)行詳盡的解釋。
R包收藏
ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data
muma
[MetaboAnalyst 2.0 Workflow]: (From Raw Spectra to Biological Insights)
參考文獻(xiàn):
植物代謝組學(xué)—方法與應(yīng)用兰怠。漆小泉梦鉴、王玉蘭、陳曉亞主編揭保。