代謝組學是系統(tǒng)生物學的重要組成部分美旧,它通過全面分析生物樣本中的小分子代謝物來研究生物系統(tǒng)的代謝狀態(tài)网严。在代謝組學研究中轨淌,從原始質(zhì)譜數(shù)據(jù)到可解釋的生物學信息的轉化過程是至關重要的碑隆。本文將詳細介紹這一過程,特別關注從原始 .raw 文件到代謝物表達矩陣的轉換勋功,以及這一過程中使用的關鍵工具和格式坦报。
- 原始數(shù)據(jù)獲取
代謝組學研究通常始于使用質(zhì)譜儀(如液相色譜-質(zhì)譜聯(lián)用儀,LC-MS)對生物樣本進行分析狂鞋。這些儀器生成的原始數(shù)據(jù)通常以廠商特定的專有格式保存片择,如 Thermo Fisher 的 .raw 文件。這些文件包含了質(zhì)譜分析的全部原始信息骚揍,包括質(zhì)量電荷比(m/z)字管、強度、保留時間等疏咐。
- 數(shù)據(jù)轉換:從 .raw 到 .mzML
2.1 為什么需要轉換纤掸?
雖然 .raw 文件包含全面的數(shù)據(jù)脐供,但它們有幾個局限性:
- 專有格式限制了數(shù)據(jù)的可訪問性和可移植性浑塞。
- 需要特定的軟件才能讀取,這可能會限制數(shù)據(jù)分析的選擇政己。
- 長期存儲和數(shù)據(jù)共享變得復雜酌壕。
因此,將數(shù)據(jù)轉換為開放的標準格式成為了必要的步驟歇由。
2.2 .mzML 格式
.mzML 是一種基于 XML 的開放標準格式卵牍,專門用于存儲質(zhì)譜數(shù)據(jù)。它由蛋白質(zhì)組學標準倡議(PSI)開發(fā)沦泌,具有以下優(yōu)勢:
- 開放性:不依賴于特定的儀器或軟件廠商糊昙。(本質(zhì)上就是不想買商業(yè)軟件)
- 全面性:可以存儲幾乎所有類型的質(zhì)譜數(shù)據(jù)。
- 可讀性:基于 XML谢谦,便于人類閱讀和機器解析释牺。
- 標準化:便于數(shù)據(jù)共享和長期存儲萝衩。
2.3 ProteoWizard 和 MSConvert,thermorawfileparser
ProteoWizard 是一套功能強大的開源軟件工具没咙,專門用于處理和分析質(zhì)譜數(shù)據(jù)猩谊。其中,MSConvert 工具可以將各種專有格式轉換為開放格式祭刚,如 .mzML牌捷。
使用 MSConvert 轉換文件的基本步驟如下:
- 下載并安裝 ProteoWizard。
- 打開命令行界面涡驮。
- 導航到 ProteoWizard 的 bin 目錄暗甥。
- 使用命令:
### windows系統(tǒng)
msconvert path/to/your/rawfile.raw --mzML --filter "peakPicking true 1-" -o output_directory`
或者使用
### Linux系統(tǒng)
### 單個樣本
thermorawfileparser -i /path/to/rawfile.raw -o /path/to/output -f 2
## 文件夾
thermorawfileparser -d /path/to/raw/files/directory -o /path/to/output -f 2
## -f, --format=VALUE The spectra output format: 0 for MGF, 1 for mzML,
# 2 for indexed mzML, 3 for Parquet, 4 for None (
# no output); both numeric and text (case
# insensitive) value recognized. Defaults to
# indexed mzML if no format is specified.
-f 或 --format 參數(shù)用于指定想要的輸出格式。VALUE可以是數(shù)字或相應的文本(不區(qū)分大小寫)捉捅。
可選的格式有:
0 或 MGF: MGF (Mascot Generic Format)
這是一種簡單的文本格式淋袖,常用于質(zhì)譜數(shù)據(jù)。
1 或 mzML: mzML格式
這是一種XML格式锯梁,用于表示質(zhì)譜數(shù)據(jù)即碗。
2 或 indexed mzML: 索引化的mzML格式
與普通mzML類似,但增加了索引剥懒,可以更快速地訪問特定掃描。
3 或 Parquet: Apache Parquet格式
這是一種列式存儲格式合敦,適用于大數(shù)據(jù)處理初橘。
4 或 None: 不輸出光譜數(shù)據(jù)
這個選項可能用于只提取元數(shù)據(jù)而不輸出實際的光譜數(shù)據(jù)。
- 數(shù)據(jù)預處理和分析
3.1 峰檢測和對齊
轉換為 .mzML 格式后充岛,下一步是進行峰檢測和對齊保檐。這個過程通常使用專門的軟件包完成,如 R 語言中的 XCMS崔梗。XCMS 能夠:
- 檢測色譜峰
- 在不同樣本間對齊峰
- 填充缺失值
3.2 代謝物注釋
峰檢測和對齊后夜只,需要對檢測到的特征進行注釋,即將它們與已知的代謝物關聯(lián)起來蒜魄。這通常通過比對質(zhì)譜數(shù)據(jù)庫(如 HMDB扔亥、METLIN)來完成。R 包 CAMERA 可以協(xié)助這一過程谈为,它能夠:
- 注釋同位素峰
- 識別加合物
- 分組相關的離子特征
3.3 生成代謝物表達矩陣
最后一步是生成代謝物表達矩陣旅挤。這個矩陣通常包含:
- 行:代表不同的代謝物或特征
- 列:代表不同的樣本
- 單元格值:代表每個樣本中每個代謝物的相對豐度或強度
- 數(shù)據(jù)分析和解釋
有了代謝物表達矩陣,研究人員可以進行各種統(tǒng)計分析和數(shù)據(jù)可視化伞鲫,如:
- 主成分分析(PCA)
- 偏最小二乘判別分析(PLS-DA)
- 熱圖分析
- 通路富集分析
這些分析有助于識別差異表達的代謝物粘茄,揭示樣本間的代謝模式差異,并可能發(fā)現(xiàn)新的生物標志物秕脓。
- 挑戰(zhàn)和注意事項
在從原始數(shù)據(jù)到代謝物表達矩陣的過程中柒瓣,研究人員需要注意幾個關鍵點:
- 數(shù)據(jù)質(zhì)量控制:確保原始數(shù)據(jù)的質(zhì)量和可靠性瘪菌。
- 參數(shù)選擇:在峰檢測、對齊等步驟中嘹朗,參數(shù)的選擇對結果有重大影響师妙。
- 批次效應:需要考慮和校正不同批次間的系統(tǒng)性差異。
- 假陽性控制:在代謝物注釋和差異分析中屹培,需要適當控制假陽性率默穴。
- 生物學解釋:將統(tǒng)計結果與生物學知識相結合,得出有意義的解釋褪秀。