一芥丧、iMetaLab簡介
宏蛋白組學是個非常小眾的領域博杖,即使從事的學者也并非專門做這個柠衅,大多是作為系統(tǒng)生物學的延伸研究。業(yè)界有幾個比較有影響力的研究團隊述么,一是比利時根特大學的Computational Omics and Systems Biology Group
(COMPOMICS) 團隊蝌数,開發(fā)了有代表性的宏蛋白分析工具如Unipept、MetaProteomeAnalyzer (MPA)碉输,此外還有很多常規(guī)蛋白組的工具籽前,如SearchGUI、PeptideShaker敷钾、Thermo Raw File Parser 等枝哄,后面如果有機會再介紹。二是加拿大渥太華大學的Daniel Figeys團隊阻荒,專注于研究人類挠锥、小鼠腸道宏蛋白組,一開始提出了經(jīng)典的迭代搜庫三步法(MetaPro-IQ)侨赡,后面陸續(xù)也實現(xiàn)了一些工具蓖租,開發(fā)了從MetaPro-IQ,到MetaLab羊壹,最后到iMetaLab平臺的技術路線蓖宦。
Daniel Figeys介紹:https://med.uottawa.ca/bmi/people/figeys-daniel
iMetaLab有云服務器版本和桌面版本,用來分析宏蛋白數(shù)據(jù)油猫,下游可視化繪圖等分析提供了Shiny Apps稠茂,并且也有相應的Demo報告和Wiki。內(nèi)容主要包括了:肽段和蛋白的鑒定及定量情妖,物種和功能分析睬关,數(shù)據(jù)分析及其可視化。
關于收費毡证,對于學術研究是免費的电爹,商業(yè)用途則需要獲得許可。
二料睛、內(nèi)置工具與模塊
1. Data Processing module
- ProteoWizard/msconvert
- Xtandem
- MaxQuant
- Spectra clustering
- Msfragger
- FlashLFQ
- Unipept
2. Functional Analysis
- KEGG
- eggNOG database
- NCBI nr database
3. R Developing environment
- Rstudio
- Rstudio server
- ShinyR
- Shiydashboard
4. R based data analysis packages
- ggplot2, ggpairs
- Htmlwidgets, visNetwork, d3heatmap
- Eulerr, colourpicker, DT,shinysky, GGally, ggcorrplot, reshape2, ggfortify, mixOmics
5. Web development libraries and frameworks
- React.js
- D3.js
從內(nèi)置工具和模塊可以看出丐箩,這個平臺主要處理的是DDA數(shù)據(jù)摇邦,最后得到的蛋白鑒定和定量結果就是MaxQuant產(chǎn)出格式的。
三雏蛮、報告內(nèi)容
iMetaLab分析完成后生成網(wǎng)頁報告https://shiny.imetalab.ca/metalab_report/涎嚼。
對于報告結果阱州,主要有以下五方面內(nèi)容:
- ID Summary:譜圖肽段ID統(tǒng)計
- Peptides Summary:肽段鑒定結果分析
- ProteinGroups Summary:蛋白鑒定結果分析
- Taxon Summary:物種注釋結果分析
- Function Summary:功能注釋結果分析
此外挑秉,還有一個MetaMep for Taxon Vis模塊,主要是利用MetaMap軟件對物種分析結果進行可視化展示和可交互式操作苔货。
1. 譜圖肽段ID統(tǒng)計
分析點包括了報告介紹犀概,項目信息,譜圖解析率夜惭,肽段鑒定數(shù)姻灶,匯總統(tǒng)計表。
-
MSMS ID Rate
這是數(shù)據(jù)質控的一個指標诈茧,可以判斷MS run
的質量产喉,即在1%FDR條件下譜圖鑒定為肽段,QE系列儀器一般能達到50%敢会≡颍可以判斷組內(nèi)重復性,以及儀器是否需要清洗鸥昏,數(shù)據(jù)是否可利用等塞俱。
展示方式:分組散點圖,密度圖吏垮,箱形圖障涯。 -
Peptide Sequence
同樣也是統(tǒng)計各樣本的肽段鑒定數(shù)目分布。
可視化:分組散點圖膳汪,密度圖唯蝶,箱形圖。
2. 肽段鑒定結果分析
上圖紅框內(nèi)的分析遗嗽,包括對肽段鑒定各方面的統(tǒng)計繪圖粘我,多變量統(tǒng)計和方差檢驗,到得到整潔的肽段數(shù)據(jù)媳谁。
肽段結果分析及其可視化:價態(tài)分布涂滴,長度分布,得分分布晴音,肽段強度分布(離散和累積)柔纵,各樣本肽段強度箱形圖,全部樣本肽段的聚類熱圖锤躁,肽段層次PCA(2D/3D)搁料,各組間方差分析。
最后得到的過濾后的肽段表格(MaxQuant結果)是去除了來自反庫和污染庫的肽段,他們用的強度值是LFQ和自帶的Intensity郭计,整潔肽段表可用于后續(xù)分析霸琴,也可用作者的shiny.imetalab.ca。
3. 蛋白鑒定結果分析
蛋白組層次和肽段層次的分析基本是一樣的昭伸。多了一個unique peptide分布梧乘。
疑問:為什么都用方差分析?難道更多的情況不是兩組嗎庐杨,即便是多組选调,很多客戶也是要求兩兩比較。
最后得到的也是過濾后的蛋白表格灵份。
4. 物種分析
- 每個樣本在物種各個層級的注釋統(tǒng)計
- alpha多樣性:計算的是種(species)層級的Shannon-Wiener index
- beta多樣性:計算的是種(species)層級的PCoA
- 樣本聚類:基于種(species)層級的豐度數(shù)據(jù)仁堪,歐氏距離ward.D聚類
- 物種組成:各物種層級bar圖(原始強度,無歸一化)
5. 功能分析
- 功能數(shù)據(jù)庫注釋統(tǒng)計:COG填渠,NOG弦聂,KEGG,GO及其unique數(shù)目(與蛋白一對一)氛什。
- 分類餅圖:包括COG莺葫,NOG和Pathway,餅圖的扇形大小并非分類功能的數(shù)目屉更,而是所有樣本proteinGroup的強度之和徙融。
- 功能組成bar圖:包括COG,NOG和Pathway瑰谜,各樣本的功能bar圖(原始強度欺冀,無歸一化)。
- 功能組成熱圖:包括COG萨脑,NOG和Pathway隐轩,各樣本的功能聚類熱圖。
- PCA分析:包括COG渤早,NOG和KEGG(這里應該也是Pathway層級)功能豐度的PCA职车。
疑問:一般蛋白/基因注釋KEGG是到KO層級,這里都是轉化到了Pathway層面鹊杖,一條Pathway中多個蛋白分子強度不知他們是怎么處理的悴灵,之前我是進行加和處理的。
MetaMep for Taxon Vis
最后一個工具是對物種分析進行可視化骂蓖,可交互是它的優(yōu)點积瞒,而且有多種展示方式。你如果用過MEGAN的話登下,就知道這些展示方式也都有茫孔。當然Unipept也可實現(xiàn)叮喳,它這個就是嵌套了Unipept。