最近打算開始寫一個多組學(包括宏基因組/16S/轉(zhuǎn)錄組/蛋白組/代謝組)關聯(lián)分析的R包,避免重復造輪子,在開始之前隨便在網(wǎng)上調(diào)研了下目前已有的R包工具拴清,部分羅列如下:
1. mixOmics
應該是在多組學領域知名度最高的一個R包事期,有專門的團隊轧房,做了十余年了先誉,引用量也比較高湿刽。
官網(wǎng):http://mixomics.org/
文章:mixOmics: An R package for ‘omics feature selection and multiple data integration
Github:https://github.com/mixOmicsTeam/mixOmics
Bookdown:https://mixomicsteam.github.io/Bookdown/
特點:
- 組學數(shù)據(jù)廣,基因/轉(zhuǎn)錄/蛋白/代謝都有涉及(是我的榜樣)褐耳;
- 獨特的多變量降維分析和可視化方法(我統(tǒng)計沒學好诈闺,所以不做太多統(tǒng)計方法,重點在于可視化铃芦,包括多種關聯(lián)角度的展示方式)雅镊。
主要內(nèi)容:
統(tǒng)計方法:PCA/IPCA/CCA/PLS/PLS-DA/MixMC/MINT/DIABLO
可視化:2D和3D散點圖/相關性網(wǎng)絡/聚類/相關性圈圖/箭頭圖/DIABLO圈圖/載荷圖
此外,這個包還自帶了不少demo數(shù)據(jù)刃滓,具體可看官方文檔仁烹。
2. tRanslatome
2014年就發(fā)表了,好在一直都有維護咧虎。
文章:tRanslatome: an R/Bioconductor package to portray translational control
Bioconductor:https://bioconductor.org/packages/release/bioc/html/tRanslatome.html
作者博客:http://www.mybiosoftware.com/tag/translatome
Github:https://github.com/tomateba/tRanslatome(五年前的源碼)
特點:
- 組學:主要是針對基因表達量的關聯(lián)卓缰,包括轉(zhuǎn)錄組、翻譯組和蛋白組砰诵;
- 統(tǒng)計方法:Rank Product, Translational Efficiency, t-test, Limma, ANOTA, DESeq, edgeR
- 可視化:scatterplots, histograms, MA plots, standard deviation (SD) plots, coefficient of variation (CV) plots
3. OmicsARules
最近新出的一個R包征唬,創(chuàng)建了一種新的關聯(lián)方法。
文章:OmicsARules: a R package for integration of multi-omics datasets via association rules mining
Github:https://github.com/BioinformaticsSTU/OmicsARules
特點:
- 主要針對基因組和轉(zhuǎn)錄組數(shù)據(jù)茁彭,包括基因突變位點和非編碼RNA总寒;
- 發(fā)明一種Lamda3的度量方法創(chuàng)建關聯(lián)規(guī)則,可視化不是重點理肺。
4. iCluster / iClusterPlus
十年前開發(fā)的iCluster算法(聯(lián)合潛在變量模型)摄闸,針對癌癥數(shù)據(jù)多組學聚類。去年的時候又開發(fā)了一個新的iClusterPlus包哲嘲,做了一些升級贪薪。
文章1:Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis
Github:https://github.com/cran/iCluster
Bioconductor:https://bioconductor.org/packages/release/bioc/html/iClusterPlus.html
文章2:A fully Bayesian latent variable model for integrative clustering analysis of multi-type omics data
這種基于模型算法的工具我只能望洋興嘆,會用就不錯了眠副。
5. integrOmics
十多年的工具画切,雖然當年發(fā)了Bioinformatics,后面沒有維護更新囱怕,廢了霍弹。
文章:integrOmics: an R package to unravel relationships between two omics datasets
Github:https://github.com/cran/integrOmics
6. moCluster
這也是一種算法,和icluster類似娃弓,主要整合數(shù)據(jù)聚類典格,用于細胞或疾病分子分型等。應用場景相對比較單一台丛。
7. MCIA
這個包又可稱omicade4: Multiple co-inertia analysis of omics datasets耍缴,即多元協(xié)慣量分析砾肺。一種多元統(tǒng)計分析方法,類似于PCA的展示吧防嗡,比較有限变汪。
Bioconductor:http://bioconductor.org/packages/release/bioc/html/omicade4.html
Github:https://github.com/aedin/omicade4
8. 其他
其他還有不少R包做組學數(shù)據(jù)整合,或是基于新的算法蚁趁,或是僅針對基因突變和基因表達關系等方面進行關聯(lián)裙盾,相對而言比較冷門,如:
- CNAmet
- PLRS
- NuChart
- MOO
- Mergeeomics(這個包主要做GWAS/TWAS/EWAS/eQTL等他嫡,有點意思)
除了以上常用的R包番官,更多的多組學工具和方法可參考這一篇綜述:https://jme.bioscientifica.com/view/journals/jme/62/1/JME-18-0055.xml