原文: Computational deconvolution of transcriptomics data from mixed cell populations,Bioinformatics,2018 Jun 1;34(11):1969-1979.
doi: 10.1093/bioinformatics/bty019
概述
這是2018年新發(fā)表在Bioinformatics的一篇綜述碟刺,分別從以下9個方面對混合細胞類型的轉(zhuǎn)錄組數(shù)據(jù)去卷積的相關(guān)問題和方法進行總結(jié)和討論伐蒂。
- 去卷積問題的定義
- 解決去卷積問題的數(shù)學(xué)方法
- 選擇特定細胞類型的標記基因的方法
- 影響去卷積效果的因素
- 低比例的細胞類型也可以被檢測的方法
- 評估去卷積效果
- 傳統(tǒng)線性模型的局限性
- 網(wǎng)頁版的去卷積方法
- 其他數(shù)據(jù)類型的去卷積方法
去卷積問題的定義
去卷積的目的是從bulk-sample 中推測不同單一細胞類型的表達譜绞惦。它的原理是假設(shè)每種細胞類型在不同樣品中具有相似的表達水平飒箭,可以將異質(zhì)樣品中給定基因的表達模型化為混合物中存在的每種細胞類型的表達值的加權(quán)和(=線性組合)。
有點繞口贿衍,以數(shù)學(xué)形式表示如下:
T = 異質(zhì)樣品的表達值
C = 特定細胞的表達值
P = 不同細胞的混合比例
T = C·P
根據(jù)已知的數(shù)據(jù)類型,去卷積有不同的形式:
T = matrix containing the observed (measured) expression values from heterogeneous (tissue/tumor) samples (M genes, N samples);
C = matrix consisting of cell type- specific average expression values (M genes, K cell types);
P = matrix containing the mixing proportions (=relative composition) (K cell types, N samples)
- 只有T是已知, C和P都是預(yù)測的(深灰色箭頭所示)救恨;
- T和C是已知的贸辈,P是預(yù)測的 (粉色虛線箭頭和灰色熱圖所示);
這種情況是通過T和C以富集值(代替細胞比例)表示組織異質(zhì)性的相對評估肠槽,如ESTIMATE和xCell等工具包擎淤。細胞比例值必須是0-100之間的正值,可以直接解釋秸仙;富集值是無限的嘴拢,有時是負值,使得它們更難解釋寂纪。 - T和P是已知席吴,C是預(yù)測的(虛線藍色箭頭所示)
解決去卷積問題的數(shù)學(xué)方法
- 最常用的一組方法稱為普通最小二乘法(OLS),線性最小二乘法(LLS)或簡單最小二乘法(LS)捞蛋,其目標是最小化平方和孝冒。
- 第二組方法是線性核(n-SVR)支持向量回歸方法,包括CIBERSORT 和 ImmuCC拟杉。
- 第三組無監(jiān)督降維迈倍,如主成分分析(PCA)。
- 第四組完全無監(jiān)督方法捣域,包括無監(jiān)督的非負矩陣分解(NMF或NNMF)和不同的貝葉斯方法啼染。
選擇特定細胞類型的標記基因的方法
標記基因選擇一是基于這個基因的在特定細胞中的表達顯著高于其他類型的細胞,另一個是根據(jù)差異基因焕梅,即在某個類型的細胞中表達迹鹅,在其他細胞類型不表達。
鑒定標記基因的方法:
- HECS (highly expressed, cell specific)基因數(shù)據(jù)庫包含來自于芯片的84個人類細胞和96個小鼠細胞和組織贞言。(available at http://www.influenza- x.org/~jshoemaker/cten/f/HECS%20database.zip )
- The F- statistic (measure of their fit in the multiple linear regression model) (Wang et al., 2010),
- the Gini index (Zhang et al., 2017),
- the Jensen-Shan- non divergence (Cabili et al., 2011) ,
- the components from PCA, ICA or NMF analyses (Zinovyev et al., 2013)
- CellMapper (Nelms et al., 2016), Nanodissection 1.0 (Ju et al., 2013), - - UNDO (Wang et al., 2015)
- CAM (Wang et al., 2016). Assuming
影響去卷積效果的因素
基于監(jiān)督去卷積的方法斜棚,依賴于參考集,樣本間、樣本內(nèi)本身的異質(zhì)性將會對結(jié)果產(chǎn)生影響弟蚀,除此之外還有其他因素蚤霞,例如:
- 前處理和標準化
- 對數(shù)與線性
對芯片數(shù)據(jù)取對數(shù)后會破壞線性假設(shè),進而影響去卷積效果义钉;RNA-seq數(shù)據(jù)的去卷積也需要符合線性假設(shè)昧绣,TPM , RSEM 或者Kallisto 可以得到更精確的細胞比例。 - 多重共線性:混合物中相關(guān)細胞類型的存在
- 矩陣的條件數(shù)目
- 細胞周期
- ...
低比例的細胞類型也可以被檢測的方法
PERT (Qiao et al., 2012) 和 DeconRNAseq (Gong and Szustakowski, 2013) 可以檢測到的細胞比例最小可以至2% 捶闸,CIBERSORT (Newman et al., 2015) 可以至 0.5% 夜畴。
評估去卷積效果
- 原位雜交(in-situ hybridization,ISH) (Kuhn et al., 2011, 2012) 或免疫組織染色 (IHC) (Ju et al., 2013)
- 細胞分選 (Qiao et al., 2012);
- 顯微鏡和FACS分析相結(jié)合 (Wang et al., 2016);
- 相關(guān)性分析删壮,即實驗方法細胞計數(shù)的結(jié)果與計算方法預(yù)計結(jié)果相比 (Li et al., 2016; ?enbabao?lu et al., 2016)贪绘,(?enbabao?lu et al., 2016).
傳統(tǒng)線性模型的局限性
- 混合物中應(yīng)該存在的所有細胞類型的參考概況或每種細胞類型至少有一個標記;
- 由于真實的組成是未知的央碟,一些細胞類型可能被忽略税灌;
- 一些方法假設(shè)給定的異質(zhì)性組織內(nèi)的細胞類型是穩(wěn)定組成的;
- 大多數(shù)方法沒有考慮到這樣一個事實亿虽,即參考表達譜通常受微環(huán)境或發(fā)育影響的干擾垄琐,或者只是在不同的條件下或不同的技術(shù)或平臺下獲得;
去卷積的網(wǎng)頁版工具
CellPred (Wang et al., 2010):
用Affymetrix microarray 數(shù)據(jù)對細胞比例進行估計
http://webarraydb.org/webarray/index.html.TIMER (Li et al., 2016):
包含B cells, CD4+, CD8+ T cells, macrophages, neutrophils 和 dendritic cells 的細胞比例经柴,數(shù)據(jù)來源于TCGA 32種癌癥類型狸窘,11,509個樣本。
https://cistrome.shinyapps.io/timer/
https://github.com/hanfeisun/TIMERDSection (Erkkil? et al., 2010):
使用微陣列數(shù)據(jù)估計特異性細胞類型表達譜坯认,校正細胞類型比例和差異基因表達翻擒。
http://infor- matics.systemsbiology.net/DSection/DCQ (Altboum et al., 2014) and CoD (Frishberg et al., 2015)
這兩個工具都來自Irit Gat-Viks 實驗室,用芯片數(shù)據(jù)或者RNA-seq數(shù)據(jù)估計細胞比例牛哺。
http://www.dcq.tau.ac.il/
(de- tailed information: http://dcq.tau.ac.il/application.html) 陋气;
http://www.csgi.tau.ac.il/CoD/
(detailed information: http://www.csgi.tau.ac.il/CoD/application.html)ESTIMATE (Yoshihara et al., 2013):
快速獲取基質(zhì)和免疫細胞的相對組成,可用于microarray 和RNA-seq數(shù)據(jù)引润。
http://bioinformatics.mdanderson.org/estimate/CIBERSORT (Newman et al., 2015):
以22種白細胞亞型細胞的細胞比例作為參考巩趁,用于來自于異質(zhì)性樣本的芯片或者RNA-seq數(shù)據(jù)。
https://cibersort.stanford.edu/runcibersort.php
其他數(shù)據(jù)類型的去卷積方法
根據(jù)甲基化數(shù)據(jù)進行去卷積的淳附,目前的方法有:
- EpiDISH (Teschendorff et al., 2017)
- MeDeCom (Lutsik et al., 2017)
- eFORGE (Breeze et al., 2016)
- EDec (Onuchic et al., 2016)
根據(jù)拷貝數(shù)變異:
- BACOM 2.0 (Fu et al., 2015)
- ABSOLUTE (Carter et al., 2012)
- CloneCNA (Yu et al., 2016)
- CPE (Aran et al., 2015)
公布于 2018— 06.11
第三周 2018— 06.04-06.10