我們都知道悍赢,從數(shù)據(jù)質控開始已經進入了scRNA分析階段决瞳,在這個階段開始測試代碼,進行實操是很重要的左权。測試過程中出現(xiàn)的各種問題可能成為你學習路上的攔路虎皮胡。作圖丫為大家總結單細胞數(shù)據(jù)分析時,標準化處理的方法和策略涮总。
序言
????????上一期我們介紹了如何對scRNA-seq數(shù)據(jù)進行預處理與質控胸囱,在得到高質量的barcode by cell計數(shù)矩陣之后,我們需要通過基因在不同細胞間的差異表達來對細胞聚類瀑梗。而數(shù)據(jù)的標準化(normalization)對于準確的比較細胞間的基因表達則是非常重要且必要的一步烹笔。今天我們就來一起了解一下如何對scRNA-seq數(shù)據(jù)標準化。
計數(shù)矩陣標準化的必要性
????????在scRNA-seq中抛丽,由于每個細胞的起始轉錄分子量有限谤职,每個細胞中轉錄本的捕獲以及擴增效率都會有技術差異,因此很難保證樣本之間在文庫制備上保持高度的一致性亿鲜。這也造成了多個樣本的測序數(shù)據(jù)中會存在由于文庫測序覆蓋率(sequencing coverage)?不同而引入的系統(tǒng)差異允蜈。數(shù)據(jù)的標準化目的就是消除這些差異,使得我們得到的分析結果不受技術噪音的影響蒿柳。
數(shù)據(jù)標準化一般分為兩大類:
·?樣本內的標準化(within-sample normalization):?針對由基因特異性(如基因長度饶套,GC content)產生的偏差,標準化后使得同個樣本內的基因表達具有可比性垒探。我們常用的RPKM妓蛮,F(xiàn)PKM 和TPM就是標準化之后的表達值。
·?樣本間的標準化(between-sample normalization):?針對樣本間的差異圾叼,例如測序深度和轉錄本捕獲率蛤克,標準化后的表達值能被用于不同樣本間的比較。
????????在scRNA-seq分析中夷蚊,我們將每個細胞視為一個獨立的樣本构挤,來比較細胞內不同基因的表達。我們前期的文章提到過惕鼓,在droplet-based的方法中筋现,只對轉錄分子的5'?或 3'端測序,因此此類數(shù)據(jù)的標準化不需要考慮基因長度的影響,對應的就是方法類別就是樣本間的標準化矾飞。
????????目前已經有很多針對bulk RNA-seq 數(shù)據(jù)的成熟的標準化方法彻犁,有些方也被用于單細胞分析。然而需要注意的是凰慈,由于scRNA-seq數(shù)據(jù)的高度稀疏性(sparsity)?和技術噪音,直接使用bulk RNA-seq的方法使得對單細胞數(shù)據(jù)中的低表達基因造成過度矯正驼鹅。
下面我們主要給大家介紹兩大類用于scRNA-seq的標準化方法[2,3]微谓。
第一類常用標準化方法-log-normalization
????????大家比較熟悉的標準化方法是scaling。由于每個細胞的總計數(shù)(也可稱為測序深度)不同输钩,首先通過總計數(shù)對每個細胞估算出一個size factor豺型,它代表了細胞間由不同測序深度帶來的相對偏差值, 然后對每個細胞的總計數(shù)除以特定的size factor买乃,以此來達到消除偏差的目的特恬,得到“normalized expression values”用于下游分析篙贸。如果在scRNA-seq中用到了spike-ins 或 UMIs,標準化的操作則要根據(jù)它們的結果來進行調整。一些用于scRNA-seq的方法有:
· CPM (counts per million) normalization:?這個方法假設所有細胞包含等量的mRNA分子矮固,測序深度的差異僅來源于抽樣,即相對偏差全部都體現(xiàn)在細胞的不同計數(shù)總和上缨该;因此估計的size factor與細胞計數(shù)總和成正比勤晚。這個方法在bulk RNA -seq中也很常用。方法對應的R包: Seurat [3]啸臀,scater [4]?届宠。
· High-count filtering CPM:?是在CPM的基礎上,考慮到少數(shù)高表達基因對細胞偏差估計的影響乘粒,在估算size factor時剔除細胞中表達量高于5%的總計數(shù)的基因豌注。
· Scran:?針對單細胞測序的dropout和0計數(shù)現(xiàn)象,scran通過合并 (pool)?總計數(shù)類似的細胞灯萍,通過它們的計數(shù)總和來估算一個size factor轧铁,然后將其進一步分解,用到每個細胞表達譜的標準化中竟稳。R包: scran [5]属桦。
· BASiCS:?基于spike-ins來推斷細胞特異的size factor。R包: scRNAseq [6]他爸。
以上這些方法都基于一個假設:對于樣本中所有細胞聂宾,它們的轉錄分子量都是相同的。這樣同一個size factor才能被用于細胞中的所有基因诊笤。
????????在標準化之后系谐,計數(shù)矩陣還需要做log(x+1)?轉化。由于在衡量表達值差異大小的時候,我們通常使用的是表達值的對數(shù)倍變化(log-fold change)纪他,因此需要對計數(shù)矩陣作進一步的對數(shù)轉化鄙煤。并且由于很多下游的分析工具?(例如差異表達分析)?都假設數(shù)據(jù)是正態(tài)分布的,然而我們知道scRNA-seq數(shù)據(jù)實際上并不一定滿足茶袒,因此對數(shù)轉換則能幫助我們降低數(shù)據(jù)的skewness梯刚,盡管方法比較粗糙但是對之后的分析很實用。
????????在log(x+1)?轉化中的+1是加上的一個偽計數(shù)(pseudo-count)?薪寓,用來避免未定義的數(shù)值0亡资。偽計數(shù)的選擇比較多,用+1的原因是能保留原始矩陣中的sparsity向叉,即原始表達值為0的在對數(shù)轉換后仍然為0锥腻。當然,你也可以選擇其他的數(shù)值母谎,如果選擇較大的偽計數(shù)瘦黑,低表達基因之間的對數(shù)倍變化則會變小,使得下游的差異分析結果由高表達基因主導奇唤;反之選擇較小的偽計數(shù)則能增加低表達基因在差異分析結果中權重幸斥。大家可以根據(jù)自己的研究目的來調整選擇的參數(shù)。
以上兩步(scaling & log-trans)?結合起來通常被稱作“l(fā)og-normalization”?冻记,這類方法比較簡單并且常用睡毒。
第二類常用標準化方法-?probabilistic?model?based?approach
????????另外一類標準化方法比較新穎,也更加復雜冗栗,是通過擬合分布來對細胞計數(shù)構建模型(model molecule counts using probabilistic approaches)演顾,用模型擬合的殘差 (residuals)?作為基因表達的標準化定量。一些新的基于UMIs的方法隅居,它們的建模主要是使用NB distribution以及zero-inflation NB distribution (ZINB)钠至。一些常見的方法以及對應的R包/python模塊有:
·?ZINB-WaVE(R包:?zinbwave)[7]
·?scVI?(python?模塊:?scvi)[8]
·?DCA?(python?模塊: dca)[9]
regularized negative binomial regression (R包: sctransform; also being wrapped in Seurat)?[10]。
與前面估算size factor的方法不同胎源,這類模型擬合類方法通常將批次矯正和數(shù)據(jù)標準化結合到了一起棉钧,不需要分步處理。
Seurat: log-normalization vs. sctransform
????????或許大家會注意到R包Seurat提供了兩種標準化的選擇:log-normalization 和sctransform涕蚤。Hafemeister et al.,[10]?對比了這兩種方法宪卿,發(fā)現(xiàn)log-normalization對不同表達量的基因標準化效果不一致,只有中等以及低表達的基因被有效的標準化了万栅,表明“size factor”并不是對所有基因都有效佑钾,并且這個是否有效的差異與測序深度相關 (Figure 1D from [10])。
????????而在r包sctransform中烦粒,他們通過構建regularized negative binomial regression 模型休溶,對比發(fā)現(xiàn)模型殘差能有效的標準化表達值代赁,而且殘差的方差(variance of residuals)?不受測序深度影響?(Figure 3C from [10])。在他們的pipeline中也提到兽掰,如果研究涉及到多個不同scran-seq數(shù)據(jù)的合并?(特別是不同protocols生成的數(shù)據(jù))芭碍,建議使用sctransform,運行時間比傳統(tǒng)的log-normalization會短很多孽尽。
小tip:?數(shù)據(jù)標準化(normalization)?和批次矯正(batch correction)?之間有什么區(qū)別嗎窖壕?標準化只考慮技術偏差,與有沒有批次效應無關杉女;而批次矯正艇拍,顧名思義,是特指出現(xiàn)在不同批次之間的差異宠纯,需要同時考慮技術偏差和生物學差異。技術偏差一般對具有相似特征??(例如長度层释,GC content)?的基因造成的影響也是類似的婆瓜,而批次之間的生物學差異則要復雜的多,而且難以預估贡羔。因此這兩個步驟涉及了不同的方法廉白,大家千萬主要不要混淆了這兩個概念。
小編總結
標準化方法的選擇很多乖寒,因為畢竟沒有一種方法能適用于所有類型的scRNA-seq數(shù)據(jù)猴蹂。在大多數(shù)的單細胞分析教程中l(wèi)og-normalization還是比較常用的方法,因為它相對簡單并且容易實現(xiàn)楣嘁。從我個人的分析經驗來說磅轻,我嘗試過用不同的數(shù)據(jù)對比文中提到的兩大類方法,在細胞聚類上結果并沒有顯著的差異逐虚。不過因為具體數(shù)據(jù)的特異性聋溜,建議大家在了解方法的基礎上,多多嘗試不同的方法叭爱,特別在當聚類結果不太理想的時候撮躁。我們之后也會為大家介紹系統(tǒng)比較這些方法的文章,V信搜索:作圖丫买雾,可獲取更多精彩內容把曼。
參考資料/文獻
1.?Hwang, B., Lee, J.H. & Bang, D. Single-cell RNA sequencing technologies and bioinformatics pipelines.?Exp Mol Med?50,?96 (2018). https://doi.org/10.1038/s12276-018-0071-8
2.?Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial.?Mol Syst Biol. 2019;15(6):e8746. Published 2019 Jun 19. doi:10.15252/msb.20188746
3.?Stuart T, Butler A, Hoffman P, et al. Comprehensive Integration of Single-Cell Data.?Cell. 2019;177(7):1888-1902.e21. doi:10.1016/j.cell.2019.05.031
4.?McCarthy DJ, Campbell KR, Lun ATL, Willis QF (2017). “Scater: pre-processing, quality control, normalisation and visualisation of single-cell RNA-seq data in R.”?Bioinformatics,?33, 1179-1186. doi:?10.1093/bioinformatics/btw777.
5.?Lun ATL, McCarthy DJ, Marioni JC (2016). “A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor.”?F1000Res.,?5, 2122. doi:?10.12688/f1000research.9501.2.
6.?Risso D, Cole M (2020).?scRNAseq: Collection of Public Single-Cell RNA-Seq Datasets. R package version 2.2.0.
7.?Risso D, Perraudeau F, Gribkova S, Dudoit S, Vert J (2018). “A general and flexible method for signal extraction from single-cell RNA-seq data.”?Nature Communications,?9, 284.?https://doi.org/10.1038/s41467-017-02554-5.
8.?Lopez R, Regier J, Cole MB, Jordan MI, Yosef N. Deep generative modeling for single-cell transcriptomics.?Nat Methods. 2018;15(12):1053-1058. doi:10.1038/s41592-018-0229-2
9.?Eraslan, G., Simon, L.M., Mircea, M.?et al.?Single-cell RNA-seq denoising using a deep count autoencoder.?Nat Commun?10,?390 (2019). https://doi.org/10.1038/s41467-018-07931-2
10.?Hafemeister, C., Satija, R. Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression. Genome Biol 20, 296 (2019). https://doi.org/10.1186/s13059-019-1874-1