單細胞測序-scRNA-seq數(shù)據(jù)的標準化處理

我們都知道悍赢,從數(shù)據(jù)質控開始已經進入了scRNA分析階段决瞳,在這個階段開始測試代碼,進行實操是很重要的左权。測試過程中出現(xiàn)的各種問題可能成為你學習路上的攔路虎皮胡。作圖丫為大家總結單細胞數(shù)據(jù)分析時,標準化處理的方法和策略涮总。


序言


????????上一期我們介紹了如何對scRNA-seq數(shù)據(jù)進行預處理與質控胸囱,在得到高質量的barcode by cell計數(shù)矩陣之后,我們需要通過基因在不同細胞間的差異表達來對細胞聚類瀑梗。而數(shù)據(jù)的標準化(normalization)對于準確的比較細胞間的基因表達則是非常重要且必要的一步烹笔。今天我們就來一起了解一下如何對scRNA-seq數(shù)據(jù)標準化。


計數(shù)矩陣標準化的必要性


????????在scRNA-seq中抛丽,由于每個細胞的起始轉錄分子量有限谤职,每個細胞中轉錄本的捕獲以及擴增效率都會有技術差異,因此很難保證樣本之間在文庫制備上保持高度的一致性亿鲜。這也造成了多個樣本的測序數(shù)據(jù)中會存在由于文庫測序覆蓋率(sequencing coverage)?不同而引入的系統(tǒng)差異允蜈。數(shù)據(jù)的標準化目的就是消除這些差異,使得我們得到的分析結果不受技術噪音的影響蒿柳。

數(shù)據(jù)標準化一般分為兩大類:

·?樣本內的標準化(within-sample normalization):?針對由基因特異性(如基因長度饶套,GC content)產生的偏差,標準化后使得同個樣本內的基因表達具有可比性垒探。我們常用的RPKM妓蛮,F(xiàn)PKM 和TPM就是標準化之后的表達值。

·?樣本間的標準化(between-sample normalization):?針對樣本間的差異圾叼,例如測序深度和轉錄本捕獲率蛤克,標準化后的表達值能被用于不同樣本間的比較。


????????在scRNA-seq分析中夷蚊,我們將每個細胞視為一個獨立的樣本构挤,來比較細胞內不同基因的表達。我們前期的文章提到過惕鼓,在droplet-based的方法中筋现,只對轉錄分子的5'?或 3'端測序,因此此類數(shù)據(jù)的標準化不需要考慮基因長度的影響,對應的就是方法類別就是樣本間的標準化矾飞。

????????目前已經有很多針對bulk RNA-seq 數(shù)據(jù)的成熟的標準化方法彻犁,有些方也被用于單細胞分析。然而需要注意的是凰慈,由于scRNA-seq數(shù)據(jù)的高度稀疏性(sparsity)?和技術噪音,直接使用bulk RNA-seq的方法使得對單細胞數(shù)據(jù)中的低表達基因造成過度矯正驼鹅。

下面我們主要給大家介紹兩大類用于scRNA-seq的標準化方法[2,3]微谓。


第一類常用標準化方法-log-normalization

????????大家比較熟悉的標準化方法是scaling。由于每個細胞的總計數(shù)(也可稱為測序深度)不同输钩,首先通過總計數(shù)對每個細胞估算出一個size factor豺型,它代表了細胞間由不同測序深度帶來的相對偏差值, 然后對每個細胞的總計數(shù)除以特定的size factor买乃,以此來達到消除偏差的目的特恬,得到“normalized expression values”用于下游分析篙贸。如果在scRNA-seq中用到了spike-ins 或 UMIs,標準化的操作則要根據(jù)它們的結果來進行調整。一些用于scRNA-seq的方法有:

· CPM (counts per million) normalization:?這個方法假設所有細胞包含等量的mRNA分子矮固,測序深度的差異僅來源于抽樣,即相對偏差全部都體現(xiàn)在細胞的不同計數(shù)總和上缨该;因此估計的size factor與細胞計數(shù)總和成正比勤晚。這個方法在bulk RNA -seq中也很常用。方法對應的R包: Seurat [3]啸臀,scater [4]?届宠。

· High-count filtering CPM:?是在CPM的基礎上,考慮到少數(shù)高表達基因對細胞偏差估計的影響乘粒,在估算size factor時剔除細胞中表達量高于5%的總計數(shù)的基因豌注。

· Scran:?針對單細胞測序的dropout和0計數(shù)現(xiàn)象,scran通過合并 (pool)?總計數(shù)類似的細胞灯萍,通過它們的計數(shù)總和來估算一個size factor轧铁,然后將其進一步分解,用到每個細胞表達譜的標準化中竟稳。R包: scran [5]属桦。

· BASiCS:?基于spike-ins來推斷細胞特異的size factor。R包: scRNAseq [6]他爸。

以上這些方法都基于一個假設:對于樣本中所有細胞聂宾,它們的轉錄分子量都是相同的。這樣同一個size factor才能被用于細胞中的所有基因诊笤。

????????在標準化之后系谐,計數(shù)矩陣還需要做log(x+1)?轉化。由于在衡量表達值差異大小的時候,我們通常使用的是表達值的對數(shù)倍變化(log-fold change)纪他,因此需要對計數(shù)矩陣作進一步的對數(shù)轉化鄙煤。并且由于很多下游的分析工具?(例如差異表達分析)?都假設數(shù)據(jù)是正態(tài)分布的,然而我們知道scRNA-seq數(shù)據(jù)實際上并不一定滿足茶袒,因此對數(shù)轉換則能幫助我們降低數(shù)據(jù)的skewness梯刚,盡管方法比較粗糙但是對之后的分析很實用。

????????在log(x+1)?轉化中的+1是加上的一個偽計數(shù)(pseudo-count)?薪寓,用來避免未定義的數(shù)值0亡资。偽計數(shù)的選擇比較多,用+1的原因是能保留原始矩陣中的sparsity向叉,即原始表達值為0的在對數(shù)轉換后仍然為0锥腻。當然,你也可以選擇其他的數(shù)值母谎,如果選擇較大的偽計數(shù)瘦黑,低表達基因之間的對數(shù)倍變化則會變小,使得下游的差異分析結果由高表達基因主導奇唤;反之選擇較小的偽計數(shù)則能增加低表達基因在差異分析結果中權重幸斥。大家可以根據(jù)自己的研究目的來調整選擇的參數(shù)。

以上兩步(scaling & log-trans)?結合起來通常被稱作“l(fā)og-normalization”?冻记,這類方法比較簡單并且常用睡毒。


第二類常用標準化方法-?probabilistic?model?based?approach

????????另外一類標準化方法比較新穎,也更加復雜冗栗,是通過擬合分布來對細胞計數(shù)構建模型(model molecule counts using probabilistic approaches)演顾,用模型擬合的殘差 (residuals)?作為基因表達的標準化定量。一些新的基于UMIs的方法隅居,它們的建模主要是使用NB distribution以及zero-inflation NB distribution (ZINB)钠至。一些常見的方法以及對應的R包/python模塊有:

·?ZINB-WaVE(R包:?zinbwave)[7]

·?scVI?(python?模塊:?scvi)[8]

·?DCA?(python?模塊: dca)[9]

regularized negative binomial regression (R包: sctransform; also being wrapped in Seurat)?[10]。

Adapted from [7,8,9].


與前面估算size factor的方法不同胎源,這類模型擬合類方法通常將批次矯正和數(shù)據(jù)標準化結合到了一起棉钧,不需要分步處理。


Seurat: log-normalization vs. sctransform

????????或許大家會注意到R包Seurat提供了兩種標準化的選擇:log-normalization 和sctransform涕蚤。Hafemeister et al.,[10]?對比了這兩種方法宪卿,發(fā)現(xiàn)log-normalization對不同表達量的基因標準化效果不一致,只有中等以及低表達的基因被有效的標準化了万栅,表明“size factor”并不是對所有基因都有效佑钾,并且這個是否有效的差異與測序深度相關 (Figure 1D from [10])。

Figure 1 from [10].

????????而在r包sctransform中烦粒,他們通過構建regularized negative binomial regression 模型休溶,對比發(fā)現(xiàn)模型殘差能有效的標準化表達值代赁,而且殘差的方差(variance of residuals)?不受測序深度影響?(Figure 3C from [10])。在他們的pipeline中也提到兽掰,如果研究涉及到多個不同scran-seq數(shù)據(jù)的合并?(特別是不同protocols生成的數(shù)據(jù))芭碍,建議使用sctransform,運行時間比傳統(tǒng)的log-normalization會短很多孽尽。

Figure 3 from [10].


小tip:?數(shù)據(jù)標準化(normalization)?和批次矯正(batch correction)?之間有什么區(qū)別嗎窖壕?標準化只考慮技術偏差,與有沒有批次效應無關杉女;而批次矯正艇拍,顧名思義,是特指出現(xiàn)在不同批次之間的差異宠纯,需要同時考慮技術偏差和生物學差異。技術偏差一般對具有相似特征??(例如長度层释,GC content)?的基因造成的影響也是類似的婆瓜,而批次之間的生物學差異則要復雜的多,而且難以預估贡羔。因此這兩個步驟涉及了不同的方法廉白,大家千萬主要不要混淆了這兩個概念。


小編總結


標準化方法的選擇很多乖寒,因為畢竟沒有一種方法能適用于所有類型的scRNA-seq數(shù)據(jù)猴蹂。在大多數(shù)的單細胞分析教程中l(wèi)og-normalization還是比較常用的方法,因為它相對簡單并且容易實現(xiàn)楣嘁。從我個人的分析經驗來說磅轻,我嘗試過用不同的數(shù)據(jù)對比文中提到的兩大類方法,在細胞聚類上結果并沒有顯著的差異逐虚。不過因為具體數(shù)據(jù)的特異性聋溜,建議大家在了解方法的基礎上,多多嘗試不同的方法叭爱,特別在當聚類結果不太理想的時候撮躁。我們之后也會為大家介紹系統(tǒng)比較這些方法的文章,V信搜索:作圖丫买雾,可獲取更多精彩內容把曼。


參考資料/文獻

1.?Hwang, B., Lee, J.H. & Bang, D. Single-cell RNA sequencing technologies and bioinformatics pipelines.?Exp Mol Med?50,?96 (2018). https://doi.org/10.1038/s12276-018-0071-8

2.?Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial.?Mol Syst Biol. 2019;15(6):e8746. Published 2019 Jun 19. doi:10.15252/msb.20188746

3.?Stuart T, Butler A, Hoffman P, et al. Comprehensive Integration of Single-Cell Data.?Cell. 2019;177(7):1888-1902.e21. doi:10.1016/j.cell.2019.05.031

4.?McCarthy DJ, Campbell KR, Lun ATL, Willis QF (2017). “Scater: pre-processing, quality control, normalisation and visualisation of single-cell RNA-seq data in R.”?Bioinformatics,?33, 1179-1186. doi:?10.1093/bioinformatics/btw777.

5.?Lun ATL, McCarthy DJ, Marioni JC (2016). “A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor.”?F1000Res.,?5, 2122. doi:?10.12688/f1000research.9501.2.

6.?Risso D, Cole M (2020).?scRNAseq: Collection of Public Single-Cell RNA-Seq Datasets. R package version 2.2.0.

7.?Risso D, Perraudeau F, Gribkova S, Dudoit S, Vert J (2018). “A general and flexible method for signal extraction from single-cell RNA-seq data.”?Nature Communications,?9, 284.?https://doi.org/10.1038/s41467-017-02554-5.

8.?Lopez R, Regier J, Cole MB, Jordan MI, Yosef N. Deep generative modeling for single-cell transcriptomics.?Nat Methods. 2018;15(12):1053-1058. doi:10.1038/s41592-018-0229-2

9.?Eraslan, G., Simon, L.M., Mircea, M.?et al.?Single-cell RNA-seq denoising using a deep count autoencoder.?Nat Commun?10,?390 (2019). https://doi.org/10.1038/s41467-018-07931-2

10.?Hafemeister, C., Satija, R. Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression. Genome Biol 20, 296 (2019). https://doi.org/10.1186/s13059-019-1874-1

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市漓穿,隨后出現(xiàn)的幾起案子嗤军,更是在濱河造成了極大的恐慌,老刑警劉巖器净,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件型雳,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機纠俭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門沿量,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人冤荆,你說我怎么就攤上這事朴则。” “怎么了钓简?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵乌妒,是天一觀的道長。 經常有香客問我外邓,道長撤蚊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任损话,我火速辦了婚禮侦啸,結果婚禮上,老公的妹妹穿的比我還像新娘丧枪。我一直安慰自己光涂,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布拧烦。 她就那樣靜靜地躺著忘闻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪恋博。 梳的紋絲不亂的頭發(fā)上齐佳,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音债沮,去河邊找鬼重虑。 笑死,一個胖子當著我的面吹牛秦士,可吹牛的內容都是我干的缺厉。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼隧土,長吁一口氣:“原來是場噩夢啊……” “哼提针!你這毒婦竟也來了?” 一聲冷哼從身側響起曹傀,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤辐脖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后皆愉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嗜价,經...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡艇抠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了久锥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片家淤。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖瑟由,靈堂內的尸體忽然破棺而出絮重,到底是詐尸還是另有隱情,我是刑警寧澤歹苦,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布青伤,位于F島的核電站,受9級特大地震影響殴瘦,放射性物質發(fā)生泄漏狠角。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一蚪腋、第九天 我趴在偏房一處隱蔽的房頂上張望擎厢。 院中可真熱鬧,春花似錦辣吃、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至偷仿,卻和暖如春哩簿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背酝静。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工节榜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人别智。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓宗苍,卻偏偏與公主長得像,于是被迫代替她去往敵國和親薄榛。 傳聞我的和親對象是個殘疾皇子讳窟,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容