sc-Review：?jiǎn)渭?xì)胞RNA-seq數(shù)據(jù)分析最佳實(shí)踐

Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.

摘要

single cell RNA-seq 提高了基因表達(dá)研究的分辨率，這項(xiàng)技術(shù)也帶來越來越多的單細(xì)胞分析方法睁壁。這使得研究者難以駕馭這一多工具格局并從中搭建最新的工作流程來分析自己的數(shù)據(jù)主届。在這里赡磅，我們?cè)敿?xì)介紹了典型的單細(xì)胞 RNA-seq 數(shù)據(jù)分析步驟固耘，包括預(yù)處理（質(zhì)量控制眷射、標(biāo)準(zhǔn)化挖腰、數(shù)據(jù)校正雕沿、特征選擇和降維）以及細(xì)胞及基因水平的下游分析。我們根據(jù)獨(dú)立比較研究為這些步驟制定了當(dāng)前（2019年）最佳實(shí)踐建議猴仑。我們已將這些最佳實(shí)踐建議整合到工作流中审轮，并將其應(yīng)用于公共數(shù)據(jù)集，以進(jìn)一步說明這些步驟在實(shí)踐中如何工作辽俗。我們的案例研究可參見https://www.github.com/theislab/single-cell-tutorial疾渣。這篇綜述將作為單細(xì)胞新手進(jìn)入該領(lǐng)域的數(shù)據(jù)分析流程指南，并幫助現(xiàn)有的研究人員更新他們的分析流程榆苞。

關(guān)鍵詞:分析流程開發(fā)稳衬；計(jì)算生物學(xué)；數(shù)據(jù)分析教程坐漏；單細(xì)胞 RNA-seq

概述

近年來薄疚，單細(xì)胞 RNA 測(cè)序 (scRNA-seq) 推進(jìn)了我們對(duì)生物系統(tǒng)的認(rèn)識(shí)。我們已經(jīng)能夠研究斑馬魚赊琳、青蛙和渦蟲的細(xì)胞異質(zhì)性 (Briggs et al,2018街夭；Plass et al,2018；Wagner et al,2018)躏筏，并發(fā)現(xiàn)之前被掩蓋的細(xì)胞群 (Montoro et al,2018板丽；Plasschaert et al,2018)。該技術(shù)的巨大潛力促使計(jì)算生物學(xué)家開發(fā)一系列分析工具 (Rostom et al,2017)。盡管該領(lǐng)域正在努力確保單個(gè)工具的可用性埃碱，但單細(xì)胞數(shù)據(jù)分析中猖辫，新手的一個(gè)進(jìn)入障礙（ a barrier of entry）是由于該領(lǐng)域相對(duì)不成熟而缺乏標(biāo)準(zhǔn)。在本文中砚殿，我們簡(jiǎn)述目前scRNA-seq 分析的最佳做法啃憎，為今后的分析標(biāo)準(zhǔn)化奠定基礎(chǔ)。

標(biāo)準(zhǔn)化面臨的挑戰(zhàn)包括分析方法不斷增加（截至 2019 年 3 月 7 日已達(dá) 385多種工具）和數(shù)據(jù)集規(guī)模爆炸性增長(zhǎng) (Angerer et al,2017似炎；Zappia et al,2018)辛萍。我們正在不斷尋找新的方法來使用我們所測(cè)得的數(shù)據(jù)。例如羡藐，最近的工具可預(yù)測(cè)分化中的細(xì)胞命運(yùn) (La Manno et al,2018)贩毕。分析工具的不斷改進(jìn)有利于產(chǎn)生新的科學(xué)洞察力，但這也使標(biāo)準(zhǔn)化更加復(fù)雜仆嗦。

標(biāo)準(zhǔn)化的第二個(gè)挑戰(zhàn)在于技術(shù)方面辉阶。scRNA-seq 數(shù)據(jù)的分析工具用各種編程語言，最突出的是 R 和 Python (Zappia et al,2018)瘩扼。盡管跨環(huán)境的工具正在增長(zhǎng)（預(yù)泳υ濉：Scholz et al,2018），但編程語言的選擇通常也是分析工具之間的一種選擇邢隧。Seurat (Butler et al,2018)、Scater (McCarthy et al,2017) 或 Scanpy (Wolf et al,2018) 等熱門平臺(tái)提供了開發(fā)流程的集成環(huán)境冈在，且包含大型分析工具倒慧。然而，這些平臺(tái)僅限于使用各自編程語言開發(fā)的工具包券。通過擴(kuò)展纫谅，語言限制也適用于目前可用的 scRNA-seq 分析教程，其中許多教程圍繞上述平臺(tái)（R 和 bioconductor 工具：https://github.com/drisso/bioc2016singlecell和https://hemberg-lab.github.io/scRNA.seq.Lun 等人溅固，2016b付秕；Seurat；scanpy.

考慮到上述挑戰(zhàn)侍郭，我們并沒有標(biāo)準(zhǔn)化分析流程询吴，而是概述了當(dāng)前的最佳實(shí)踐和獨(dú)立于編程語言的通用工具。我們指導(dǎo)讀者完成 scRNA-seq 分析流程的各個(gè)步驟（圖 1）亮元，介紹當(dāng)前的最佳實(shí)踐猛计，并討論分析陷阱提出開放性問題。由于工具的新穎性和缺乏比較爆捞，事實(shí)上無法確定最佳實(shí)踐奉瘤，因此我們列出了流行的可用工具。所概述的步驟從reads或計(jì)數(shù)矩陣開始煮甥，得出潛在分析終點(diǎn)盗温，Lun et al (2016b) 涵蓋了早期預(yù)處理步驟藕赞。整合現(xiàn)有最佳實(shí)踐的詳細(xì)案例研究可從我們的 github 獲得，網(wǎng)址為：https://github.com/theislab/single-cell-tutorial/卖局。在這里斧蜕，我們?cè)谝粋€(gè)實(shí)際的示例工作流中應(yīng)用了當(dāng)前的最佳實(shí)踐來分析公共數(shù)據(jù)集。分析工作流程用rpy2在 Jupyter-Ipython notebook中集成了 R 和 Python 工具吼驶。有了可用的文檔惩激，它很容易作為工作流模板進(jìn)行二次修改。

圖 1. 典型的單細(xì)胞 RNA-seq 分析工作流程示意圖蟹演。原始測(cè)序數(shù)據(jù)經(jīng)過處理和比對(duì)风钻，得到計(jì)數(shù)矩陣，代表工作流程的開始酒请。計(jì)數(shù)矩陣經(jīng)過預(yù)處理和下游分析骡技。使用 Haber et al (2017) 腸上皮細(xì)胞數(shù)據(jù)的最佳實(shí)踐工作流程生成子圖。

框1:實(shí)驗(yàn)性scRNA-seq工作流的關(guān)鍵元素

從生物樣本到可分析的單細(xì)胞數(shù)據(jù)需要經(jīng)過多個(gè)步驟羞反。典型的工作流程包括：?jiǎn)渭?xì)胞解離布朦、單細(xì)胞分離、文庫構(gòu)建和測(cè)序昼窗。對(duì)這些階段的簡(jiǎn)要概述如下：?jiǎn)渭?xì)胞實(shí)驗(yàn)的起始材料通常以生物組織樣本的形式獲得是趴。

單細(xì)胞懸浮液的制備作為第一步，是在一個(gè)被稱為單細(xì)胞解離的過程中產(chǎn)生的澄惊，其中組織被消化唆途。為分析每個(gè)細(xì)胞中的 mRNA，必須分離細(xì)胞掸驱。單細(xì)胞分離根據(jù)實(shí)驗(yàn)方案的不同而不同肛搬。雖然基于平板的技術(shù)將細(xì)胞隔離到平板上的孔中，但基于液滴的方法依賴于在自己的微流體液滴中捕獲每個(gè)細(xì)胞毕贼。在這兩種情況下温赔，都可能發(fā)生錯(cuò)誤，導(dǎo)致多個(gè)細(xì)胞被捕獲在一起（doublets or multiplets）鬼癣、非活細(xì)胞被捕獲或完全沒有細(xì)胞被捕獲（空液滴/孔）形成空滴的情況尤其常見陶贼，因?yàn)榛谝旱蔚姆椒ㄒ揽康蜐舛鹊妮斎爰?xì)胞流動(dòng)來控制雙聯(lián)體率。每孔或液滴中都含有分解細(xì)胞膜和進(jìn)行文庫構(gòu)建所必需的化學(xué)物質(zhì)待秃。胞內(nèi) mRNA 被捕獲骇窍、反轉(zhuǎn)錄為 cDNA 分子并擴(kuò)增的過程稱為文庫構(gòu)建。當(dāng)細(xì)胞隔離進(jìn)行這一過程時(shí)锥余，每個(gè)細(xì)胞的 mRNA 可以被一個(gè)孔或滴特定的細(xì)胞條形碼標(biāo)記腹纳。此外，許多實(shí)驗(yàn)方案也用唯一分子標(biāo)識(shí)符 (UMI) 標(biāo)記捕獲的分子。測(cè)序前擴(kuò)增細(xì)胞 cDNA嘲恍，以增加其被測(cè)量的概率足画。UMIs 允許我們區(qū)分相同 mRNA 分子的擴(kuò)增拷貝和從相同基因轉(zhuǎn)錄的不同 mRNA 分子的reads。

構(gòu)建好文庫后佃牛，使用細(xì)胞條形碼進(jìn)行標(biāo)記淹辞，并根據(jù)協(xié)議進(jìn)行UMIs標(biāo)記。這些庫匯集在一起(multiplexed)用于測(cè)序俘侠。序列產(chǎn)生reads數(shù)據(jù)象缀，這些數(shù)據(jù)經(jīng)過質(zhì)量控制，再準(zhǔn)備階段根據(jù)指定的條形碼(demultiplexing)和reads比對(duì)區(qū)分細(xì)胞爷速。對(duì)于基于umi的協(xié)議央星，reads數(shù)據(jù)可以被進(jìn)一步解復(fù)用以產(chǎn)生捕獲的mRNA分子計(jì)數(shù)(count data)。

Pre-processing and visualization

對(duì)測(cè)序儀生成的原始數(shù)據(jù)進(jìn)行處理惫东，以獲得分子計(jì)數(shù)（count 矩陣）或讀數(shù)（reads矩陣）的矩陣莉给，這取決于是否在單細(xì)胞文庫構(gòu)建方案中納入了獨(dú)特的分子標(biāo)識(shí)符 ( unique molecular
identifiers ，UMI)（有關(guān)分析前的實(shí)驗(yàn)步驟概述廉沮，請(qǐng)參見框 1）颓遏。Cell Ranger (Zheng et al,2017)、indrops (Klein et al,2015)滞时、SEQC (Azizi et al,2018) 或 zUMIs (Parekh et al,2018) 等原始數(shù)據(jù)處理流程負(fù)責(zé)reads質(zhì)量控制 (QC)叁幢，為其細(xì)胞barcode和 mRNA 來源分子（也稱為解復(fù)用,demultiplexing）分配reads、基因組比對(duì)和定量坪稽。得到的reads或計(jì)數(shù)矩陣包含barcode x 轉(zhuǎn)錄本數(shù)量的高緯數(shù)據(jù)遥皂。此處使用術(shù)語barcode代替細(xì)胞，因?yàn)樗衦eads均為分配給相同的barcode可能與來自同一細(xì)胞的reads不一致刽漂。一個(gè)barcode可能錯(cuò)誤地標(biāo)記多個(gè)細(xì)胞（雙聯(lián)體）或可能不標(biāo)記任何細(xì)胞（空滴/孔）。雖然reads和計(jì)數(shù)數(shù)據(jù)的測(cè)量噪聲水平不同弟孟，但典型分析流程中的處理步驟相同贝咙。為了簡(jiǎn)單起見，我們將在本教程中將這些數(shù)據(jù)稱為count矩陣拂募。如果reads和count矩陣的結(jié)果不同庭猩，則專門指出reads矩陣。

Quality control

在分析單細(xì)胞基因表達(dá)數(shù)據(jù)之前陈症，我們必須確保所有的細(xì)胞barcode數(shù)據(jù)都對(duì)應(yīng)于活細(xì)胞蔼水。細(xì)胞 QC 通常基于三個(gè) QC 變量進(jìn)行：

每個(gè)barcode的計(jì)數(shù)數(shù)量（count depth ）
每個(gè)barcode的基因數(shù)量
每個(gè)barcode的線粒體基因計(jì)數(shù)分?jǐn)?shù) (Ilicic et al,2016录肯；Griffiths et al,2018)

檢查這些 QC 變量的分布趴腋，以確定是否存在通過閾值處理過濾掉的離群峰（圖 2）。這些異常barcode可能對(duì)應(yīng)于死細(xì)胞、膜破損的細(xì)胞或雙聯(lián)體优炬。例如颁井，低計(jì)數(shù)深度的barcode、很少檢測(cè)到的基因以及線粒體計(jì)數(shù)的高分?jǐn)?shù)都表明細(xì)胞的細(xì)胞質(zhì) mRNA 已經(jīng)通過破損的膜漏出蠢护，只有位于線粒體中的 mRNA 仍然是保守的（圖 2）雅宾。與之相反，非預(yù)期高計(jì)數(shù)和大量檢測(cè)基因的細(xì)胞可能代表雙聯(lián)體葵硕。因此眉抬，高計(jì)數(shù)深度閾值常用于過濾掉潛在的雙峰。最近的三種雙聯(lián)檢測(cè)工具提供了更優(yōu)雅和可能更好的解決方案 (DoubletDecon:preprint:DePasquale et al,2018懈凹；Scrublet:Wolock et al,2019蜀变；doublet Finder:McGinnis et al,2018)。

圖 2. Haber et al (2017) 的小鼠腸上皮數(shù)據(jù)集過濾決策的質(zhì)量控制指標(biāo)圖蘸劈。(A) 每個(gè)cell的計(jì)數(shù)深度直方圖昏苏。較小的直方圖在計(jì)數(shù)深度低于 4,000 時(shí)放大。根據(jù)在約 1,200 個(gè)計(jì)數(shù)處檢測(cè)到的峰值威沫，此處應(yīng)用的閾值為 1,500贤惯。(B) 每個(gè)細(xì)胞檢測(cè)到的基因數(shù)的直方圖。在大約 400 個(gè)基因處可見一個(gè)小的噪聲峰棒掠。這些細(xì)胞使用描述的閾值（紅線）700 個(gè)基因過濾掉孵构。計(jì)數(shù)深度分布從高到低計(jì)數(shù)深度。該可視化與 Cell Ranger 輸出中顯示的 logClog 圖相關(guān)烟很，該輸出用于過濾空液滴颈墅。它顯示了一個(gè)肘部的計(jì)數(shù)深度開始迅速減少約 1500 計(jì)數(shù)。(D) 通過線粒體讀數(shù)部分染色的基因數(shù)量與計(jì)數(shù)深度的關(guān)系雾袱。線粒體讀取片段僅在檢測(cè)基因很少的特別低計(jì)數(shù)細(xì)胞中高恤筛。這些細(xì)胞被我們的計(jì)數(shù)和基因數(shù)閾值過濾掉。聯(lián)合可視化計(jì)數(shù)和基因閾值顯示聯(lián)合過濾效果芹橡，表明較低的基因閾值可能已經(jīng)足夠

單獨(dú)考慮這三個(gè)細(xì)胞 QC 變量中的任何一個(gè)都可能導(dǎo)致對(duì)細(xì)胞信號(hào)的誤解毒坛。例如，具有較高線粒體計(jì)數(shù)的細(xì)胞可能參與呼吸過程林说。同樣煎殷，其他 QC 變量也有生物學(xué)解釋。低count和（或）基因的細(xì)胞可對(duì)應(yīng)靜止細(xì)胞群腿箩，高count的細(xì)胞體積可能更大豪直。事實(shí)上，細(xì)胞之間的分子計(jì)數(shù)可能存在強(qiáng)烈差異（參見項(xiàng)目 github 的案例研究）珠移。因此弓乙，當(dāng)單變量閾值決策時(shí)末融，應(yīng)聯(lián)合考慮細(xì)胞 QC 變量（圖 2D），這些閾值應(yīng)盡可能設(shè)置為允許的唆貌，以避免無意中過濾掉活細(xì)胞群滑潘。考慮到多變量細(xì)胞 QC 的依賴性锨咙，篩選模型可能提供更敏感的 QC 選項(xiàng)语卤。

含有異質(zhì)混合細(xì)胞類型的數(shù)據(jù)集可能顯示多個(gè) 細(xì)胞QC 變量峰值。例如酪刀，圖 2D 顯示了具有不同 QC 分布的兩個(gè)細(xì)胞群粹舵。如果之前沒有進(jìn)行過濾步驟（注意 Cell Ranger 也進(jìn)行細(xì)胞 QC），那么只有每個(gè)barcode峰的最低計(jì)數(shù)深度和基因應(yīng)該被認(rèn)為是非活細(xì)胞骂倘。進(jìn)一步的閾值指導(dǎo)原則是使用所選閾值過濾掉的細(xì)胞比例眼滤。對(duì)于高計(jì)數(shù)過濾，該比例不應(yīng)超過預(yù)期的雙聯(lián)率历涝。

除了檢查細(xì)胞的完整性诅需，細(xì)胞 QC 步驟也必須在轉(zhuǎn)錄本水平上進(jìn)行。原始計(jì)數(shù)基質(zhì)通常超過 20,000 個(gè)基因荧库。通過過濾掉在少數(shù)細(xì)胞中不表達(dá)的基因堰塌，可以大幅減少這一數(shù)量。設(shè)置此閾值的一個(gè)準(zhǔn)則是使用最小cell群分衫，并留下一些dropout 效應(yīng)（dropout effects. ）的余地场刑。例如，篩選出少于 20 個(gè)細(xì)胞中表達(dá)的基因可能會(huì)使檢測(cè)少于 20 個(gè)細(xì)胞的細(xì)胞團(tuán)變得困難蚪战。對(duì)于高脫落（dropout ）率的數(shù)據(jù)集牵现，這個(gè)閾值也可能使較大簇的檢測(cè)復(fù)雜化。閾值的選擇應(yīng)根據(jù)數(shù)據(jù)集中的細(xì)胞數(shù)量和預(yù)期的下游分析進(jìn)行調(diào)整邀桑。

可直接對(duì)計(jì)數(shù)數(shù)據(jù)進(jìn)行進(jìn)一步 QC瞎疼。Ambient gene expression（環(huán)境基因表達(dá)）指不是來自barcode細(xì)胞，而是來自其他溶解細(xì)胞的count壁畸，這些細(xì)胞的 mRNA 在文庫構(gòu)建之前污染了細(xì)胞懸液贼急。這些增加的環(huán)境計(jì)數(shù)會(huì)扭曲下游分析，如標(biāo)記基因鑒定或其他差異表達(dá)檢測(cè)瓤摧，尤其是當(dāng)樣本之間的水平變化時(shí)。在基于液滴的 scRNA-seq 數(shù)據(jù)集中校正這些影響是可能的玉吁，由于大量的空液滴照弥，可用于模擬環(huán)境RNA表達(dá)譜。最近開發(fā)的SoupX(預(yù)印本:Young &
使用這種方法直接糾正計(jì)數(shù)數(shù)據(jù)进副。在下游分析中忽視強(qiáng)環(huán)境基因的實(shí)用方法也被用來解決這個(gè)問題(Ange- lidis et al, 2019)这揣。

進(jìn)行質(zhì)量控制以確保數(shù)據(jù)質(zhì)量足以用于下游分析悔常。由于無法先驗(yàn)確定足夠的數(shù)據(jù)質(zhì)量，因此根據(jù)下游分析性能（例如给赞，聚類注釋）進(jìn)行判斷机打。在分析數(shù)據(jù)時(shí)，可能需要多次重新審查質(zhì)量控制參數(shù)片迅。通常残邀，從允許的質(zhì)控閾值開始爬早，在執(zhí)行更嚴(yán)格的質(zhì)控之前研究這些閾值的影響是有益的而柑。這種方法對(duì)于包含異質(zhì)性細(xì)胞群的數(shù)據(jù)集特別重要，其中細(xì)胞類型或狀態(tài)可能被錯(cuò)誤解釋為低質(zhì)量離群細(xì)胞杖爽。在低質(zhì)量數(shù)據(jù)集中耻台，嚴(yán)格的 QC 閾值可能是必要的空免。可通過試驗(yàn) QC 指標(biāo)確定數(shù)據(jù)集的質(zhì)量（見附錄補(bǔ)充文本 S2盆耽，卑微小王手頭并沒有補(bǔ)充文檔蹋砚，從略）。在這種迭代 QC 優(yōu)化中摄杂，應(yīng)該注意數(shù)據(jù)窺視（data peeking.）坝咐。不應(yīng)調(diào)整 QC 閾值以改善統(tǒng)計(jì)檢驗(yàn)的結(jié)果。相反匙姜，可根據(jù)數(shù)據(jù)集可視化和聚類中的 QC 變量分布來評(píng)價(jià) QC效用畅厢。

問題和建議:
?通過基因數(shù)量、計(jì)數(shù)深度和線粒體reads分?jǐn)?shù)的異常峰來執(zhí)行細(xì)胞QC氮昧】蚨牛考慮這些共同的影響而不是單獨(dú)的考慮它們。
?盡可能地容忍QC閾值化袖肥，如果下游聚類無法解釋咪辱，則重新QC。
?如果QC變量在樣品之間的分布不同椎组，則應(yīng)針對(duì)每個(gè)樣品分別QC油狂，以解釋樣品質(zhì)量差異，如Plasschaert等(2018)寸癌。

Normalization

計(jì)數(shù)矩陣中的每個(gè)計(jì)數(shù)代表細(xì)胞 mRNA 分子的成功捕獲专筷、逆轉(zhuǎn)錄和測(cè)序（框 1）。由于每個(gè)步驟固有的變異性蒸苇，相同細(xì)胞的計(jì)數(shù)深度結(jié)果卻可能不同磷蛹。因此，當(dāng)基于計(jì)數(shù)數(shù)據(jù)比較細(xì)胞間的基因表達(dá)時(shí)溪烤，任何差異可能僅由采樣效應(yīng)（ sampling effects.）引起味咳。通過例如縮放（ sampling effects）計(jì)數(shù)數(shù)據(jù)以獲得正確的細(xì)胞間相對(duì)基因表達(dá)豐度來解決這一問題庇勃。

bulk RNA數(shù)據(jù)已有許多標(biāo)準(zhǔn)化方法 (preprint:Pachter,2011;Dillies et al,2013)。雖然其中一些方法已應(yīng)用于 scRNA-seq 分析槽驶，但單細(xì)胞數(shù)據(jù)特有的變異來源如技術(shù)脫落（technical dropouts ）（取樣導(dǎo)致的零計(jì)數(shù)责嚷，雙零問題）促使開發(fā)出了針對(duì) scRNA-seq 的標(biāo)準(zhǔn)化方法 (Lun et al,2016a；Vallejos et al,2017)掂铐。

最常用的規(guī)范化協(xié)議是 count depth scaling罕拂，也稱為每百萬計(jì)數(shù)或 CPM 規(guī)范化。該方案來自bulk 表達(dá)分析堡纬，并使用與每個(gè)細(xì)胞計(jì)數(shù)深度成比例的所謂大小因子對(duì)計(jì)數(shù)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化聂受。該方法的變體使用不同的因子或數(shù)據(jù)集中每個(gè)細(xì)胞的中位計(jì)數(shù)深度縮放。CPM 標(biāo)準(zhǔn)化假設(shè)數(shù)據(jù)集中的所有細(xì)胞最初包含相同數(shù)量的 mRNA 分子烤镐，計(jì)數(shù)深度差異僅由于取樣產(chǎn)生蛋济。該假設(shè)與下采樣（downsampling）方案相同，下采樣方案是從數(shù)據(jù)中隨機(jī)取樣讀取或計(jì)數(shù)炮叶，使所有細(xì)胞的計(jì)數(shù)預(yù)先規(guī)定的數(shù)量或更少碗旅。在下采樣丟掉數(shù)據(jù)的同時(shí)，也增加了技術(shù)脫落率镜悉，而 CPM 和其他全局縮放標(biāo)準(zhǔn)化方法則沒有祟辟。因此，下采樣可以提供類似計(jì)數(shù)深度下細(xì)胞表達(dá)譜的更真實(shí)表示侣肄。

由于單細(xì)胞數(shù)據(jù)集通常由具有不同大小和分子計(jì)數(shù)的異質(zhì)細(xì)胞群組成旧困，因此更復(fù)雜的標(biāo)準(zhǔn)化方法通常是合適的。例如稼锅，Weinreb et al (2018) 使用了 CPM 的簡(jiǎn)單延伸吼具，計(jì)算它們的大小因子時(shí)，排除了任何細(xì)胞中占總計(jì)數(shù)至少 5% 的基因矩距。這種方法考慮到了少數(shù)高表達(dá)基因的分子計(jì)數(shù)變異性拗盒。基于 Scran 合并的尺寸因素估計(jì)（pooling-based size factor estimation）方法允許更多的細(xì)胞異質(zhì)性 (Lun et al,2016a)锥债。細(xì)胞合并后陡蝇，根據(jù)基因的線性回歸估算大小因子，以避免技術(shù)脫落效應(yīng)哮肚。該方法將變異性限制在細(xì)胞間差異表達(dá)基因的 50% 以下登夫，并且在獨(dú)立比較中始終是性能最佳的標(biāo)準(zhǔn)化方法。經(jīng)證明允趟，Scran 在批次校正（ batch correction） (Buttner et al,2019) 和差異表達(dá)分析 (preprint：vith et al,2019) 方面的性能優(yōu)于其他檢測(cè)的歸一化方法恼策。在與原作者的小規(guī)模比較中，該方法也顯示出穩(wěn)健的尺寸因子估計(jì)值 (Vallejos et al,2017)拼窥。

CPM戏蔑、高計(jì)數(shù)過濾 CPM 和 scran 使用線性、全局縮放標(biāo)準(zhǔn)化計(jì)數(shù)數(shù)據(jù)鲁纠。還存在非線性歸一化方法总棵，可解釋更復(fù)雜的異質(zhì)性(Cole et al,2019)。許多方法涉及到計(jì)數(shù)資料的參數(shù)化建模改含。例如情龄，Mayer et al (2018) 使用技術(shù)變量（如測(cè)序深度和每個(gè)基因的計(jì)數(shù)數(shù)量）擬合負(fù)二項(xiàng)模型，以擬合模型參數(shù)捍壤。模型擬合的殘差作為基因表達(dá)的標(biāo)準(zhǔn)化定量骤视。這種方法可以將技術(shù)和生物數(shù)據(jù)校正（例如批次校正或細(xì)胞周期效應(yīng)校正）與計(jì)數(shù)深度歸一化相結(jié)合。已證明非線性歸一化方法優(yōu)于全局縮放方法鹃觉，尤其是在具有強(qiáng)批次效應(yīng)的情況下 (Cole et al,2019)专酗。因此，非線性歸一化方法對(duì)于基于平板的 scRNA-seq 數(shù)據(jù)尤其相關(guān)盗扇，這些數(shù)據(jù)往往在平板之間存在批次效應(yīng)祷肯。此外，與基于液滴的數(shù)據(jù)相比疗隶，基于平板的數(shù)據(jù)可顯示每個(gè)細(xì)胞計(jì)數(shù)深度的較大變化 (Svensson et al,2017)佑笋。雖然非線性歸一化方法或替代方法（例如下采樣）似乎更適合這些條件，但需要進(jìn)行比較研究來確認(rèn)該假設(shè)斑鼻。在本教程中蒋纬，我們傾向于將標(biāo)準(zhǔn)化和數(shù)據(jù)校正（批次校正、噪聲校正等）步驟分開坚弱，以強(qiáng)調(diào)數(shù)據(jù)的不同處理階段（參見預(yù)處理數(shù)據(jù)部分的階段）蜀备。因此，我們著重研究全局尺度歸一化方法（global scaling normalization）史汗。

我們不能期望單一的標(biāo)準(zhǔn)化方法適合所有類型的 scRNA-seq 數(shù)據(jù)琼掠。例如，vith et al (2017) 表明reads和計(jì)數(shù)數(shù)據(jù)可通過不同模型進(jìn)行最佳擬合停撞。事實(shí)上瓷蛙，Cole et al (2019) 發(fā)現(xiàn)沒有一種歸一化方法對(duì)不同的數(shù)據(jù)集表現(xiàn)都是最佳的，并認(rèn)為應(yīng)使用其 scone 工具為特定數(shù)據(jù)集選擇適當(dāng)?shù)臍w一化方法戈毒。此外艰猬，scRNA-seq 技術(shù)可分為全長(zhǎng)和 30 種富集方法 (Svensson et al,2017；Ziegenhain et al,2017)埋市。來自全長(zhǎng)方案的數(shù)據(jù)可能受益于考慮到基因長(zhǎng)度的標(biāo)準(zhǔn)化方法（例如 Patel et al,2014冠桃；Kowalczyk et al,2015；Soneson）

細(xì)胞計(jì)數(shù)數(shù)據(jù)可以歸一化道宅，使細(xì)胞間具有可比性食听，同樣胸蛛，基因計(jì)數(shù)也可以按比例調(diào)整，以改善基因間的比較樱报≡嵯睿基因歸一化構(gòu)成基因計(jì)數(shù)的標(biāo)度，使其均值和單位變異(z值)為零迹蛤。這種比例的變化影響了所有的基因下游分析的權(quán)重民珍。是否對(duì)基因進(jìn)行歸一化目前尚無共識(shí)。雖然流行的Seurat教程(Butler et al, 2018)通常應(yīng)用基因縮放（scaling,）盗飒，但Slingshot方法的作者在他們的教程中選擇不縮放基因(Street et al, 2018)嚷量。這兩種選擇之間的偏好圍繞著是否所有的基因都應(yīng)該在下游分析中得到同等的權(quán)重，或者一個(gè)基因的表達(dá)量是否代表了該基因的重要性逆趣。為了盡可能多地保留數(shù)據(jù)中的生物信息蝶溶，我們選擇在本教程中避免對(duì)基因進(jìn)行篩選。

歸一化后宣渗，數(shù)據(jù)矩陣通常是對(duì)數(shù) (+ 1) 轉(zhuǎn)換的身坐。這種轉(zhuǎn)變有三個(gè)重要作用。

首先落包，對(duì)數(shù)轉(zhuǎn)換的表達(dá)值之間的距離代表對(duì)數(shù)倍數(shù)變化部蛇，這是衡量表達(dá)變化的經(jīng)典方式。
其次咐蝇，對(duì)數(shù)轉(zhuǎn)換減輕（但不消除）單細(xì)胞數(shù)據(jù)中的均值方差關(guān)系 (Brennecke et al,2013)涯鲁。
最后，對(duì)數(shù)轉(zhuǎn)換降低了數(shù)據(jù)的偏斜度有序，以適用于假設(shè)數(shù)據(jù)呈正態(tài)分布的下游分析工具抹腿。

雖然 scRNA-seq 數(shù)據(jù)實(shí)際上不是對(duì)數(shù)正態(tài)分布 (Vieth et al,2017)，但這三種效應(yīng)使對(duì)數(shù)轉(zhuǎn)換成為一種粗糙但有用的工具旭寿。差異表達(dá)檢測(cè) (Finak et al,2015警绩；Ritchie et al,2015) 或批次校正 (Johnson et al,2006；Buttner et al,2019) 的下游應(yīng)用強(qiáng)調(diào)了這種有用性盅称，這些應(yīng)用將對(duì)數(shù)轉(zhuǎn)換用于這些目的肩祥。但是，應(yīng)該注意的是缩膝，歸一化數(shù)據(jù)的對(duì)數(shù)轉(zhuǎn)換可在數(shù)據(jù)中引入虛假差異表達(dá)效應(yīng)（預(yù)踊旌荨：Lun，2018）疾层。當(dāng)歸一化大小因子分布在試驗(yàn)組之間存在強(qiáng)烈差異時(shí)将饺，該效應(yīng)尤其明顯。

問題和建議:
?我們建議使用scran對(duì)非全長(zhǎng)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化。
另一種方法是通過scone評(píng)估基于平臺(tái)的數(shù)據(jù)集的標(biāo)準(zhǔn)化方法予弧。全長(zhǎng)scRNA-seq協(xié)議可以使用bulk 方法修正基因長(zhǎng)度刮吧。
?對(duì)于將基因的均值和單位方差縮放到0沒有共識(shí)。
我們寧愿不縮放基因表達(dá)（We prefer not to scale gene expression.）掖蛤。
?規(guī)范化的數(shù)據(jù)應(yīng)該是log(x+1)-轉(zhuǎn)換后用于假設(shè)數(shù)據(jù)是正態(tài)分布的下游分析方法皇筛。

Data correction and integration

如上所述的標(biāo)準(zhǔn)化試圖消除計(jì)數(shù)采樣的影響。但是坠七，歸一化數(shù)據(jù)仍可能包含不希望的變異性。數(shù)據(jù)進(jìn)一步的校正針對(duì)技術(shù)和生物學(xué)變量旗笔，如批次彪置、脫落或細(xì)胞周期效應(yīng)。這些變量并不總是進(jìn)行校正蝇恶。相反拳魁，決定考慮哪些變量將取決于預(yù)期的下游分析。我們建議分別考慮生物和技術(shù)變量的校正撮弧，因?yàn)檫@些變量用于不同的目的潘懊，并且存在獨(dú)特的挑戰(zhàn)。

Regressing out biological effects

校正技術(shù)變量（covariates）對(duì)于揭示潛在生物信號(hào)至關(guān)重要贿衍，校正生物變量對(duì)于挑選出關(guān)注的特定生物信號(hào)更加重要授舟。最常見的生物數(shù)據(jù)校正是去除細(xì)胞周期對(duì)轉(zhuǎn)錄組的影響。該數(shù)據(jù)校正可通過 Scanpy 和 Seurat 平臺(tái) (Butler et al,2018贸辈；Wolf et al,2018) 或具有更復(fù)雜混合模型（如 scLVM (Buettner et al,2015) 或 fscLVM (Buettner et al,2017)）的專門包裝中實(shí)施的細(xì)胞周期評(píng)分的簡(jiǎn)單線性回歸進(jìn)行释树。用于計(jì)算細(xì)胞周期評(píng)分的標(biāo)記基因列表來自文獻(xiàn) (Macosko et al,2015)。這些方法也可用于回歸其他已知的生物學(xué)效應(yīng)如線粒體基因表達(dá)擎淤，其被解釋為細(xì)胞應(yīng)激的指征奢啥。

在校正生物學(xué)效應(yīng)數(shù)據(jù)之前，應(yīng)考慮幾個(gè)方面嘴拢。

首先桩盲，校正生物學(xué)變量并不總是有助于解讀 scRNA-seq 數(shù)據(jù)。雖然去除細(xì)胞周期效應(yīng)可改善發(fā)育軌跡的推斷 (Buettner et al,2015席吴；Vento-Tormo et al,2018)赌结，但細(xì)胞周期信號(hào)也可提供生物學(xué)信息。例如孝冒，可根據(jù)細(xì)胞周期評(píng)分確定增殖細(xì)胞群（參見 github 項(xiàng)目的個(gè)案研究）姑曙。
生物信號(hào)必須在語境中理解。鑒于生物過程發(fā)生在同一生物體內(nèi)迈倍，這些過程之間存在依賴性伤靠。因此，糾正一個(gè)過程可能無意中掩蓋另一個(gè)過程的信號(hào)。
最后宴合，有人認(rèn)為焕梅，細(xì)胞大小的變化解釋了通常歸因于細(xì)胞周期的轉(zhuǎn)錄組效應(yīng) (McDavid et al,2016)。因此卦洽，通過標(biāo)準(zhǔn)化校正細(xì)胞大小贞言，或?qū)Ｓ霉ぞ呷?cgCorrect (Blasi et al,2017)，也部分校正了 scRNA-seq 數(shù)據(jù)中的細(xì)胞周期影響阀蒂。

Regressing out technical effects

用于回歸生物學(xué)變量的回歸模型變量也可應(yīng)用于技術(shù)變量该窗。單細(xì)胞數(shù)據(jù)中最顯著的技術(shù)變量是計(jì)數(shù)深度和批次。盡管標(biāo)準(zhǔn)化比例計(jì)數(shù)數(shù)據(jù)使細(xì)胞之間的基因計(jì)數(shù)相當(dāng)蚤霞，但計(jì)數(shù)深度效應(yīng)通常保留在數(shù)據(jù)中酗失。這種計(jì)數(shù)深度效應(yīng)既可以是生物的，也可以是技術(shù)的昧绣。例如规肴，細(xì)胞可能大小不同，因此 mRNA 分子計(jì)數(shù)也不同夜畴。然而拖刃，歸一化后的技術(shù)計(jì)數(shù)效應(yīng)可能仍然存在，因?yàn)闆]有縮放方法可以推斷由于采樣不佳而未檢測(cè)到的基因的表達(dá)值贪绘《夷担回歸出計(jì)數(shù)深度效應(yīng)可以提高軌跡推理算法的性能，它依賴于找到cell之間的轉(zhuǎn)換（參見 project github 的案例研究）税灌。當(dāng)校正多個(gè)變量（例如发绢，細(xì)胞周期和計(jì)數(shù)深度）時(shí)，應(yīng)在一個(gè)步驟中對(duì)所有變量進(jìn)行回歸垄琐，以考慮變量之間的依賴性边酒。

另一種基于回歸的消除計(jì)數(shù)影響的策略是使用更嚴(yán)格的標(biāo)準(zhǔn)化過程，如下采樣或非線性標(biāo)準(zhǔn)化方法（參見標(biāo)準(zhǔn)化部分）狸窘。這些方法可能特別適用于基于平板（plate-based ）的 scRNA-seq 數(shù)據(jù)集墩朦，其中每個(gè)細(xì)胞計(jì)數(shù)深度的較大變化可以掩蓋細(xì)胞之間的異質(zhì)性。

Batch effects and data integration

當(dāng)細(xì)胞以不同的分組處理時(shí)翻擒，可能發(fā)生批次效應(yīng)氓涣。批次效應(yīng)可以由不同芯片上的細(xì)胞、不同測(cè)序泳道中的細(xì)胞或不同時(shí)間收獲的細(xì)胞組成陋气。細(xì)胞經(jīng)歷的不同環(huán)境會(huì)對(duì)轉(zhuǎn)錄組的測(cè)量或轉(zhuǎn)錄組本身產(chǎn)生影響劳吠。產(chǎn)生的影響存在于多個(gè)層面：實(shí)驗(yàn)中的細(xì)胞組之間、在同一實(shí)驗(yàn)室進(jìn)行的實(shí)驗(yàn)之間或來自不同實(shí)驗(yàn)室的數(shù)據(jù)集之間巩趁。

在這里痒玩，我們區(qū)分前兩個(gè)和后兩個(gè)場(chǎng)景。

在相同的實(shí)驗(yàn)中校正樣品或細(xì)胞之間的批次效應(yīng)是經(jīng)典的來自 bulk RNA-seq 的批次校正（Batch effects）。
我們將這與多次實(shí)驗(yàn)的數(shù)據(jù)整合區(qū)分開來蠢古，我們稱之為數(shù)據(jù)整合（data integration）奴曙。雖然批效應(yīng)通常使用線性方法校正，但一般使用非線性方法進(jìn)行數(shù)據(jù)整合草讶。

最近對(duì)經(jīng)典批次校正方法的比較顯示洽糟，ComBat (Johnson et al,2006) 在低至中等復(fù)雜度的單細(xì)胞實(shí)驗(yàn)中也表現(xiàn)良好 (Buttner et al,2019)。ComBat 由基因表達(dá)的線性模型組成堕战，其中在數(shù)據(jù)的平均值和方差中均考慮了批次貢獻(xiàn)（圖 3）坤溃。不考慮計(jì)算方法，**批量校正的最佳方法是通過巧妙的實(shí)驗(yàn)設(shè)計(jì)預(yù)先消除影響并完全避免影響 **(Hicks et al,2017)嘱丢。通過合并實(shí)驗(yàn)條件和樣品中的細(xì)胞薪介，可避免批次效應(yīng)。使用諸如細(xì)胞標(biāo)記 (preprint:Gehring et al,2018) 或通過遺傳變異 (Kang et al,2018) 等策略屿讽，可能分離實(shí)驗(yàn)中合并的細(xì)胞。

圖3吠裆。批次校正前后的UMAP可視化伐谈。細(xì)胞按樣本著色。批次的分離在批次校正前清晰可見试疙，批次校正后不明顯诵棵。批次校正使用 Haber等(2017)對(duì)小鼠腸道上皮細(xì)胞的影響。

與批次校正相比祝旷，面臨的另一個(gè)挑戰(zhàn)是整合不同的數(shù)據(jù)集履澳。估計(jì)批效應(yīng)時(shí)，ComBat 使用一批中的所有細(xì)胞來擬合批次參數(shù)怀跛。這種方法將混淆批處理效應(yīng)與細(xì)胞類型或數(shù)據(jù)集之間不相同狀態(tài)之間的生物學(xué)差異距贷。為克服該問題，開發(fā)了典型相關(guān)分析 (CCA吻谋；Butler et al,2018)忠蝗、相互最近鄰 (MNN；Haghverdi et al,2018)漓拾、Scanorama（預(yù)痈笞睢：Hie et al,2018）、RISC（預(yù)雍Я健：Liu et al,2018）速种、scGen（預(yù)印：Lotfollahi et al,2018）低千、LIGER（預(yù)优湔蟆：Welch et al,2018）、BBKNN（預(yù)打印：Park et al,2018）和 Harmony（預(yù)打诱⒉汀：Korsunsky et al,2018）等數(shù)據(jù)整合方法饱亮。數(shù)據(jù)整合方法雖然也可以應(yīng)用于簡(jiǎn)單的批次校正問題，但考慮到非線性數(shù)據(jù)集成方法的自由度增加舍沙，我們建議警惕過度修正近上。例如，在更簡(jiǎn)單的批次校正設(shè)置中拂铡，MNN 的表現(xiàn)優(yōu)于 ComBat (Buttner et al,2019)壹无。需要對(duì)數(shù)據(jù)整合和批次校正方法進(jìn)行進(jìn)一步比較研究，以評(píng)估這些方法的應(yīng)用范圍感帅。

Expression recovery

另一種類型的技術(shù)數(shù)據(jù)校正是表達(dá)恢復(fù)（expression recovery）（也就是去噪或插補(bǔ)）斗锭。單細(xì)胞轉(zhuǎn)錄組的測(cè)量包含各種噪聲 (Gru net al,2014；Kharchenko et al,2014失球；Hicks et al,2017)岖是。這種噪音的一個(gè)特別突出的方面是dropout。推斷dropout事件实苞，用合適的表達(dá)值替換這些零豺撑，減少數(shù)據(jù)集中的噪聲，一直是幾個(gè)最新工具（MAGIC：van Dijk et al,2018黔牵；DCA：Eraslan et al,2019聪轿；scVI：Lopez et al,2018；SAVER：Huang et al,2018猾浦；scImpute：Li& Li, 2018).已證明執(zhí)行表達(dá)恢復(fù)可改善基因相關(guān)性估計(jì) (van Dijk et al,2018陆错；Eraslan et al,2019)。此外金赦，該步驟可與歸一化音瓷、批次校正和 scVI 工具中實(shí)施的其他下游分析整合 (Lopez et al,2018)。雖然大多數(shù)數(shù)據(jù)校正方法以歸一化數(shù)據(jù)作為輸入夹抗，但一些表達(dá)式恢復(fù)方法是基于預(yù)期負(fù)二項(xiàng)分布噪聲外莲，因此在原始計(jì)數(shù)數(shù)據(jù)上運(yùn)行。應(yīng)用表達(dá)恢復(fù)時(shí)兔朦，應(yīng)考慮到?jīng)]有一種方法是完美的偷线。因此，任何方法均可能導(dǎo)致數(shù)據(jù)中的噪聲過度校正或校正不足沽甥。事實(shí)上声邦，表達(dá)恢復(fù)的結(jié)果報(bào)告了假相關(guān)信號(hào)（Andrews & Hemberg, 2018).考慮到在實(shí)際應(yīng)用中評(píng)估成功的表達(dá)恢復(fù)的難度，這個(gè)場(chǎng)景對(duì)考慮是否消噪的用戶來說是一個(gè)挑戰(zhàn)摆舟。此外亥曹，對(duì)于當(dāng)前可用的表達(dá)式恢復(fù)方法邓了，大型數(shù)據(jù)集的可伸縮性仍然是一個(gè)問題。鑒于這些考慮媳瞪，目前對(duì)于如何使用消噪數(shù)據(jù)尚未達(dá)成共識(shí)（見處理數(shù)據(jù)章節(jié)的階段）骗炉。謹(jǐn)慎的方法是僅將表達(dá)恢復(fù)用于數(shù)據(jù)的直觀顯示，而不是在探索性數(shù)據(jù)分析過程中應(yīng)用之蛇受。這里徹底的實(shí)驗(yàn)驗(yàn)證尤為重要句葵。

問題和建議:
?回歸出(Regress out )生物變量只是為了軌跡推斷，其他生物過程被沒有回歸出的生物協(xié)變量所掩蓋兢仰。
?同時(shí)考慮回歸技術(shù)和生物變量乍丈，而不是針對(duì)某項(xiàng)回歸。
?基于平臺(tái)的數(shù)據(jù)預(yù)處理可能需要回歸計(jì)數(shù)把将，通過非線性歸一化方法進(jìn)行歸一化或向下采樣轻专。
?當(dāng)cell類型和批次之間的狀態(tài)成分一致時(shí)，我們建議通過ComBat進(jìn)行批次校正
?數(shù)據(jù)整合和批次校正應(yīng)通過不同方法進(jìn)行察蹲。數(shù)據(jù)集成工具可能過度糾正簡(jiǎn)單的批處理效應(yīng)请垛。
?用戶應(yīng)謹(jǐn)慎對(duì)待僅在表達(dá)恢復(fù)后發(fā)現(xiàn)的信號(hào)。最好不使用該步驟進(jìn)行探索性分析洽议。

Feature selection, dimensionality reduction and visualization

一個(gè)人類的單細(xì)胞 RNA-seq 數(shù)據(jù)集可以包含多達(dá) 25,000 個(gè)基因的表達(dá)值宗收。這些基因中的許多基因?qū)τ诮o定的 scRNA-seq 數(shù)據(jù)集不會(huì)提供有價(jià)值的信息，許多基因?qū)⒋蟛糠职阌?jì)數(shù)绞铃。即使在 QC 步驟中過濾掉這些零計(jì)數(shù)基因后镜雨，單細(xì)胞數(shù)據(jù)集的特征空間也可以有超過 15000 個(gè)維度嫂侍。為了減輕下游分析工具的計(jì)算負(fù)擔(dān)儿捧，減少數(shù)據(jù)中的噪聲，并使數(shù)據(jù)可視化挑宠，可以使用幾種方法降低數(shù)據(jù)集的維數(shù)菲盾。

Feature selection

scRNA-seq 數(shù)據(jù)集降維的第一步通常是特征選擇。在此步驟中各淀，將篩選數(shù)據(jù)集僅保留可提供數(shù)據(jù)變異性信息的基因懒鉴。因此，通常使用高度可變基因 (HVG) (Brennecke et al,2013)。根據(jù)任務(wù)和數(shù)據(jù)集的復(fù)雜性，通常選擇 1,000 至 5,000 個(gè) HVG 用于下游分析（見圖 EV1 和數(shù)據(jù)集 EV1）爵政。Klein et al (2015) 的初步結(jié)果表明前计，下游分析對(duì) HVG 數(shù)量的準(zhǔn)確選擇具有穩(wěn)健性。在 200 到 2400 之間變化 HVGs 數(shù)量時(shí)间螟，作者報(bào)告了 PCA 空間中類似的低維表示。基于這一結(jié)果抄课，我們寧愿選擇更高數(shù)量的HVGs唱星。

Dimensionality reduction

特征選擇后，單細(xì)胞表達(dá)矩陣的維數(shù)可以通過專門的降維算法進(jìn)一步降低跟磨。這些算法將表達(dá)式矩陣嵌入到一個(gè)低維空間中间聊，目的是在盡可能少的維度中捕獲數(shù)據(jù)中的底層結(jié)構(gòu)。這種方法的工作原理是單細(xì)胞 RNA-seq 數(shù)據(jù)本身就是低維的 (Heimberg et al,2016)抵拘。換句話說哎榴，細(xì)胞表達(dá)譜所在的生物流形可以用比基因數(shù)量少得多的維度來充分描述。降維旨在找出這些維度仑濒。

降維方法主要有兩個(gè)目標(biāo)：可視化和提取主要變化叹话。可視化是嘗試以二維或三維的方式對(duì)數(shù)據(jù)集進(jìn)行最佳描述墩瞳。這些縮小的尺寸用作散點(diǎn)圖上的坐標(biāo)驼壶，以獲得數(shù)據(jù)的直觀表示。相反喉酌，對(duì)于描述數(shù)據(jù)中存在的變異性热凹，較高的組分變得不太重要。摘要技術(shù)可以通過找到數(shù)據(jù)的固有維數(shù)泪电，將數(shù)據(jù)簡(jiǎn)化為其基本組成部分般妙，因此有助于下游分析。雖然 2 維可視化輸出不應(yīng)用于匯總數(shù)據(jù)集相速，但可以使用匯總方法碟渺，使用領(lǐng)先的縮減組件對(duì)數(shù)據(jù)進(jìn)行可視化，專門的可視化技術(shù)通惩晃埽可以更好地表示變異性苫拍。

通過特征空間維度（基因表達(dá)載體）的線性或非線性組合減少維度。特別是在非線性的情況下旺隙，在這個(gè)過程中犧牲了降維的可解釋性绒极。一些常用的降維方法的應(yīng)用示例如圖 4 所示。隨著越來越多的方法可供選擇蔬捷，詳細(xì)回顧這些方法超出了本教程的范圍垄提。我們簡(jiǎn)要概述了可能幫助用戶在常用降維方法之間進(jìn)行選擇的實(shí)際考慮。Moon et al (2018) 提供了單細(xì)胞分析降維的更詳細(xì)綜述周拐。

圖 4. scRNA-seq 數(shù)據(jù)的常見可視化方法铡俐。mhaber et al (2017) 提供的小鼠腸上皮區(qū)域數(shù)據(jù)顯示了前兩個(gè)組件：(A) PCA，(B) t-SNE妥粟，(C) 擴(kuò)散圖审丘，(D) UMAP 和 (E) 通過 ForceAtlas 2 的力導(dǎo)向圖布局。根據(jù)計(jì)數(shù)深度對(duì)細(xì)胞進(jìn)行染色罕容。(F) 前 31 個(gè)主成分 (PC) 解釋的方差备恤。該圖用于選擇相關(guān) PC 分析數(shù)據(jù)集稿饰，位于 PC 5 和 7 之間。

兩種流行的降維技術(shù)（主要是總結(jié)方法）是主成分分析 (PCA露泊；Pearson喉镰，1901) 和擴(kuò)散圖（diffusion maps ）（Coifman 等，2005）惭笑，Haghverdi 等 (2015) 推廣用于單細(xì)胞分析侣姆。主成分分析是一種線性方法，通過最大化每個(gè)進(jìn)一步維度中捕獲的殘差來生成降維沉噩。盡管 PCA 并不像非線性方法那樣能夠捕獲很少維度的數(shù)據(jù)結(jié)構(gòu)捺宗，但它是目前許多可用的聚類或軌跡推斷分析工具的基礎(chǔ)。PCA 是一種常用的非線性降維預(yù)處理方法川蒙。通常蚜厉，PCA 通過其前 N 個(gè)主成分匯總數(shù)據(jù)集，其中 N 可以通過肘部啟發(fā)式（見圖 4F）或基于置換測(cè)試的 jackstraw 方法（Chung Storey, 2015; Macosko et al, 2015).PCA 的簡(jiǎn)單線性的優(yōu)點(diǎn)是在減少的維空間距離在這個(gè)空間的所有區(qū)域有一致的解釋畜眨。因此昼牛，我們可以將感興趣的數(shù)量與主成分相關(guān)聯(lián)來評(píng)估它們的重要性。例如康聂，主成分可以投影到技術(shù)干擾協(xié)變量上贰健，以研究 QC 的性能、數(shù)據(jù)校正和標(biāo)準(zhǔn)化步驟 (Buttner et al,2019)恬汁，或顯示基因在數(shù)據(jù)集中的重要性 (Chung et al,2019)伶椿。由于擴(kuò)散成分強(qiáng)調(diào)的是數(shù)據(jù)中的轉(zhuǎn)換，它們主要用于連續(xù)過程（如差異）感興趣的情況氓侧。通常脊另，每個(gè)擴(kuò)散組分（即擴(kuò)散圖維度）突出顯示不同細(xì)胞群的異質(zhì)性。

Visualization

出于可視化目的甘苍，使用非線性降維方法是標(biāo)準(zhǔn)實(shí)踐（圖 4）尝蠕。scRNA-seq 可視化最常用的降維方法是 t 分布隨機(jī)鄰域嵌入（t-SNE烘豌；van derMaaten & Hinton, 2008)载庭。t-SNE 降維以全局結(jié)構(gòu)為代價(jià)來獲取局部相似性。因此廊佩，這些可視化可能夸大細(xì)胞群體之間的差異囚聚，并忽略這些群體之間的潛在聯(lián)系。另一個(gè)困難是選擇其復(fù)雜度參數(shù)标锄，因?yàn)?t-SNE 圖可能顯示不同數(shù)值的簇 (Wattenberg et al,2016)顽铸。t-SNE 常用的替代方法是UMAP（預(yù)本： McInnes & Healy, 2018) 或者基于圖的工具，如 SPRING (Weinreb et al,2018)料皇。UMAP 和彈簧力導(dǎo)向布局算法 ForceAtlas2 可以說是底層拓?fù)涞淖罴呀浦担╓olf et al,2019,Supplemental Note 4)谓松。該比較中 UMAP 的不同之處在于其擴(kuò)展至大量細(xì)胞的速度和能力 (Becht et al,2018)星压。因此，在沒有特殊生物學(xué)問題的情況下鬼譬，我們將 UMAP 視為探索性數(shù)據(jù)可視化的最佳實(shí)踐娜膘。而且，UMAP 還可以在兩個(gè)以上維度匯總數(shù)據(jù)优质。雖然我們不知道 UMAP 在數(shù)據(jù)匯總中的任何應(yīng)用竣贪，但它可能證明是 PCA 的合適替代方法。

細(xì)胞水平上經(jīng)典可視化的替代方法是基于分區(qū)的圖形抽象 (PAGA巩螃；Wolf et al演怎，2019)。該工具已被證明可以充分近似數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)避乏，同時(shí)使用集群粗烈化可視化。結(jié)合上述任何一種可視化方法拍皮，PAGA 都會(huì)產(chǎn)生粗粒度的可視化畏纲，這可以簡(jiǎn)化單細(xì)胞數(shù)據(jù)的解釋，尤其是用大量細(xì)胞的時(shí)候春缕。

問題和建議:
?我們建議根據(jù)數(shù)據(jù)集的復(fù)雜性選擇1000到5000個(gè)高度可變的基因盗胀。
?當(dāng)基因表達(dá)值被歸一化為零均值和單位方差時(shí)，或當(dāng)模型擬合的殘差被歸一化表達(dá)值時(shí)锄贼，不能使用使用基因表達(dá)均值和方差的特征選擇方法票灰。因此，在選擇HVGs之前宅荤，必須考慮要進(jìn)行什么預(yù)處理屑迂。
?應(yīng)分別考慮降維方法進(jìn)行總結(jié)和可視化。
?我們推薦使用 UMAP 進(jìn)行探索性可視化冯键；使用 PCA 進(jìn)行一般性總結(jié)惹盼；使用擴(kuò)散圖替代 PCA 進(jìn)行軌跡推斷總結(jié)。
?具有 UMAP 的 PAGA 是可視化特別復(fù)雜數(shù)據(jù)集的合適替代方案惫确。

Stages of pre-processed data

雖然我們已經(jīng)將 scRNAseq 中常見的預(yù)處理步驟概述為上述工作流程手报，但下游分析通常傾向于采用不同水平的預(yù)處理數(shù)據(jù)，建議根據(jù)下游應(yīng)用調(diào)整預(yù)處理改化。為了向新用戶闡明這種情況掩蛤，我們將預(yù)處理劃分為 5 個(gè)數(shù)據(jù)處理階段：

(i) 原始數(shù)據(jù)，
(ii) 標(biāo)準(zhǔn)化數(shù)據(jù)陈肛，
(iii) 校正數(shù)據(jù)揍鸟，
(iv) 特征選擇數(shù)據(jù)，
(v) 降維數(shù)據(jù)句旱。

這些數(shù)據(jù)處理階段分為三個(gè)預(yù)處理層：

測(cè)量數(shù)據(jù)阳藻、
校正數(shù)據(jù)和
縮減數(shù)據(jù)（降維）晰奖。

應(yīng)始終進(jìn)行細(xì)胞和基因 QC，因此從此處省略腥泥。而這些處理層的順序代表了 scRNA-seq 分析中的典型工作流程畅涂，也可以跳過某個(gè)處理層或者在處理階段的順序上有輕微的改變。例如道川，對(duì)于單批數(shù)據(jù)集午衰，可能不需要進(jìn)行數(shù)據(jù)校正。在表 1 中冒萄，我們總結(jié)了每一層預(yù)處理數(shù)據(jù)的適當(dāng)下游應(yīng)用臊岸。

表1

表 1 預(yù)處理階段分為實(shí)測(cè)數(shù)據(jù)、校正數(shù)據(jù)和縮減數(shù)據(jù) 3 組尊流。我們將測(cè)量數(shù)據(jù)定義為原始數(shù)據(jù)和保留零結(jié)構(gòu)的處理數(shù)據(jù)帅戒。通過使用cell特定因子縮放計(jì)數(shù)數(shù)據(jù)，全局縮放規(guī)范化方法即使在 log (+ 1)轉(zhuǎn)換之后也保留 0 表達(dá)值崖技。相反逻住，糾正不需要的變異性數(shù)據(jù)替代零表達(dá)值。校正后的數(shù)據(jù)層代表數(shù)據(jù)的最干凈版本迎献，是基礎(chǔ)生物信號(hào)的最接近近似值瞎访。我們稱最后的預(yù)處理層為縮減數(shù)據(jù)。該數(shù)據(jù)層強(qiáng)調(diào)數(shù)據(jù)的主要方面吁恍，可以使用簡(jiǎn)化的功能集進(jìn)行描述扒秸。

上述特征決定了預(yù)處理數(shù)據(jù)對(duì)于特定下游應(yīng)用的適用性。作為最后的預(yù)處理階段冀瓦，縮減數(shù)據(jù)將是廣泛適用的數(shù)據(jù)層的候選伴奥。然而，差異表達(dá)檢測(cè)僅在基因空間中進(jìn)行生物學(xué)解釋翼闽，未（完全）用簡(jiǎn)化數(shù)據(jù)表示拾徙。約簡(jiǎn)數(shù)據(jù)的作用在于生物學(xué)的總結(jié)和噪聲的減少，可能掩蓋生物信號(hào)感局。因此尼啡，縮減數(shù)據(jù)用于需要數(shù)據(jù)總結(jié)（可視化、鄰域圖推理蓝厌、聚類）的探索性方法和計(jì)算復(fù)雜的下游分析工具（軌跡推理）玄叠。的確古徒，許多軌跡推理方法在工具本身中加入了降維過程拓提。

單個(gè)基因的表達(dá)譜只能在基因空間中進(jìn)行比較，在測(cè)量和校正數(shù)據(jù)中捕獲隧膘。表達(dá)譜的比較可以通過可視化和統(tǒng)計(jì)學(xué)進(jìn)行代态。我們認(rèn)為應(yīng)該對(duì)不同的數(shù)據(jù)層進(jìn)行可視化和統(tǒng)計(jì)比較寺惫。基因表達(dá)的目測(cè)檢查蹦疑，校正數(shù)據(jù)最為合適西雀。如果提供原始數(shù)據(jù)進(jìn)行可視化比較，則要求用戶固有地理解數(shù)據(jù)中的偏倚歉摧，以解釋結(jié)果艇肴，校正數(shù)據(jù)有助于這種解釋。然而叁温，此處應(yīng)單獨(dú)考慮技術(shù)和生物學(xué)變量的校正數(shù)據(jù)再悼。對(duì)生物變量的校正可能增加特定生物信號(hào)的強(qiáng)度，也將掩蓋可能相關(guān)的其他信號(hào)膝但。因此冲九，生物校正數(shù)據(jù)主要適用于關(guān)注特定生物過程（如軌跡推理方法）的分析工具。

基因表達(dá)的統(tǒng)計(jì)學(xué)比較在測(cè)量數(shù)據(jù)層上最合適跟束。沒有完美的數(shù)據(jù)校正方法可用于消噪莺奸、批次校正或其他變異來源的校正。因此冀宴，數(shù)據(jù)校正方法不可避免地對(duì)數(shù)據(jù)進(jìn)行了過高或過低的校正灭贷，因此以一種非預(yù)期的方式改變了至少一些基因表達(dá)譜的方差÷灾基因表達(dá)的統(tǒng)計(jì)檢驗(yàn)依賴于評(píng)估背景方差氧腰，作為數(shù)據(jù)中噪聲的無效模型。由于數(shù)據(jù)校正傾向于減少背景變異（圖 EV2）刨肃，背景變異被數(shù)據(jù)校正方法過度校正的基因?qū)⒏赡鼙辉u(píng)估為顯著差異表達(dá)古拴。此外，某些數(shù)據(jù)校正方法（例如 ComBat）將不符合實(shí)驗(yàn)設(shè)計(jì)的表達(dá)信號(hào)解釋為噪聲真友，隨后從數(shù)據(jù)中刪除黄痪。除了低估噪聲外，這種實(shí)驗(yàn)設(shè)計(jì)信號(hào)的優(yōu)化會(huì)導(dǎo)致高估效應(yīng)量盔然。鑒于這些考慮桅打，使用測(cè)量數(shù)據(jù)作為輸入，而不是使用校正數(shù)據(jù)愈案，構(gòu)成了對(duì)差異試驗(yàn)更保守的方法挺尾。使用測(cè)量數(shù)據(jù)，在差異檢驗(yàn)?zāi)Ｐ椭锌梢圆⑶覒?yīng)該考慮技術(shù)變量站绪。

上述觀點(diǎn)得到了最近一次scRNA-seq差異分析方法比較的支持遭铺，該方法僅使用原始數(shù)據(jù)和規(guī)范化數(shù)據(jù)作為輸入(Soneson & Robinson, 2018)。本研究使用的歸一化數(shù)據(jù)僅圍繞全局標(biāo)度方法。然而魂挂，目前許多可用的非線性歸一化方法模糊了歸一化和數(shù)據(jù)校正之間的界限(參見“歸一化”一節(jié))甫题。這種標(biāo)準(zhǔn)化的數(shù)據(jù)可能不再適合作為差異分析的輸入。

問題和建議:
?使用測(cè)量數(shù)據(jù)（measured data）進(jìn)行統(tǒng)計(jì)檢驗(yàn)涂召，根據(jù)發(fā)現(xiàn)的生物數(shù)據(jù)流形坠非，對(duì)數(shù)據(jù)進(jìn)行可視化比較時(shí)使用修正數(shù)據(jù)（corrected data ），對(duì)其他下游分析時(shí)使用簡(jiǎn)化數(shù)據(jù)（ reduced data ）果正。

Downstream analysis

預(yù)處理后炎码，我們稱之為下游分析的方法被用于提取生物學(xué)見解并描述潛在的生物學(xué)系統(tǒng)。這些描述是通過擬合數(shù)據(jù)的可解釋模型獲得的秋泳。這些模型的例子是

具有相似基因表達(dá)譜的細(xì)胞群代表細(xì)胞類型簇辅肾；
相似細(xì)胞之間基因表達(dá)的微小變化表示連續(xù)（分化）軌跡；
或具有相關(guān)表達(dá)譜的基因表明其共同調(diào)節(jié)作用轮锥。

下游分析可分為細(xì)胞水平和基因水平的方法矫钓，如圖 5 所示。細(xì)胞水平的分析通常集中于兩種結(jié)構(gòu)的描述：簇和軌跡舍杜。這些結(jié)構(gòu)又可以在細(xì)胞和基因水平上進(jìn)行分析新娜，從而形成聚類分析和軌跡分析方法。

圖 5. 下游分析方法概述既绩。方法分為細(xì)胞水平和基因水平分析概龄。細(xì)胞水平分析方法再次細(xì)分為聚類分析和軌跡分析分支，這也包括基因水平分析方法饲握。所有藍(lán)色背景的方法都是基因水平的方法私杜。

大體上，聚類分析方法試圖根據(jù)細(xì)胞的聚類來解釋數(shù)據(jù)的異質(zhì)性救欧。相比之下衰粹，在軌跡分析中，數(shù)據(jù)被視為動(dòng)態(tài)過程的快照映射笆怠。在這里铝耻，我們描述了細(xì)胞和基因水平的群集和軌跡分析工具，在詳細(xì)描述獨(dú)立于這些細(xì)胞結(jié)構(gòu)進(jìn)行的基因水平分析之前蹬刷。

Cluster analysis

將細(xì)胞聚類通常是任何單細(xì)胞分析的第一個(gè)中間結(jié)果瓢捉，簇允許我們推斷細(xì)胞類型。根據(jù)細(xì)胞基因表達(dá)譜的相似性對(duì)細(xì)胞進(jìn)行分組办成，得到細(xì)胞簇泡态。通過距離度量來確定表達(dá)譜相似性，通常將降維結(jié)果作為輸入迂卢。相似性評(píng)分的一個(gè)常見示例是歐幾里德距離某弦，該距離在 PC 縮減的表達(dá)空間上計(jì)算桐汤。目前主要有兩種方法聚類產(chǎn)生細(xì)胞簇：聚類算法和社區(qū)檢測(cè)算法（community detection）。

聚類是一種經(jīng)典的無監(jiān)督機(jī)器學(xué)習(xí)方法刀崖，直接基于距離矩陣惊科。通過最小化簇內(nèi)距離或在減少的表達(dá)空間中找到致密區(qū)域拍摇，將細(xì)胞分配給 clusers亮钦。流行的 k-means 聚類算法通過確定簇中心并將細(xì)胞分配到最近的簇中心，迭代優(yōu)化質(zhì)心位置充活，將細(xì)胞分為 k 個(gè)簇(MacQueen蜂莉，1967)。這種方法需要輸入預(yù)期的簇?cái)?shù)量混卵，通常是未知的映穗，必須進(jìn)行啟發(fā)式校準(zhǔn)。k-means 應(yīng)用于單細(xì)胞數(shù)據(jù)的距離指標(biāo)各不相同幕随。標(biāo)準(zhǔn)歐氏距離的替代方法包括余弦相似性 (Haghverdi et al,2018)蚁滋、基于相關(guān)性的距離度量 (Kim et al,2018) 或 SIMLR 方法，該方法使用高斯核學(xué)習(xí)每個(gè)數(shù)據(jù)集的距離度量 (Wang et al,2017)赘淮。最近的一項(xiàng)比較表明辕录，當(dāng)使用 k-means或作為高斯核的基礎(chǔ)時(shí)，基于相關(guān)的距離可能優(yōu)于其他距離指標(biāo) (Kim et al,2018)梢卸。

社區(qū)檢測(cè)方法是圖聚類算法（graph-partitioning algorithms）走诞，依賴于單細(xì)胞數(shù)據(jù)的圖表示。這個(gè)圖的表示是使用 K 最近鄰方法（KNN 圖）蛤高。圖中將細(xì)胞表示為節(jié)點(diǎn)蚣旱，每個(gè)細(xì)胞與其 K 個(gè)最相似的細(xì)胞相連，這些細(xì)胞通常使用歐氏距離在 PC 縮減的表達(dá)空間上獲得戴陡。根據(jù)數(shù)據(jù)集的大小塞绿，K 通常設(shè)置在 5 到 100 個(gè)最近的鄰居之間。所得圖表獲取了表達(dá)數(shù)據(jù)的基礎(chǔ)拓?fù)浣Y(jié)構(gòu) (Wolf et al,2019)恤批。表達(dá)空間的密集采樣區(qū)域表示為圖的密集連通區(qū)域位隶。使用社區(qū)檢測(cè)方法檢測(cè)這些密集區(qū)。社區(qū)檢測(cè)通常比一般的聚類更快开皿，因?yàn)橹挥邢噜彽募?xì)胞對(duì)必須被認(rèn)為屬于同一個(gè)集群涧黄。這種方法大大減少了可能群的搜索空間。

在首創(chuàng)表型法（PhenoGraph method） (Levine et al,2015) 后赋荆，單細(xì)胞數(shù)據(jù)集的標(biāo)準(zhǔn)聚類方法已成為多分辨率模塊優(yōu)化(Newman & Girvan笋妥，2004;如Louvain算法(Blondel et al, 2008)實(shí)現(xiàn)在單細(xì)胞KNN圖上。已經(jīng)成為Scanpy和Seurat單細(xì)胞分析平臺(tái)中默認(rèn)聚類的方法窄潭。已有研究表明春宣，它在單細(xì)胞RNA- seq數(shù)據(jù)聚類方面優(yōu)于其他聚類方法(Duo ' et al, 2018;(Freytag et al, 2018)。

從概念上講，Louvain 算法將社區(qū)檢測(cè)為一組單元月帝，它們之間的鏈接比從單元的總鏈接數(shù)預(yù)期的要多躏惋。優(yōu)化的模塊功能包含一個(gè)解析參數(shù)，允許用戶確定集群分區(qū)的規(guī)模嚷辅。通過子集 KNN 圖簿姨，也可以只對(duì)特定的集群進(jìn)行子集。這樣的子聚類可以允許用戶識(shí)別細(xì)胞類型聚類內(nèi)的細(xì)胞狀態(tài) (Wagner et al,2016)簸搞，但也可能導(dǎo)致僅來自數(shù)據(jù)噪聲的模式扁位。

問題和建議:
?我們建議在單細(xì)胞KNN圖上通過Louvain社區(qū)檢測(cè)進(jìn)行聚類。
?聚類不需要在單個(gè)分辨率下執(zhí)行趁俊。
特定的cell群是關(guān)注數(shù)據(jù)集中更詳細(xì)的子結(jié)構(gòu)的有效方法域仇。

Cluster annotation

在基因水平上，通過尋找每個(gè)聚類的基因特征對(duì)聚類數(shù)據(jù)進(jìn)行分析寺擂。這些所謂的標(biāo)記基因（marker genes）表征了該簇暇务，并被用來用一個(gè)有意義的生物學(xué)標(biāo)簽來注釋它，該標(biāo)簽代表細(xì)胞簇內(nèi)細(xì)胞的身份怔软。由于任何聚類算法都會(huì)產(chǎn)生數(shù)據(jù)的分區(qū)垦细，所以只有成功注釋所代表的生物學(xué)才能確定所識(shí)別的聚類的有效性。

雖然可以假設(shè)在單細(xì)胞數(shù)據(jù)中檢測(cè)到的簇代表細(xì)胞類型爽雄，但有幾個(gè)變異軸決定了細(xì)胞同一性 (Wagner et al,2016蝠检；Clevers et al,2017)。首先挚瘟，并不總是清楚什么是細(xì)胞類型叹谁。例如，雖然 T 細(xì)胞可能是某些細(xì)胞類型的滿意標(biāo)記乘盖，但其他細(xì)胞可能在數(shù)據(jù)集中尋找 T 細(xì)胞亞型并區(qū)分 CD4 和 CD8 T 細(xì)胞 (Wagner et al,2016焰檩；Clevers et al,2017)。此外订框，相同細(xì)胞類型的細(xì)胞在不同狀態(tài)下可在單獨(dú)的簇中檢測(cè)到析苫。由于上述原因，最好使用術(shù)語細(xì)胞身份（cell identities）而不是細(xì)胞類型（cell types）穿扳。在分群和注釋群之前衩侥，用戶必須決定哪一級(jí)別的注釋細(xì)節(jié)，從而決定哪一級(jí)集群的分辨率矛物。

識(shí)別和注釋簇依賴于使用描述單個(gè)細(xì)胞身份預(yù)期表達(dá)譜的外部信息來源茫死。感謝最近和正在進(jìn)行的努力，如小鼠大腦圖譜 (Zeisel et al,2018) 或人類細(xì)胞圖譜 (Regev et al, 2017)履羞，可用的參考數(shù)據(jù)庫越來越多峦萎。這些數(shù)據(jù)庫極大地方便了細(xì)胞身份注釋屡久。在沒有相關(guān)參考數(shù)據(jù)庫的情況下，可以通過比較數(shù)據(jù)來源的標(biāo)記基因與來自文獻(xiàn)的標(biāo)記基因（見 project github 的案例研究）或直接可視化文獻(xiàn)來源的標(biāo)記基因的表達(dá)值（圖 6B）來注釋細(xì)胞身份爱榔。應(yīng)該注意的是被环，后一種方法將用戶限制在對(duì)來源于表達(dá)研究的細(xì)胞類型的經(jīng)典理解，而不是細(xì)胞身份详幽。此外筛欢，研究表明，常用的細(xì)胞表面標(biāo)志物定義細(xì)胞特性的能力有限 (Tabula Muris Consortium et al,2018)妒潭。

圖 6. Haber (2017) 小鼠腸上皮數(shù)據(jù)集的聚類分析結(jié)果悴能。(A) 由Louvain聚類發(fā)現(xiàn)的帶注釋的細(xì)胞識(shí)別簇揣钦，在 UMAP 表示中可視化雳灾。(B) 細(xì)胞識(shí)別標(biāo)記物表達(dá)，以鑒定干細(xì)胞 (Slc12a2)冯凹、腸細(xì)胞 (Arg2)谎亩、杯狀細(xì)胞 (Tff3) 和潘氏細(xì)胞 (Defa24)。從低表達(dá)（灰色）到高表達(dá)（紅色）可視化校正表達(dá)水平宇姚。如杯狀細(xì)胞和潘氏細(xì)胞所示匈庭，標(biāo)記基因也可能在其他細(xì)胞同一性群體中表達(dá)。近端（上）和遠(yuǎn)端（下）腸上皮區(qū)域的細(xì)胞-同一性組成熱圖浑劳。相對(duì)高細(xì)胞密度顯示為暗紅色阱持。

使用參考數(shù)據(jù)庫信息注釋集群有兩種方式：使用數(shù)據(jù)來源的標(biāo)記基因或使用全基因表達(dá)譜∧а可通過應(yīng)用兩組之間的差異表達(dá) (DE) 檢驗(yàn)找到標(biāo)記基因集：一組中的細(xì)胞和數(shù)據(jù)集中的所有其他細(xì)胞（參見差異表達(dá)檢驗(yàn)）衷咽。典型的，我們集中在感興趣的簇中上調(diào)的基因蒜绽。由于標(biāo)記基因預(yù)期具有較強(qiáng)的差異表達(dá)效應(yīng)镶骗，因此通常使用簡(jiǎn)單的統(tǒng)計(jì)檢驗(yàn)，如 Wilcoxon 秩和檢驗(yàn)或 t 檢驗(yàn)躲雅，通過基因在這兩組之間的表達(dá)差異進(jìn)行排序鼎姊。將各檢驗(yàn)統(tǒng)計(jì)量中排名靠前的基因視為標(biāo)記基因。通過富集試驗(yàn)相赁、Jaccard 指數(shù)或其他重疊統(tǒng)計(jì)相寇，比較數(shù)據(jù)集中的標(biāo)記基因和參考數(shù)據(jù)集中的標(biāo)記基因，可對(duì)聚類結(jié)果進(jìn)行注釋钮科。引用 web 工具唤衫，如www.mousebrain.org(Zeisel et al,2018) 或http://dropviz.org/(Saunders et al,2018) 允許用戶可視化參考數(shù)據(jù)集中數(shù)據(jù)集標(biāo)記基因的表達(dá)，以促進(jìn)細(xì)胞識(shí)別注釋跺嗽。

檢測(cè)標(biāo)記基因時(shí)應(yīng)注意兩個(gè)方面战授。首先页藻，標(biāo)記基因獲得的 P 值基于獲得的細(xì)胞簇代表實(shí)際生物學(xué)過程。如果考慮到聚類的不確定性植兰，在統(tǒng)計(jì)檢驗(yàn)中必須考慮到聚類與標(biāo)記基因檢測(cè)的關(guān)系份帐。由于聚類和標(biāo)記基因通常是基于相同的基因表達(dá)數(shù)據(jù)確定的。DE 檢驗(yàn)中隱含的無效假設(shè)是基因在兩組之間具有相同的表達(dá)值分布楣导。然而废境，由于這兩組是由標(biāo)記基因檢測(cè)中的聚類方法的輸出定義的，它們的基因表達(dá)譜在設(shè)計(jì)上存在差異筒繁。因此噩凹，即使對(duì) splatter 生成的隨機(jī)數(shù)據(jù)進(jìn)行聚類，我們也發(fā)現(xiàn)了顯著的標(biāo)記基因 (Zappia et al,2017)（見附錄補(bǔ)充文本 S3）。為了在聚類數(shù)據(jù)中獲得一個(gè)合適的顯著性度量翁锡，可以使用置換檢驗(yàn)來解釋聚類步驟杆勇。本試驗(yàn)在附錄補(bǔ)充文本 S3 中詳細(xì)說明。最近的一種差異表達(dá)工具也專門解決了這一問題（預(yù)佣略蟆：Zhang et al,2018）。在當(dāng)前設(shè)置下恢总，P 值通常被夸大迎罗，這可能導(dǎo)致高估標(biāo)記基因的數(shù)量。然而片仿，基于 P 值的基因排序不受影響纹安。假設(shè)聚類有生物學(xué)意義，排名靠前的標(biāo)記基因仍將是最佳標(biāo)記基因候選砂豌。首先厢岂，我們可以通過可視化檢查預(yù)先驗(yàn)證標(biāo)記基因。我們強(qiáng)調(diào)奸鸯，通過無監(jiān)督的聚類方法咪笑，當(dāng)通過單個(gè)基因的表達(dá)確定細(xì)胞同一性群集時(shí)，可以解釋所有其他基因的 P 值娄涩。這種單變量的聚類注釋方法雖然常見窗怒，但不推薦在特殊情況下使用（例如 β 細(xì)胞中的胰島素或紅細(xì)胞中的血紅蛋白）。其次蓄拣，標(biāo)記基因在數(shù)據(jù)集中區(qū)分一個(gè)簇與其他簇扬虚，因此不僅依賴于細(xì)胞簇，還依賴于數(shù)據(jù)集組成球恤。如果數(shù)據(jù)集組成不能準(zhǔn)確代表背景基因表達(dá)辜昵，檢測(cè)到的標(biāo)記基因?qū)⑵蛴谌笔У牟糠帧Ｌ貏e是在計(jì)算細(xì)胞多樣性較低的數(shù)據(jù)集的標(biāo)記基因時(shí)咽斧，必須考慮這方面堪置。

最近躬存，自動(dòng)集群注釋已經(jīng)可用。通過直接將注釋參考簇的基因表達(dá)譜與單個(gè)細(xì)胞進(jìn)行比較舀锨，scmap (Kiselev et al,2018b) 或 Gaett (preprint:Pliner et al,2019) 等工具可以在參考和數(shù)據(jù)集之間傳輸注釋岭洲。因此，這些方法可以同時(shí)執(zhí)行注釋和聚類分群坎匿，而不需要數(shù)據(jù)驅(qū)動(dòng)的聚類盾剩。由于細(xì)胞類型和狀態(tài)組成在實(shí)驗(yàn)條件之間存在差異（Segerstolpe et al,2016;Tanay）基于參考數(shù)據(jù)的聚類不應(yīng)取代數(shù)據(jù)驅(qū)動(dòng)的方法。

聚類替蔬、聚類注釋告私、重新或子聚類和重新注釋的迭代可能是耗時(shí)的。自動(dòng)注釋方法極大地加速了這一過程承桥。然而驻粟，自動(dòng)化和手工方法有其優(yōu)點(diǎn)和局限性，很難推薦一種方法而不是另一種快毛。速度的提高與靈活性的降低是一致的格嗅。如上所述番挺，參考圖譜將不包含與研究數(shù)據(jù)集完全相同的細(xì)胞標(biāo)識(shí)唠帝。因此，不應(yīng)放棄標(biāo)記基因計(jì)算進(jìn)行手動(dòng)注釋玄柏。特別是對(duì)于包含許多集群的大型數(shù)據(jù)集襟衰，目前的最佳實(shí)踐是兩種方法的組合。為了提高處理速度粪摘，自動(dòng)化的細(xì)胞識(shí)別注釋可以用于粗略標(biāo)記細(xì)胞和識(shí)別可能的子簇瀑晒。隨后，應(yīng)對(duì)數(shù)據(jù)集簇計(jì)算標(biāo)記基因徘意，并與來自參考數(shù)據(jù)集或文獻(xiàn)的已知標(biāo)記基因集進(jìn)行比較苔悦。對(duì)于較小的數(shù)據(jù)集和缺少參考圖譜的數(shù)據(jù)集，手動(dòng)注釋即可椎咧。

問題和建議:
?不要使用標(biāo)記基因p值來驗(yàn)證細(xì)胞身份群集玖详，特別是當(dāng)檢測(cè)到的標(biāo)記基因不能幫助注釋群落時(shí)。p值可能被夸大勤讽。
?請(qǐng)注意蟋座，同一細(xì)胞識(shí)別簇的標(biāo)記基因在不同數(shù)據(jù)集之間可能完全由于數(shù)據(jù)集細(xì)胞類型和狀態(tài)組成而不同。
?如果存在相關(guān)的參考圖集脚牍，我們建議使用自動(dòng)化的集群注釋向臀，并結(jié)合基于數(shù)據(jù)的標(biāo)記基因的手動(dòng)注釋來注釋集群。

Compositional analysis

在細(xì)胞水平诸狭，我們可以根據(jù)其組成結(jié)構(gòu)分析聚類數(shù)據(jù)券膀。成分分析（Compositional analysis
）圍繞著每個(gè)細(xì)胞同一簇的細(xì)胞比例君纫，這些比例可因疾病反應(yīng)而改變。例如芹彬，已證實(shí)沙門氏菌感染可增加小鼠腸上皮中腸細(xì)胞的比例 (Haber et al,2017)庵芭。研究單細(xì)胞數(shù)據(jù)中的組成變化需要足夠的細(xì)胞數(shù)量來有力地評(píng)估細(xì)胞-同一簇的比例，以及足夠的樣本數(shù)量來評(píng)估細(xì)胞-同一簇組成中的預(yù)期背景變化雀监。由于適當(dāng)?shù)臄?shù)據(jù)集最近才出現(xiàn)双吆，因此尚未開發(fā)專用工具。在上述小鼠研究中会前，使用泊松過程模擬細(xì)胞實(shí)體計(jì)數(shù)好乐，包括條件作為協(xié)變量，檢測(cè)到的細(xì)胞總數(shù)作為偏移瓦宜。此處蔚万，可對(duì)回歸系數(shù)進(jìn)行統(tǒng)計(jì)檢驗(yàn)，以評(píng)估特定細(xì)胞鑒別的頻率是否發(fā)生顯著變化临庇。然而反璃，相同數(shù)據(jù)集中其他細(xì)胞身份的檢測(cè)并不相互獨(dú)立。如果一個(gè)細(xì)胞同一性簇的比例發(fā)生變化假夺，所有其他細(xì)胞同一性簇的比例也必須發(fā)生變化淮蜈。因此，使用該模型無法評(píng)估總體組成是否發(fā)生顯著變化已卷。在沒有專用工具的情況下梧田，組成數(shù)據(jù)的可視化比較可以提供樣品之間組成變化的信息（圖 6C）。該領(lǐng)域的未來發(fā)展將可能借用流式細(xì)胞計(jì)數(shù)法（mass cytometry）（如 Tibshirani 等侧蘸，2002裁眯；Arvaniti）或者微生物組文獻(xiàn) (Gloor et al,2017)，其中成分?jǐn)?shù)據(jù)分析受到了更多關(guān)注讳癌。

問題和建議:
?考慮樣本間細(xì)胞同一簇比例變化的統(tǒng)計(jì)檢驗(yàn)是相互依賴的穿稳。

Trajectory analysis

Trajectory inference

細(xì)胞多樣性不能用諸如群集這樣的離散類化系統(tǒng)來充分描述。驅(qū)動(dòng)所觀察到的異質(zhì)性生物學(xué)過程是連續(xù)的過程(Tanay & Regev, 2017)晌坤。因此逢艘，為了捕捉細(xì)胞身份、分支分化過程或生物功能中漸進(jìn)的泡仗、不同步的變化埋虹，我們需要基因表達(dá)的動(dòng)態(tài)模型，這類方法稱為軌跡推斷(TI)娩怎。

軌跡推理方法將單細(xì)胞數(shù)據(jù)解釋為連續(xù)過程的快照搔课。通過尋找穿過細(xì)胞空間的路徑，使相鄰細(xì)胞之間的轉(zhuǎn)錄變化最小化，重建了這一過程（圖 7A 和 B）爬泥。細(xì)胞的排列順序徑由偽時(shí)間（pseudotime）變量描述柬讨。雖然該變量與根細(xì)胞的轉(zhuǎn)錄距離有關(guān)，但其通常被解釋為發(fā)育時(shí)間的代表 (Moignard et al,2015袍啡；Haghverdi et al,2016踩官；Fischer et al,2018；Griffiths et al,2018)境输。

圖 7. Haber (2017) 小鼠腸上皮數(shù)據(jù)的軌跡分析和圖形提日崮怠（graph abstraction ）。(A) Slingshot 推斷的遠(yuǎn)端和近端腸細(xì)胞分化軌跡嗅剖。遠(yuǎn)端譜系顯示由紅到藍(lán)的偽時(shí)間顏色辩越。數(shù)據(jù)集中的其他cell為灰色。PCA 空間中集群上的彈弓軌跡信粮。細(xì)胞簇縮寫如下：EPenterocyte progenitors黔攒；Imm，耳鼻喉科强缘。未成熟腸上皮細(xì)胞督惰；耳鼻喉科。成熟腸細(xì)胞旅掂；近端赏胚；距離。遠(yuǎn)端辞友。(C) 圖 7A 中腸細(xì)胞遠(yuǎn)端軌跡的密度栅哀。顏色代表每個(gè)假時(shí)間箱中的主導(dǎo)集群標(biāo)簽。投射到 UMAP 表示的數(shù)據(jù)集的抽象圖形表示称龙。集群顯示為彩色節(jié)點(diǎn)。將出現(xiàn)在其他軌跡中的群集標(biāo)記為比較戳晌。TA 表示轉(zhuǎn)運(yùn)擴(kuò)增細(xì)胞鲫尊。(E) 使用 GAM R 文庫在一般腸細(xì)胞軌跡中假時(shí)間內(nèi)的基因表達(dá)動(dòng)態(tài)。

自從 Monocle（Trapnell 等沦偎，2014）和 Wanderlust（Bendall 等疫向，2014）方法提出以來，可用方法的數(shù)量激增豪嚎。目前可用的 TI 方法在建模路徑的復(fù)雜性方面有所不同搔驼。模型的范圍從簡(jiǎn)單的線性或分叉軌跡，到復(fù)雜的圖形侈询、樹或多分支軌跡舌涨。在最近的 TI 方法綜合比較中 (Saelens et al,2018)，得出的結(jié)論是扔字，對(duì)于所有類型的軌跡囊嘉，沒有一種方法的性能最佳温技。相反，TI 方法應(yīng)根據(jù)預(yù)期軌跡的復(fù)雜性進(jìn)行選擇扭粱。比較顯示舵鳞，Slingshot (Street al,2018) 在線性模型、雙叉模型和多分支模型的簡(jiǎn)單軌跡方面優(yōu)于其他方法琢蛤。如果預(yù)期有更復(fù)雜的軌跡蜓堕，作者推薦 PAGA (Wolf et al,2019)。如果確切的軌跡模型已知博其，也可以使用更專業(yè)的方法來改善性能 (Saelens et al,2018)俩滥。一般而言，任何推斷的軌跡均應(yīng)使用替代方法進(jìn)行確認(rèn)贺奠，以避免方法偏倚霜旧。

在典型的工作流中，當(dāng)有一個(gè)內(nèi)建的降維步驟時(shí)儡率，TI 方法被應(yīng)用于約簡(jiǎn)數(shù)據(jù)或校正數(shù)據(jù)挂据。由于多個(gè)生物過程通常在細(xì)胞內(nèi)同時(shí)發(fā)生，因此逐步消除其他過程的生物效應(yīng)可能有助于隔離預(yù)期軌跡儿普。例如崎逃，T 細(xì)胞可能在成熟過程中進(jìn)行細(xì)胞周期轉(zhuǎn)換 (Buettner et al,2015)。此外眉孩，由于一些性能最好的 TI 方法依賴于聚集數(shù)據(jù)个绍，TI 通常在聚集后進(jìn)行。推斷軌跡中的聚類可能代表穩(wěn)定或亞穩(wěn)態(tài)（參見亞穩(wěn)態(tài)浪汪；圖 7B 和 C）巴柿。隨后，RNA 速度可以疊加到軌跡上死遭，以增加方向性 (La Manno et al,2018)广恢。

推斷軌跡不一定代表生物過程。首先呀潭，這些僅表示轉(zhuǎn)錄相似性钉迷。少數(shù) TI 方法包括對(duì)其模型中不確定性的評(píng)價(jià) (Griffiths et al,2018)。因此钠署，需要更多信息來確認(rèn)是否確實(shí)采集了生物過程糠聪。這些信息可以以擾動(dòng)實(shí)驗(yàn)、推斷調(diào)控基因動(dòng)力學(xué)和 RNA 速度支持的形式出現(xiàn)谐鼎。

問題和建議:
?我們建議以 Saelens et 等人(2018)的綜述為指南舰蟆。
?推斷的軌跡不一定代表一個(gè)生物過程。
應(yīng)該收集進(jìn)一步的證據(jù)來源來解釋軌跡。

Gene expression dynamics

一種支持推斷軌跡不是擬合轉(zhuǎn)錄噪聲結(jié)果的方法是在基因水平分析軌跡夭苗。假時(shí)變化平滑的基因表征了軌跡信卡，可用于識(shí)別潛在的生物學(xué)過程。再者题造，這組軌跡相關(guān)基因有望包含調(diào)控建模過程的基因傍菇。調(diào)節(jié)基因幫助我們理解如何以及為什么生物過程被觸發(fā)，并代表潛在的藥物靶標(biāo) (Gashaw et al,2012)界赔。

雖然早期發(fā)現(xiàn)軌跡相關(guān)基因的方法涉及沿軌跡在細(xì)胞群之間進(jìn)行 DE 測(cè)試 (Haghverdi et al,2016丢习；Alpert et al,2018)，但我們現(xiàn)在通過倒退假時(shí)基因表達(dá)檢測(cè)沿軌跡變化的基因淮悼。為了使表達(dá)沿該協(xié)變量平滑變化咐低，通過擬合樣條或通過額外的局部回歸步驟（例如 loess）平滑假時(shí)間⊥嘈龋回歸框架的噪聲模型假設(shè)和用于描述假時(shí)間函數(shù)表達(dá)式的函數(shù)類別不同见擦。通過對(duì)偽時(shí)間依賴基因進(jìn)行模型選擇，獲得潛在的調(diào)控基因羹令。偽時(shí)間上的 DE 測(cè)試被軌跡推理方法混淆鲤屡，就像集群之間的 DE 測(cè)試被集群方法混淆一樣（參見集群注釋部分）。因此福侈，在該設(shè)置中獲得的 P 值不應(yīng)視為顯著性評(píng)價(jià)酒来。

目前很少有專門的基因時(shí)間動(dòng)力學(xué)工具存在。BEAM 是集成到 Monocle TI 流水線中的工具 (Qiu et al,2017a)肪凛，允許檢測(cè)分支特異性基因動(dòng)態(tài)堰汉。在此管道之外，用戶可以選擇 LineagePulse（https://github.com/YosefLab/LineagePulse）伟墙，它考慮了脫落噪聲翘鸭，但仍在開發(fā)中，或者使用 limma 包 (Ritchie et al,2015) 或標(biāo)準(zhǔn) R 庫編寫自己的測(cè)試框架远荠“蹋可在在線彈弓教程 (Street et al,2018) 和圖 7E 中找到這方面的示例。

由于可用的工具很少譬淳，研究基因時(shí)間動(dòng)態(tài)的最佳實(shí)踐還不能確定№锞ぃ基因動(dòng)力學(xué)的探索性研究當(dāng)然有可能使用上述所有的方法邻梆。高斯過程是研究基因時(shí)間動(dòng)態(tài)的一個(gè)自然模型。此外绎秒，檢測(cè)調(diào)控模塊而不是單個(gè)基因可能會(huì)提高信噪比并促進(jìn)生物學(xué)解釋浦妄。

Metastable states

軌跡的細(xì)胞水平分析研究假時(shí)間內(nèi)的細(xì)胞密度。假設(shè)細(xì)胞以無偏倚的方式被取樣，沿著軌跡的密集區(qū)域表明首選轉(zhuǎn)錄狀態(tài)剂娄。當(dāng)把軌跡解釋為一個(gè)時(shí)間過程時(shí)蠢涝，這些致密區(qū)域可能代表亞穩(wěn)態(tài)，例如阅懦，發(fā)展（Haghverdi 等和二，2016）。我們可以通過繪制假時(shí)間坐標(biāo)直方圖（圖 7C）找到這些亞穩(wěn)態(tài)耳胎。

Cell-level analysis unification

聚類和軌跡推斷代表了單細(xì)胞數(shù)據(jù)的兩種不同觀點(diǎn)惯吕。這兩個(gè)視圖可以在粗粒度圖表示中進(jìn)行協(xié)調(diào)。通過將單細(xì)胞簇表示為節(jié)點(diǎn)怕午，將簇之間的軌跡表示為邊緣废登，可以表示數(shù)據(jù)的靜態(tài)和動(dòng)態(tài)性質(zhì)。這種統(tǒng)一是由基于分割的圖抽象工具提出的（PAGA郁惜；圖 7D堡距；Wolf et al，2019）兆蕉。PAGA 使用一個(gè)細(xì)胞簇相互作用的統(tǒng)計(jì)模型羽戒，在細(xì)胞簇節(jié)點(diǎn)之間放置一個(gè)比預(yù)期更相似的邊。在最近的綜述中恨樟，PAGA 優(yōu)于其他 TI 方法（Saelens 等半醉，2018）。這是唯一審查的方法能夠應(yīng)付斷開的拓?fù)浜蛷?fù)雜的圖表包含周期劝术。這個(gè)特性使 PAGA 成為一個(gè)有用的工具缩多，可以可視化整個(gè)數(shù)據(jù)集的拓?fù)浣Y(jié)構(gòu)，以便進(jìn)行探索性分析养晋。

Gene-level analysis

而我們到目前為止主要集中在表征細(xì)胞結(jié)構(gòu)的基因水平分析方法衬吆，單細(xì)胞數(shù)據(jù)的基因水平分析具有更廣泛的范圍。差異表達(dá)檢測(cè)绳泉、基因集分析和基因調(diào)控網(wǎng)絡(luò)推斷直接研究數(shù)據(jù)中的分子信號(hào)逊抡。這些方法不是描述細(xì)胞的異質(zhì)性，而是使用這種異質(zhì)性作為理解基因表達(dá)的背景零酪。

Differential expression testing

關(guān)于表達(dá)數(shù)據(jù)的一個(gè)常見問題是冒嫡，在兩種實(shí)驗(yàn)條件下是否存在差異表達(dá)的基因。DE是一個(gè)有大量文獻(xiàn)證明的問題四苇，它起源于bulk rna 基因表達(dá)分析(Scholtens & von Heydebreck, 2005)孝凌。相對(duì)于bulk差異測(cè)試的一個(gè)優(yōu)點(diǎn)是，我們可以通過在細(xì)胞識(shí)別簇中執(zhí)行測(cè)試來解釋單細(xì)胞環(huán)境中的細(xì)胞異質(zhì)性月腋。這種設(shè)置告訴我們蟀架，在特定的實(shí)驗(yàn)條件下瓣赂，單個(gè)細(xì)胞的身份是如何進(jìn)行轉(zhuǎn)錄反應(yīng)的(Kang et al, 2018)。

盡管設(shè)計(jì)來回答相同的問題片拍，但 bulk 和單細(xì)胞 DE 工具在方法上有所不同煌集。雖然開發(fā)了bulk 方法以從少量樣本中準(zhǔn)確估計(jì)基因方差，但單細(xì)胞數(shù)據(jù)不存在此問題捌省。另一方面苫纤，單細(xì)胞數(shù)據(jù)包含獨(dú)特的技術(shù)噪聲偽影，如脫落和高細(xì)胞間變異性 (Hicks et al,2017所禀；Vallejos et al,2017)方面。專門為單細(xì)胞數(shù)據(jù)設(shè)計(jì)的方法考慮了這些人為因素 (Kharchenko et al,2014；Finak et al,2015)色徘。然而恭金，最近一項(xiàng)大規(guī)模的 DE 分析比較研究表明，bulk DE 測(cè)試包的性能與性能最好的單細(xì)胞工具（Soneson & Robinson, 2018)此外褂策，當(dāng)通過在測(cè)試中引入基因權(quán)重使散裝工具適合模擬單細(xì)胞數(shù)據(jù)時(shí)横腿，建議這些工具優(yōu)于其單細(xì)胞對(duì)應(yīng)物 (Van den Berge et al,2018)。根據(jù)該比較斤寂，性能最佳的 DE 分析工具為 DESeq2 (Love et al,2014) 和 EdgeR (Robinson et al,2010)耿焊，結(jié)合 ZINB-wave (Risso et al,2018) 估計(jì)的權(quán)重。需要包括加權(quán)批量 DE 檢測(cè)方法的獨(dú)立比較研究來確認(rèn)這些結(jié)果遍搞。

加權(quán)批量 DE 測(cè)試的改進(jìn)性能是以犧牲計(jì)算效率為代價(jià)的罗侯。鑒于單細(xì)胞實(shí)驗(yàn)中細(xì)胞數(shù)量增加的趨勢(shì)，算法運(yùn)行時(shí)間正成為方法選擇中越來越重要的考慮因素溪猿。因此钩杰，single-celltool MAST (Finak et al,2015) 代表了重量bulk DE 工具的有效替代品。MAST 使用柵欄模型來解釋脫落诊县，同時(shí)建立依賴于條件和技術(shù)協(xié)變量的基因表達(dá)變化模型讲弄。它是上述研究中表現(xiàn)最好的單細(xì)胞 DE 測(cè)試方法（Soneson & Robin-
son), 并在單個(gè)數(shù)據(jù)集的小規(guī)模比較中，表現(xiàn)優(yōu)于bulk和單細(xì)胞方法 (Vieth et al,2017)依痊。雖然 emast 的運(yùn)行時(shí)間比加權(quán)批量方法快 10-100 倍 (Van den Berge et al,2018)避除，但使用 limmaCvoom 可實(shí)現(xiàn)進(jìn)一步 10 倍加速 (Law et al,2014)。盡管 limma 是一種bulk rna DE 試驗(yàn)方法胸嘁，但 limmaCvoom 已被證明可實(shí)現(xiàn)與 MAST 相當(dāng)?shù)男阅堋?/p>

未校正的實(shí)測(cè)數(shù)據(jù)應(yīng)用于 DE 檢驗(yàn)瓶摆，解釋混雜因素對(duì)穩(wěn)健估計(jì)差異表達(dá)基因至關(guān)重要。雖然 DE 測(cè)試工具通常允許用戶靈活地加入混雜因素性宏，但用戶必須警惕哪些變量被添加到模型中赏壹。例如，在大多數(shù)單細(xì)胞實(shí)驗(yàn)設(shè)置中衔沼，樣本和條件協(xié)變量被混淆蝌借，因?yàn)樵诙喾N條件下很少可能獲得單個(gè)樣本。如果我們將樣本和條件協(xié)變量合并到模型中指蚁，與這些協(xié)變量相關(guān)的變異性就不能再明確分配菩佑。因此，當(dāng)檢驗(yàn)條件時(shí)凝化，我們不能將樣本協(xié)變量納入給定形式的模型中稍坯。當(dāng)校正多個(gè)分類批次協(xié)變量時(shí)，目測(cè)發(fā)現(xiàn)混雜的協(xié)變量組變得越來越困難搓劫。在這種情況下瞧哟，檢驗(yàn)?zāi)Ｐ驮O(shè)計(jì)矩陣是否是滿秩的是有幫助的。即使設(shè)計(jì)矩陣不是完全秩枪向，DE 測(cè)試工具也會(huì)經(jīng)常調(diào)整矩陣并在沒有輸出警告的情況下運(yùn)行勤揩。這不會(huì)產(chǎn)生預(yù)期結(jié)果。

在我們?cè)诖嗣枋龅那榫爸忻鼗祝瑮l件協(xié)變量在實(shí)驗(yàn)設(shè)置中確定陨亡。因此，對(duì)該協(xié)變量（在同一聚類內(nèi)）的 DE 檢驗(yàn)獨(dú)立于聚類程序深员。該設(shè)置區(qū)分了條件上的 DE 測(cè)試和分群上的 DE 測(cè)試负蠕。在條件下獲得的 DE 檢驗(yàn) P 值代表預(yù)期的顯著性指標(biāo)，必須進(jìn)行多重檢驗(yàn)校正倦畅。為了減少多重檢測(cè)負(fù)擔(dān)遮糖，可能不相關(guān)的轉(zhuǎn)錄本可以從數(shù)據(jù)集中排除。而假基因或非編碼 RNA 可以提供信息 (An et al,2017)叠赐，它們?cè)诜治鲋型缓雎浴?/p>

問題和建議:
?DE測(cè)試不應(yīng)該在校正數(shù)據(jù)(去噪欲账、批次校正等)上進(jìn)行，而應(yīng)該在模型中包含技術(shù)協(xié)變量的測(cè)量數(shù)據(jù)上進(jìn)行燎悍。
?用戶不應(yīng)該依賴DE測(cè)試工具來糾正帶有混淆的協(xié)變量的模型敬惦。模型規(guī)范應(yīng)該謹(jǐn)慎執(zhí)行，以確保完整的設(shè)計(jì)矩陣谈山。
?我們建議使用MAST或limma進(jìn)行DE測(cè)試俄删。

Gene set analysis

基因水平分析方法通常會(huì)產(chǎn)生長(zhǎng)長(zhǎng)的候選基因列表，難以解釋奏路。例如畴椰，數(shù)千個(gè)基因可能在處理細(xì)胞和對(duì)照細(xì)胞之間差異表達(dá)。我們可以根據(jù)共享特征將基因分組到集合中鸽粉，并檢測(cè)這些特征是否在候選基因列表中過度表達(dá)斜脂，從而促進(jìn)這些結(jié)果的解釋。

基因集信息可以在各種應(yīng)用的精選標(biāo)簽數(shù)據(jù)庫中找到触机。為了解釋 DE 結(jié)果帚戳，我們通常根據(jù)共同的生物學(xué)過程對(duì)基因進(jìn)行分組玷或。生物過程標(biāo)簽存儲(chǔ)在數(shù)據(jù)庫中，如 MSigDB (Liberzon et al,2011)片任、Gene Ontology (Ashbuer et al,2000偏友；the Gene Ontology Consortium,2017) 或 pathway 數(shù)據(jù)庫 KEGG (Kanehisa et al,2017) 和 Reactome (Fabregat et al,2018)。Huang et al (2009) 和 Tarca et al (2013) 回顧并比較了大量工具对供，可以測(cè)試基因列表上注釋的富集位他。

單細(xì)胞分析領(lǐng)域的一個(gè)最新進(jìn)展是利用配對(duì)的基因標(biāo)記進(jìn)行配體受體分析。這里产场，細(xì)胞簇之間的相互作用是根據(jù)受體及其同源配體的表達(dá)推斷的鹅髓。配體受體對(duì)標(biāo)記可以是從最近的 CellPhoneDB 中獲得 (Vento-Tormo et al,2018)，并使用統(tǒng)計(jì)模型解釋跨集群的高表達(dá)基因 (Zepp et al,2017京景；Zhou et al,2017窿冯；Cohen et al,2018；Vento-Tormo et al,2018)醋粟。

Gene regulatory networks

基因并不獨(dú)立發(fā)揮作用靡菇。相反，一個(gè)基因的表達(dá)水平是由與其他基因和小分子的調(diào)控相互作用的復(fù)雜的相互作用決定的米愿。揭示這些調(diào)控相互作用是基因調(diào)控網(wǎng)絡(luò) (GRN) 推理方法的目標(biāo)厦凤。

基因調(diào)控網(wǎng)絡(luò)推斷是基于相關(guān)、互信息等基因共表達(dá)的測(cè)量育苟，或通過回歸模型進(jìn)行的(Chen & Mar, 2018)较鼓。如果兩個(gè)基因表現(xiàn)出一種共表達(dá)信號(hào)，即使考慮到所有其他基因都是潛在的混雜因子违柏，這些基因也被認(rèn)為具有因果調(diào)控關(guān)系博烂。推斷基因調(diào)控關(guān)系與軌跡相關(guān)調(diào)控基因的檢測(cè)有關(guān)。事實(shí)上漱竖，幾種單細(xì)胞 GRN 推理方法使用軌跡與差異分析方程模型 (Ocone et al,2015禽篱；Matsumoto et al,2017)。

雖然有專門針對(duì)scRNA-seq數(shù)據(jù)開發(fā)的GRN推理方法(SCONE: Matsumoto et al, 2017;
PIDC: Chan等人馍惹，2017;最近的一項(xiàng)比較顯示躺率，bulk和單細(xì)胞方法在這些數(shù)據(jù)上的表現(xiàn)都很差(Chen & Mar, 2018)。GRN推斷方法仍可能為識(shí)別生物過程的因果調(diào)節(jié)因子提供有價(jià)值的見解万矾，但我們建議謹(jǐn)慎使用這些方法悼吱。

問題和建議:
?用戶應(yīng)警惕由此推斷出生物關(guān)系中的不確定性。為調(diào)控關(guān)系而富集的基因模塊比單個(gè)更可靠良狈。

Analysis platforms

單細(xì)胞分析工作流是獨(dú)立開發(fā)的工具后添。為了促進(jìn)數(shù)據(jù)在這些工具之間的轉(zhuǎn)移，圍繞著一致的數(shù)據(jù)格式開發(fā)了單細(xì)胞平臺(tái)薪丁，這些平臺(tái)為分析管道的建設(shè)提供了依據(jù)遇西。當(dāng)前可用的平臺(tái)存在于 R (McCarthy et al,2017馅精；Butler et al,2018) 或 Python (Wolf et al,2018) 的命令行中，并作為本地應(yīng)用程序 (Patel,2018努溃；preprint：Scholz et al,2018) 或 Web 服務(wù)器 (Gardeux et al,2017硫嘶；Zhu et al,2017) 使用圖形用戶界面 (GUI)。Zhu et al (2017) 和 Zappia et al (2018) 提供了平臺(tái)概述梧税。

在命令行平臺(tái)中，Scater (McCarthy et al,2017) 和 Seurat (Butler et al,2018) 很容易與 R Bioconductor 項(xiàng)目提供的大量分析工具連接 (Huber et al,2015)称近。Scater 在 QC 和預(yù)處理方面具有特別的優(yōu)勢(shì)第队，而 Seurat 可以說是最流行和最全面的平臺(tái)，它包括了大量的工具和教程刨秆。這個(gè)小組最近增加了 scanpy (Wolf et al,2018)凳谦，這是一個(gè)不斷增長(zhǎng)的基于 python 的平臺(tái)，它展示了對(duì)大量細(xì)胞衡未。它充分利用了越來越多的用 Python 編寫的工具尸执，這些工具在機(jī)器學(xué)習(xí)應(yīng)用程序中特別流行。

圖形用戶界面平臺(tái)使非專業(yè)用戶能夠構(gòu)建單細(xì)胞分析工作流程缓醋。用戶通常通過規(guī)定的工作流程進(jìn)行指導(dǎo)如失，以便于分析，但也限制了用戶的靈活性送粱。這些平臺(tái)尤其適用于探索性分析褪贵。Granatum (Zhu et al,2017) 和 ASAP (Gardeux et al,2017) 等平臺(tái)集成的工具不同，Granatum 包括的方法種類更多抗俄。作為網(wǎng)絡(luò)服務(wù)器脆丁，這兩個(gè)平臺(tái)是現(xiàn)成的，但計(jì)算基礎(chǔ)設(shè)施將限制其擴(kuò)展到大型數(shù)據(jù)集的能力动雹。例如槽卫，在僅有 92 個(gè)細(xì)胞的數(shù)據(jù)集上測(cè)試 ASAP∫闰穑基于 Web 的 GUI 平臺(tái)的替代方案是程序包歼培，例如 FASTGenomics（預(yù)印：Scholz et al,2018）姊氓、iSEE (Rue-Albrecht et al,2018)丐怯、IS-CellR (Patel,2018) 和 Granatum（在本地服務(wù)器上運(yùn)行）。這些都是平臺(tái)和 GUI 包裝器翔横，可以與本地可用的計(jì)算能力進(jìn)行縮放读跷。未來，人類細(xì)胞圖譜門戶網(wǎng)站的持續(xù)發(fā)展（https://www.humancellatlas.org/data-sharing）將帶來更強(qiáng)大的可視化數(shù)據(jù)探索工具禾唁，可擴(kuò)展到大的cell數(shù)效览。

Conclusions and outlook

我們回顧了典型的 scRNA-seq 分析工作流程无切，并展示案例研究教程（httpsfwww.github.com/theislab/single-cell-tutorial）。本教程旨在遵循現(xiàn)有方法確定當(dāng)前的最佳實(shí)踐丐枉。雖然聚合單個(gè)最佳實(shí)踐工具不能保證就是最佳的分析流程哆键，但是我們的工作流程代表了單細(xì)胞分析領(lǐng)域最新技術(shù)水平的最新概覽。因此瘦锹，它為新來者提供了進(jìn)入該領(lǐng)域的合適切入點(diǎn)责鳍，并借助人類細(xì)胞圖譜的努力，以建立 scRNA-seq 分析的最佳實(shí)踐 (preprint:Regev et al,2018)违寞。應(yīng)當(dāng)注意的是纵潦，現(xiàn)有方法比較必然落后于最新方法開發(fā)。因此听绳，我們提到了尚未在可能情況下獨(dú)立評(píng)估的新發(fā)展颂碘。隨著未來新的和更好的工具的發(fā)展，以及進(jìn)一步的比較研究椅挣，這里提出的個(gè)別工具建議將需要更新头岔，但關(guān)于數(shù)據(jù)處理階段的一般考慮應(yīng)保持不變。

兩個(gè)特別感興趣的開發(fā)途徑是深度學(xué)習(xí)工作流和單細(xì)胞組學(xué)集成鼠证，因?yàn)樗鼈冇锌赡芷茐默F(xiàn)有分析流程峡竣。由于其向大數(shù)據(jù)擴(kuò)展的靈活性，深度學(xué)習(xí)已經(jīng)徹底改變了從計(jì)算機(jī)視覺到自然語言處理的領(lǐng)域名惩，并開始在基因組學(xué)中產(chǎn)生強(qiáng)大的影響 (Webb,2018)澎胡。scRNA-seq 的首批應(yīng)用開始從降維到去噪（例如 scVis：Ding et al，2018娩鹉；scGen：preprint：Lotfollahi et al攻谁，2018；DCA：Eraslan et al弯予，2019）戚宦。最近，深度學(xué)習(xí)已被用于產(chǎn)生一個(gè)嵌入式工作流锈嫩，該工作流可擬合數(shù)據(jù)受楼、消噪并在模型框架內(nèi)進(jìn)行聚類和差異表達(dá)等下游分析 (scVI:Lopez et al,2018)。在該設(shè)置中呼寸，可能將噪聲和批效應(yīng)估計(jì)值納入下游統(tǒng)計(jì)檢驗(yàn)中艳汽，同時(shí)保持?jǐn)?shù)據(jù)方差的準(zhǔn)確估計(jì)值。

隨著單細(xì)胞 omic 技術(shù)的提高对雪，對(duì)集成 omic 分析的需求將逐漸增長(zhǎng)(Tanay & Regev, 2017)河狐。未來的單細(xì)胞平臺(tái)將必須能夠處理不同的數(shù)據(jù)源，如 DNA 甲基化 (Smallwood et al,2014)、染色質(zhì)可及性 (Buenrostro et al,2015) 或蛋白質(zhì)豐度 (Stoeckius et al,2017)馋艺，并包括整合這些模態(tài)的工具栅干。對(duì)于這種設(shè)置，不再可能只使用單個(gè)讀取或計(jì)數(shù)矩陣捐祠，我們將其用作本教程的起點(diǎn)碱鳞。然而，平臺(tái)已經(jīng)在適應(yīng)多模態(tài)數(shù)據(jù)結(jié)構(gòu)踱蛀，以整合 RNA velocity窿给，這是根據(jù)未拼接和拼接讀數(shù)數(shù)據(jù)計(jì)算的 (La Manno et al,2018)。單細(xì)胞多基因整合可以通過一致性聚類方法（SC3）星岗、多基因因素分析 (Argelaguet et al,2018) 或多基因調(diào)控網(wǎng)絡(luò)推斷 (Colome-tatchen) 來實(shí)現(xiàn)填大。

最后編輯于：2019.11.19 21:08:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市俏橘，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌圈浇，老刑警劉巖寥掐，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異磷蜀，居然都是意外死亡召耘，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門褐隆，熙熙樓的掌柜王于貴愁眉苦臉地迎上來污它，“玉大人，你說我怎么就攤上這事庶弃∩辣幔” “怎么了？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵歇攻，是天一觀的道長(zhǎng)固惯。經(jīng)常有香客問我，道長(zhǎng)缴守，這世上最難降的妖魔是什么葬毫？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮屡穗，結(jié)果婚禮上贴捡，老公的妹妹穿的比我還像新娘。我一直安慰自己村砂，他們只是感情好烂斋，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般源祈。火紅的嫁衣襯著肌膚如雪煎源。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說
那天香缺，我揣著相機(jī)與錄音手销，去河邊找鬼。笑死图张，一個(gè)胖子當(dāng)著我的面吹牛锋拖，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播祸轮，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼兽埃，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了适袜？” 一聲冷哼從身側(cè)響起柄错，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎苦酱，沒想到半個(gè)月后售貌，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡疫萤，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年颂跨，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片扯饶。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡恒削，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出尾序，到底是詐尸還是另有隱情钓丰，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蹲诀，位于F島的核電站斑粱，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏脯爪。R本人自食惡果不足惜则北，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望痕慢。院中可真熱鬧尚揣，春花似錦、人聲如沸掖举。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至方篮，卻和暖如春名秀，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背藕溅。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國(guó)打工匕得，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人巾表。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓汁掠，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親集币。傳聞我的和親對(duì)象是個(gè)殘疾皇子考阱，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345