單細(xì)胞RNA測序(scRNA-seq)技術(shù)的空前的技術(shù)進(jìn)步現(xiàn)在使以低成本和高通量分析單細(xì)胞中全基因組表達(dá)成為可能魏身。 正在進(jìn)行大量工作,使用scRNA-seq測量來識別形成復(fù)雜組織成分的“細(xì)胞類型”局荚,類似于生態(tài)學(xué)中的分類物種。 來自scRNA-seqdata的細(xì)胞類型分類涉及扎根于降維和聚類的計算工具的應(yīng)用愈污,以及統(tǒng)計分析以識別每種類型獨有的分子標(biāo)記耀态。 隨著數(shù)據(jù)集規(guī)模和復(fù)雜性的不斷增長,計算難題到處都是暂雹,要求分析方法具有可伸縮性首装,靈活性和魯棒性。 此外杭跪,需要認(rèn)真考慮這些測量所特有的實驗偏差和統(tǒng)計挑戰(zhàn)仙逻,以避免出現(xiàn)偽影驰吓。 本章在細(xì)胞類型識別的背景下介紹了這些主題,并為進(jìn)入這一領(lǐng)域的研究人員概述了具有指導(dǎo)意義的分步示例生物信息學(xué)管道系奉。
關(guān)鍵詞:單細(xì)胞rna測序檬贰,轉(zhuǎn)錄組分類,細(xì)胞類型識別喜最,細(xì)胞分類偎蘸,聚類,無監(jiān)督機器學(xué)習(xí)瞬内,細(xì)胞類型的跨物種比較
1.Introduction
人體大約有40萬億個細(xì)胞迷雪,呈現(xiàn)出驚人的形態(tài)和功能的多樣性。越來越多的人認(rèn)為虫蝶,將這些細(xì)胞分類為不同的類型是一個基本的要求章咧,以便更詳細(xì)地了解組織的功能和相互作用,并揭示[2]病理狀態(tài)下的具體機制能真。暫時地赁严,一種特定類型的細(xì)胞有一個共同的特性,這個特性是由多種可測量的特性定義的粉铐,這些特性與組織位置疼约、功能、信號傳導(dǎo)特性蝙泼、形態(tài)學(xué)程剥、電生理反應(yīng)、分子組成和物理有關(guān)(b)提供了一個框架探討驚人的細(xì)胞het-erogeneity豐富生物,(c)提供mechanisticinsight這種異質(zhì)性的一代在振早期,(d)提供了一個框架的合理改善vitro-derived細(xì)胞類型,(e)促進(jìn)跨物種比較[3],為特定的細(xì)胞類型和(f)涉及的角色和他們的相互作用[4]incomplex疾病
盡管復(fù)雜哺乳動物的基因組包含約30,000個基因(及其多種同工型)汤踏,但這些基因的表達(dá)方式并非彼此獨立织鲸。 基因調(diào)控過程誘導(dǎo)基因表達(dá)水平之間的相關(guān)性,進(jìn)而導(dǎo)致轉(zhuǎn)錄組的“模塊化”結(jié)構(gòu)[7]溪胶。 這種模塊化的結(jié)果是搂擦,細(xì)胞的分子狀態(tài)在基因表達(dá)的整個空間中占據(jù)了一個低維子空間(通常稱為“流形”)。 單細(xì)胞RNA測序(scRNA-seq)技術(shù)的進(jìn)步使得可以使用成千上萬個單個細(xì)胞的轉(zhuǎn)錄組狀態(tài)來定義細(xì)胞類型[8-10]哗脖。 此外瀑踢,單核輪廓分析技術(shù)的發(fā)展已使徹底研究冷凍和堆積的組織,包括具有挑戰(zhàn)性的組織懒熙,例如成年人腦切片[11丘损,12]。 一連串的最新研究表明工扎,使用基于聚類和降維的計算方法對單細(xì)胞轉(zhuǎn)錄體進(jìn)行無偏分類,不僅可以恢復(fù)經(jīng)典定義的細(xì)胞亞集衔蹲,而且還可以發(fā)現(xiàn)功能未知的新型細(xì)胞[13-15] 肢娘。 我們的目標(biāo)是向讀者介紹scRNA-seq數(shù)據(jù)分析的概念[16]和計算[17]挑戰(zhàn)呈础,然后介紹使用R統(tǒng)計語言的scRNA-seq分析的基本實際工作流程
1.1 What Is a CellType?
雖然每個細(xì)胞都是獨一無二的,但多年來生物學(xué)家的經(jīng)驗表明橱健,細(xì)胞可以根據(jù)可量化的共同特征來分組而钞。這種分類使對復(fù)雜組織的系統(tǒng)和可重復(fù)的分析成為可能,類似于物種的概念拘荡,這大大簡化了生物體的多樣性臼节,使之成為一種可解釋的分類法,同時又不否認(rèn)任何單一成員[18]的個性珊皿。用于定義細(xì)胞類型的特征包括譜系网缝、位置、形態(tài)蟋定、活性粉臊、與其他細(xì)胞類型的相互作用、表觀遺傳狀態(tài)驶兜、對certai的響應(yīng)
基于scrna -seq的細(xì)胞分類涉及到將數(shù)據(jù)劃分為單個細(xì)胞簇扼仲,其中每個簇由相對于其他簇的唯一基因表達(dá)簽名定義,因此抄淑,代表一個假定的細(xì)胞類型屠凶。然而,需要注意的是肆资,計算定義的聚類不一定對應(yīng)于細(xì)胞類型的1:1矗愧,因為scRNA-seq測定的細(xì)胞的分子狀態(tài)不一定反映了46karthik Shekhar和Vilas Menon的所有特征
如上所述。 此外迅耘,某些分子屬性在細(xì)胞生命周期中比其他分子屬性更具瞬態(tài)性贱枣,因此有必要區(qū)分細(xì)胞的類型(其主要身份)與其當(dāng)前的“狀態(tài)”(例如,神經(jīng)元放電期間神經(jīng)元放電速率的暫時變化) “上”和“下”狀態(tài)颤专,或內(nèi)分泌細(xì)胞的分泌活性水平不同)纽哥。 如果scRNA-seq的轉(zhuǎn)錄特征足夠明顯,它們可能會解析相同細(xì)胞類型的不同“狀態(tài)”栖秕,并且如果在實驗階段不再表達(dá)在早期發(fā)育過程中指定其身份的分子春塌,則會折疊兩個不同但密切相關(guān)的類型。 即使局限于分子狀態(tài)簇捍,也無法僅通過RNA-seq解決細(xì)胞“類型”與“狀態(tài)”之間的差異只壳,并且可能需要以其他方式進(jìn)行檢查,例如那些捕獲有關(guān)細(xì)胞表觀遺傳狀態(tài)或其動態(tài)信息的方式暑塑。 回應(yīng)吼句。 綜上所述,這些注意事項在scRNA-seq數(shù)據(jù)的解釋中尤其是在僅根據(jù)轉(zhuǎn)錄組學(xué)信息識別細(xì)胞類型的情況下要格外小心事格。 作為人類項目圖譜[2]和BRAIN計劃等大型項目的一部分惕艳,正在進(jìn)行的工作正在不斷完善細(xì)胞類型的概念
.2 A Brief Overviewof scRNA-Seq
scRNA-seq不是單一方法搞隐,而是一套協(xié)議,各有其優(yōu)點和局限性[20]远搪。 目前劣纲,每個scRNA-seqprotocol均包括三個步驟(圖1):( 1)單細(xì)胞捕獲和條形碼編碼;(2)文庫制備谁鳍;以及(3)測序癞季。 當(dāng)前的協(xié)議通過組織解離來分離單個細(xì)胞,然后通過熒光激活細(xì)胞分選(FACS)進(jìn)入平板上的單獨孔中倘潜,或?qū)蝹€細(xì)胞捕獲在微流腔绷柒,微孔或單個液滴中。 在單細(xì)胞捕獲之前窍荧,可以使用FACS或磁活化細(xì)胞分選(MACS)通過分選步驟隨意分離解離的細(xì)胞辉巡,以富集或消耗表達(dá)標(biāo)記物特定組合的細(xì)胞。 文庫的制備涉及使用聚合酶鏈反應(yīng)(PCR)或體外轉(zhuǎn)錄(IVT)將mRNA反轉(zhuǎn)錄為cDNA并進(jìn)行擴增蕊退。 最近開發(fā)的協(xié)議在捕獲階段(上面的步驟1)使用唯一的分子標(biāo)識符(UMI)標(biāo)記轉(zhuǎn)錄物郊楣,該分子標(biāo)識符是隨機核苷酸序列[21]。 原則上瓤荔,每個捕獲的轉(zhuǎn)錄本都用不同的UMI標(biāo)記净蚤,這可以在下游對擴增偏差進(jìn)行校正。 然后將擴增的cDNA片段化输硝,然后在擴增子片段的末端添加分子銜接子今瀑,以實現(xiàn)高通量測序。 圖書館可以保留每個轉(zhuǎn)錄本的全長点把,也可以標(biāo)記每個mRNA的30或50末端-選擇的依據(jù)是進(jìn)一步的考慮橘荠。 排序通常是高度多路復(fù)用的,取決于上游選擇郎逃,可以是單端或成對的哥童。 一個重要的考慮因素可能是每個細(xì)胞的測序深度,通常與所分析的細(xì)胞數(shù)量有關(guān)[22]褒翰。從單細(xì)胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)中鑒定細(xì)胞類型47
1.3 Batch Effectsin scRNA-Seq Analysis
細(xì)胞類型的數(shù)據(jù)驅(qū)動識別可能會被批處理效應(yīng)(batcheffects)所混淆贮懈,批處理效應(yīng)是由在不同時間、使用不同試劑批次优训、不同實驗人員或三個[23]混合制備的實驗復(fù)制之間的細(xì)微但系統(tǒng)的差異造成的朵你。由于技術(shù)因素,批量效應(yīng)會導(dǎo)致相同細(xì)胞類型的轉(zhuǎn)錄組狀態(tài)在不同復(fù)制之間發(fā)生變化;當(dāng)這種效應(yīng)很強時揣非,細(xì)胞可以按批次聚集抡医,而不是按生物學(xué)特性聚集。如果除了轉(zhuǎn)錄差異外早敬,不同批次的特定細(xì)胞類型的頻率也不同魂拦,也會產(chǎn)生批處理效應(yīng)[24,25]毛仪。如果不同的生物條件(例如搁嗓,控制與擾動)或不同的樣品來源(例如芯勘,來自癌癥患者的活檢)在不同的批次中進(jìn)行處理,在統(tǒng)計上不可能消除生物學(xué)效應(yīng)和技術(shù)效應(yīng)腺逛。雖然批次效應(yīng)可以通過仔細(xì)的實驗設(shè)計來減輕荷愕,包括不同生物條件在實驗批次之間的均勻分布(“塊設(shè)計”),但如果樣品處理的延遲會影響質(zhì)量棍矛,這種設(shè)計在邏輯上可能并不總是可行的安疗。在這種情況下,細(xì)胞類型and在單個實驗批次中識別出的分子信號必須被懷疑,只有在多個獨立復(fù)制或其他數(shù)據(jù)模型中支持這些結(jié)果時够委,才能相信它們荐类。檢測和糾正批處理效應(yīng)是計算創(chuàng)新的一個不斷發(fā)展的領(lǐng)域,最近提出了許多方法[24 26]茁帽。
未來有希望的研究途徑包括將scrna -seq數(shù)據(jù)直接與其他數(shù)據(jù)模式集成玉罐。特別是,最近將RNA-seq與空間定位(如fisseq[27]和“空間轉(zhuǎn)錄組學(xué)”[28])聯(lián)系起來的發(fā)展潘拨,以及高分辨率和擴展顯微鏡技術(shù)的出現(xiàn)吊输,都是在原位單細(xì)胞水平上收集轉(zhuǎn)錄組范圍的信息,而不需要細(xì)胞分裂铁追。除了消除細(xì)胞類型或轉(zhuǎn)錄本中與解離相關(guān)的偏差外季蚂,轉(zhuǎn)錄組學(xué)和空間定位的整合將創(chuàng)建基于組織的細(xì)胞類型地圖集,提供一種無偏的高度多路復(fù)用的情況下雜交方法[29,30]琅束。類似地扭屁,其他交叉模式技術(shù)也處于成熟的不同階段:這些包括連接單細(xì)胞RNA-seq與電生理測量(Patch-Seq[31])、基因擾動(CRISPR-Seq和擾動seq[32])涩禀、蛋白質(zhì)表達(dá)(CITE-Seq[33])和譜系追蹤(MEMOIR [34]料滥, scGESTALT[35])。所有這些技術(shù)以及其他技術(shù)的大規(guī)模應(yīng)用即將出現(xiàn)埋泵,并將導(dǎo)致復(fù)雜組織中細(xì)胞類型的新的多模態(tài)分類和表征幔欧。最終,單細(xì)胞轉(zhuǎn)錄組學(xué)的力量丽声,及其相關(guān)的計算方法礁蔗,將繼續(xù)作為產(chǎn)生關(guān)于復(fù)雜組織的組織、調(diào)節(jié)和功能的新假設(shè)的關(guān)鍵組成部分而取得進(jìn)展雁社。盡管有這些發(fā)展浴井,細(xì)胞類型識別的scRNA-seq數(shù)據(jù)分析的基本方法仍然基于一個基本框架,如下所述
2 Methods
以下工作流程(圖2概述)描述了用于從單核(sn)RNA-seq數(shù)據(jù)識別分子上不同的細(xì)胞類型的基本計算步驟霉撵。 但是磺浙,它不涉及與原始測序數(shù)據(jù)的預(yù)處理洪囤,比對和量化有關(guān)的任何步驟,這些步驟已在其他地方進(jìn)行了介紹[36撕氧,37]瘤缩。 我們使用R編程語言(https://www.r-project.org),它是用于多種基因組分析的通用平臺伦泥,并得益于廣泛的統(tǒng)計和生物信息庫的可用性剥啤。 多年以來,已經(jīng)開發(fā)出了許多用于單細(xì)胞跨膜分析的軟件包(https://github.com/seandavi/awesome-single-cell)不脯,其中許多可以通過Bioconductor獲得府怯。生物信息學(xué)圖書館的開放源代碼檔案,擁有活躍的用戶社區(qū)防楷。該工作流以前主要使用Seurat包[38]牺丙,這是一組主動維護(hù)的scRNA-seq分析工具
在這里,我們分析了覆蓋人類額葉皮層(FC)复局,視覺皮層(VC)和小腦(CB)的單核(sn)RNA-seq數(shù)據(jù)[39]冲簿。 盡管正文主要指單個“細(xì)胞”,但以下方法和一般概念同樣適用于snRNA-seq數(shù)據(jù)肖揣,也適用于其他單細(xì)胞水平測量民假,例如表觀基因組學(xué)和蛋白質(zhì)(例如,大規(guī)模細(xì)胞計數(shù))數(shù)據(jù)(盡管 統(tǒng)計學(xué)上的考慮有所不同)龙优。我們的工作流程始于基因表達(dá)矩陣X羊异,其行與基因相對應(yīng),其列代表單細(xì)胞彤断。 矩陣的條目表示讀取或轉(zhuǎn)錄本的數(shù)字計數(shù)野舶,具體取決于生成數(shù)據(jù)的scRNA-seq協(xié)議。 盡管我們的演示文稿使用了特定的示例數(shù)據(jù)集宰衙,但是可以使用任何基因表達(dá)矩陣執(zhí)行下面的步驟(圖2)平道。 以下步驟在RStudio(R的一個免費和開源集成開發(fā)環(huán)境(IDE))中實現(xiàn)
2.1 Preprocessing:Read the Count Matrixand Setup the SeuratObject
1.首先,我們加載必要的packages.utilities.Ris是一個腳本供炼,其中包含一些作者為此工作流程編寫的自定義函數(shù)
2.然后一屋,我們讀取從[39]的Gene ExpressionOmnibus提交文件(NCBI Gene Expression Omni-bus,GSE97942)[39]下載的FC袋哼,VC和CB對應(yīng)的各個數(shù)據(jù)矩陣冀墨。 這些存儲在名為Data的本地可訪問文件夾中。 由于這些表達(dá)矩陣的大多數(shù)條目均為“ 0”涛贯,因此我們立即使用Matrix程序包將它們轉(zhuǎn)換為稀疏矩陣格式诽嘉,以減少內(nèi)存占用。
3.接下來,我們在三個組織矩陣中添加“組織起源”標(biāo)簽虫腋,并將它們綁定到一個矩陣中骄酗。 最終矩陣的行對應(yīng)于三個組織矩陣中每一個的基因的并集。 假定不表達(dá)任何矩陣中缺失的基因悦冀。 我們使用Matrix.utils包中的rBind.fill函數(shù)來填充缺失的基因趋翻,從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中識別細(xì)胞類型
4.接下來,我們初始化Seurat類的S4 R對象雏门。 對此對象將執(zhí)行各種下游計算嘿歌。
-
然后我們檢查標(biāo)準(zhǔn)化表現(xiàn)矩陣的維數(shù)和每個樣本的細(xì)胞數(shù)。heresnd@identstore存儲了這些細(xì)胞的樣本ID茁影,與它們的大腦原始區(qū)域相對應(yīng)。
6.因此丧凤,我們有23,413個基因和34,234個細(xì)胞募闲,其中VC中有19,368個細(xì)胞,F(xiàn)C中有10,319個細(xì)胞愿待,CB中有4637個細(xì)胞浩螺。 我們可以使用Seurat繪圖命令VlnPlot(例如,將每個細(xì)胞的基因數(shù)量(nGene)和每個細(xì)胞的轉(zhuǎn)錄本/ UMI數(shù)量(nUMI))可視化為“小提琴圖”(舊的“箱須圖”的經(jīng)典版本)仍侥。 3)
2.2 Normalizethe Data
1.由于細(xì)胞裂解和mRNA捕獲效率的技術(shù)差異要出,兩個等效細(xì)胞的計數(shù)載體在所有基因的轉(zhuǎn)錄本/UMIs總數(shù)上可能不同。這使得有必要首先對數(shù)據(jù)進(jìn)行歸一化农渊,以減弱這些差異患蹂,這分兩個步驟進(jìn)行。這里砸紊,我們選擇總轉(zhuǎn)錄sper細(xì)胞的中位數(shù)作為比例因子传于。這通常被稱為“庫大小規(guī)格化”(b)我們對這樣的標(biāo)量表達(dá)式值應(yīng)用對數(shù)變換,如thatElog(E + 1)(1的添加是為了確保零映射到零值)醉顽。這種信息有兩種可取的特性:100020003000小腦額葉皮層可視皮層識別(cortexidentityngene200040006000小腦額葉皮層可視皮層識別(cortexidentitynumifig)沼溜。每個細(xì)胞的基因數(shù)量(左,y軸)和每個細(xì)胞的UMIs(即轉(zhuǎn)錄本)數(shù)量(右游添,y軸)的樣方分布(如小提琴圖)系草。Dots代表來自單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的細(xì)胞類型的單個細(xì)胞標(biāo)記
它縮小值,使數(shù)據(jù)更均勻地分布在其值范圍內(nèi)唆涝,這在有異常值時尤其有益找都。lSince logAeT?logBeT?logAB??, 它 轉(zhuǎn)換 distancesalong gene-axis log-fold values. 變化其結(jié)果是,不管基因的絕對表達(dá)值如何石抡,細(xì)胞/樣本的表達(dá)差異都被平等對待檐嚣。這對于低表達(dá)的基因,如泛素因子,可能是特別理想的嚎京。
2.3 FeatureSelection: IdentifyHighly Variable Genes
1.在高維數(shù)據(jù)分析中嗡贺,通常選擇特征可能比表示統(tǒng)計噪聲的特征更有價值的特征,這一步驟稱為“特征選擇”鞍帝。在scRNA-seq數(shù)據(jù)中诫睬,這是通過選擇“高度相關(guān)”的基因來完成的。 假設(shè)大多數(shù)基因的變異性不代表有意義的生物學(xué)帕涌。 另一個挑戰(zhàn)是基因的變異性水平與其平均表達(dá)(一種稱為異源城市)的現(xiàn)象有關(guān)摄凡,必須對其進(jìn)行明確說明。 我們使用最近發(fā)表的Poisson-Gamma混合模型[40]進(jìn)行可變基因選擇蚓曼,事實證明該模型能夠準(zhǔn)確捕獲基于UMI的scRNA-seq數(shù)據(jù)的統(tǒng)計特性(圖4)亲澡。
因此,我們在數(shù)據(jù)中找到了1307個可變基因纫版。 我們向讀者介紹其他可變基因選擇方法床绪,例如M3Drop [41],mean-CV回歸[42]或Seurat的內(nèi)置函數(shù)FindVariableGenes其弊。
2.4 Z-Score the Dataand Remove UnwantedSources of VariationUsing LinearRegression
1.與細(xì)胞身份有關(guān)的scRNA-seq數(shù)據(jù)變異可能被許多不需要的變異源掩蓋癞己。 一個共同的挑戰(zhàn)是批次效應(yīng),這可以在等效實驗批次之間的轉(zhuǎn)錄組差異和細(xì)胞類型組成差異中反映出來梭伐。 如前所述痹雅,裂解效率,mRNA捕獲和擴增的變化會導(dǎo)致等效細(xì)胞的轉(zhuǎn)錄組之間出現(xiàn)實質(zhì)性差異糊识。 可能會因生物學(xué)過程(例如細(xì)胞周期绩社,對解離的反應(yīng),應(yīng)激和凋亡)而導(dǎo)致變異的其他來源技掏,這些變異可能會主導(dǎo)所測細(xì)胞的轉(zhuǎn)錄組狀態(tài)铃将。
校正這種影響仍然是研究的一個活躍領(lǐng)域,最近已經(jīng)引入了許多復(fù)雜的方法[24哑梳,25]劲阎,但是我們無法進(jìn)行全面的概述。 在這里鸠真,出于說明目的悯仙,我們刪除了與文庫sizenUMI高度相關(guān)的變異基因表達(dá)。Seurat使用nUMI作為預(yù)測因子對每個基因的表達(dá)水平進(jìn)行線性擬合吠卷,并將殘基作為“校正的”表達(dá)值返回锡垄。 接下來,對每個基因的表達(dá)值進(jìn)行z-scoredor標(biāo)準(zhǔn)化祭隔,
這里的Eij是原始細(xì)胞的校正后的基因表達(dá)值货岭,Eiand是所有細(xì)胞中基因表達(dá)的平均值和標(biāo)準(zhǔn)差。 現(xiàn)在,轉(zhuǎn)化的表達(dá)值在所有基因中均具有零均值和等于1的標(biāo)準(zhǔn)差千贯。2屯仗。 使用Seurat的functionScaleData一起執(zhí)行消除nUMI和z計分的影響,然后將轉(zhuǎn)換后的基因表達(dá)值存儲在slotnd@scale.data中
2.5 The Curseof Dimensionalityand DimensionalityReduction Using PCA
1.對高維scRNA-seq數(shù)據(jù)的分析提出了大量的挑戰(zhàn)搔谴,通常統(tǒng)稱為“維度曲線”(COD)[43]魁袜。對于高維和噪聲的數(shù)據(jù),從相同和不同的細(xì)胞亞群(即例如敦第,細(xì)胞類型)彼此之間的距離可能相等峰弹,因此很難區(qū)分類型內(nèi)的變異和類型間的變異。COD通常有兩種處理方式(圖2)芜果。首先鞠呈,特征/基因的數(shù)量可以過濾,只包括高度可變的基因师幕,如前一節(jié)所述粟按。其次,可以使用一種算法將數(shù)據(jù)投影到一個較低維度的子空間霹粥,該算法保留了原始數(shù)據(jù)的一些重要屬性,包括基因-基因關(guān)系疼鸟,這種選擇通常是由感興趣的潛在生物學(xué)問題決定的后控。降維有多種方法,如主成分分析(PCA)[44]空镜、獨立成分分析(ICA)[45]浩淘、非負(fù)矩陣分解(NMF)[46]、自編碼器和擴散映射(DM)[47]吴攒。降維的結(jié)果是將原始基因表達(dá)數(shù)據(jù)壓縮為更少的“復(fù)合”變量张抄,每個“復(fù)合”變量都是原始基因特征的復(fù)雜組合,根據(jù)算法的不同洼怔,原始基因特征可以是線性的署惯,也可以是非線性的。這些合成特征編碼了前面提到的轉(zhuǎn)錄組的模塊結(jié)構(gòu)镣隶,可以解釋為基因模塊或“元代”极谊,每個元代由一個加權(quán)的基因組合來定義。然后安岂,每個細(xì)胞觀察到的表達(dá)譜可以作為每個異世代的聚合體轻猖,根據(jù)其在該特定細(xì)胞中的活性進(jìn)行加權(quán)。當(dāng)多個宏因子在某些細(xì)胞中被激活而在其他細(xì)胞中不被激活時域那,可能導(dǎo)致細(xì)胞在基因表達(dá)空間中分離咙边。在這幅圖中,每個細(xì)胞類型都是一個分離良好的降維空間中的點云,其位置由基因表達(dá)模塊的活性模式確定败许。2王带。 在這里,我們執(zhí)行主成分分析(PCA)檐束,這是一種經(jīng)典且用途廣泛的降維方法辫秧,可識別最準(zhǔn)確地捕獲數(shù)據(jù)差異的線性子空間[44]。 該子空間的每個個體軸稱為主向量(PV),是原始基因的線性組合兵扬,原始數(shù)據(jù)在這些軸上的投影稱為主成分(或PC)肛循。每個PV由一組權(quán)重定義 對應(yīng)于基因(稱為“載荷”)。 一個PV被認(rèn)為是由具有高權(quán)重(正或負(fù))的基因“驅(qū)動”的柿究,并且兩個PV代表獨立的正交方向。 RunPC的打印輸出將沿頂部PV的最大負(fù)載(正負(fù))基因進(jìn)行掃描.2.6可視化PCA輸出1.Seuratallows以多種方式可視化PCA輸出黄选,這些對獲得生物學(xué)直覺非常有用蝇摸。 沿任意數(shù)量的用戶指定的PV加載(圖5).2 PCAP允許在PC的降維空間中繪制細(xì)胞,并且通嘲煜荩可以突出顯示亞種群結(jié)構(gòu)(圖6).3貌夕。 圖5和圖6顯示了具有高價值的PC1異型樹突狀細(xì)胞的細(xì)胞,其特征是特征性蛋白如蛋白脂蛋白1(PLP1)和Mye-lin堿性蛋白(MBP)的負(fù)載量很高(圖5)民镜。 接下來啡专,PCHeatmapallows可以從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中識別細(xì)胞類型
每個PV由一組與基因?qū)?yīng)的權(quán)重(稱為載荷)定義。一個PV被認(rèn)為是由高權(quán)重(陽性或陰性)的基因驅(qū)動制圈,并且兩個PV被重新發(fā)送獨立的们童、正交的方向。runpcalista打印輸出的基因在PVs上具有最高的量級負(fù)載(陽性和陰性)鲸鹦。
2.6 Visualize PCA Output
Seuratallows有多種可視化PCA輸出的方式慧库,這對獲得生物學(xué)直覺很有用。VizPCA顯示了沿任意多個用戶指定的PV的絕對負(fù)荷最高的基因(圖5)馋嗜。
2齐板。PCAPlotallows在PC的縮減維空間中繪制細(xì)胞, 并且經(jīng)城陡辏可以突出顯示亞種群結(jié)構(gòu)(圖6)覆积。
3。 圖5和圖6顯示了具有高價值的PC1異型少突膠質(zhì)細(xì)胞的細(xì)胞熟呛,其特征是特征性蛋白如蛋白脂蛋白1(PLP1)和Mye-lin堿性蛋白(MBP)的負(fù)載量很高(圖5)宽档。 接下來,PCHeatmapallows可以從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中識別細(xì)胞類型輕松觀察沿數(shù)據(jù)中每個PC的基因表達(dá)變化庵朝,并且在嘗試確定要包括哪些PC進(jìn)行進(jìn)一步的下游分析時特別有用(圖7)吗冤。 細(xì)胞和基因均根據(jù)其PCA分?jǐn)?shù)和沿每個PC的負(fù)荷進(jìn)行排序又厉。 將cells.use設(shè)置為數(shù)字可在頻譜的兩端繪制“極限”單元。 例如椎瘟,在這里我們看到低水平的PC3是星形膠質(zhì)細(xì)胞覆致,其特征是轉(zhuǎn)運蛋白sslc1a2和slc1a3的表達(dá)。
雖然有很多正式的方法來確定數(shù)量統(tǒng)計上顯著的個人電腦(例如,seeShekhar et al .,細(xì)胞,2016[13]),一個特別簡單的和受歡迎的方法是檢查thesuccessive減少方差被增加電腦,andidentify肘部的電腦在哪里的邊際效用(這通常被稱為噪聲地板)肺蔚。我們使用SeuratfunctionPCElbowPlot來實現(xiàn)這一點(圖8)煌妈。
2.7 Identify Clusters
1.我們根據(jù)圖8選擇25臺PC。 因此宣羊,數(shù)據(jù)中的每個單元都從約23,000個基因減少到25個PC(維數(shù)減少了約1000倍h邓小)。 接下來仇冯,我們使用SeuratFindClusters函數(shù)使用基于圖的聚類[48]確定此數(shù)據(jù)中的子種群之宿。 圖聚類在最近的scRNA-seq論文中已得到廣泛使用,并且與其他方法(例如k均值聚類苛坚,分層聚類和基于密度的聚類)相比具有許多理想的屬性比被。在這里,我們首先在kRNA上構(gòu)建k最近鄰圖泼舱。 數(shù)據(jù)等缀,根據(jù)轉(zhuǎn)錄相似性將每個單元連接到其k個最近鄰單元。 使用歐幾里得距離度量娇昙,基于PC空間中的鄰近度來確定最近的鄰居项滑。 接下來,類似于Levine等人[49]所采用的策略涯贞。 和Shekhar等。 文獻(xiàn)[13]基于Jaccard-likeity度量對圖的邊緣權(quán)重進(jìn)行了細(xì)化危喉,從而消除了簇之間的虛假邊緣宋渔。FindClusters實現(xiàn)了一種算法,該算法確定了使PC123的數(shù)學(xué)偏差最大的標(biāo)準(zhǔn)簇辜限。 8前50個PC(x軸)占標(biāo)準(zhǔn)偏差(y軸)皇拣,以便根據(jù)“肘”的存在來大致識別重要PC的數(shù)量。下游分析選擇了大約25臺PC60Karthik Shekhar和Vilas Menon在Jaccard-weightedk-nearest neighbor graph上稱為模塊化的函數(shù)薄嫡。該函數(shù)包含一個aresolution -tionparameter氧急,該參數(shù)調(diào)優(yōu)集群的粒度,增加的值將導(dǎo)致更多的集群毫深。我們使用值1吩坝,但是需要測試此參數(shù)的變化,以檢查其健壯性哑蔫。
-
因此钉寝,我們在數(shù)據(jù)中獲得了26個簇弧呐。我們可以使用t-distributed randomneighbor embedded (t-SNE)[50]來可視化這些細(xì)胞,這是一種保留局部距離的二維嵌入方法(圖9)嵌纲。細(xì)胞根據(jù)光澤標(biāo)簽著色
3.接下來俘枫,我們使用Seurat sBuildClusterTreefunction根據(jù)其平均轉(zhuǎn)錄組的相似性將這些簇排列到樹狀圖上(圖10)。這有助于可視化集群之間的關(guān)系逮走,并揭示相關(guān)集群的子組鸠蚪。
4.在這一點上,重要的是要注意我們是否找到了集群的“最佳”數(shù)量是開放的师溅。重要的是茅信,構(gòu)成細(xì)胞類型集群的標(biāo)準(zhǔn)必須獨立于算法的目標(biāo)——它可以是數(shù)據(jù)驅(qū)動的,比如與其他基因相比险胰,該集群中富集的差異表達(dá)基因的最小數(shù)量汹押,或者算法恢復(fù)某些已知類型(例如,細(xì)胞類型)的能力起便。棚贾、地面真理)。然而榆综,通常妙痹,對scRNA-seq團簇的評價需要通過實驗技術(shù)將分子特性與其他細(xì)胞形態(tài)、位置和功能相結(jié)合鼻疮。這里我們采用一個數(shù)據(jù)驅(qū)動的標(biāo)準(zhǔn)來評估集群的穩(wěn)定性怯伊。簡單地說,Seurat的assessnodefunction在樹狀圖的每個二進(jìn)制節(jié)點上訓(xùn)練一個分類器判沟,并計算左/右集群的分類錯誤耿芹。我們可以使用此信息來折疊任何顯示>15%分類錯誤的節(jié)點。顯示集群(節(jié)點)之間轉(zhuǎn)錄關(guān)系的10樹狀圖62Karthik Shekhar和Vilas Menon
2.8 CompareClusters with OriginalCell Type Labels fromLake et al.
-
在這里挪哄,我們看到最大的包分類錯誤(OOBE)小于我們的閾值吧秕。因此,我們保留了所有26個集群迹炼。接下來砸彬,我們將聚類結(jié)果與發(fā)表在Lake等人的[39]上的光澤標(biāo)簽進(jìn)行比較,后者在分析中列出了33個聚類斯入。雖然我們的聚類數(shù)量明顯較少砂碉,但研究它們與Lake等人的結(jié)果的比較將會很有趣。我們首先閱讀它們的集群標(biāo)簽
在此刻两,Ast表示星形膠質(zhì)細(xì)胞增蹭,End表示內(nèi)皮細(xì)胞,Ex1表示興奮性神經(jīng)元組1闹伪,依此類推沪铭。 為了將集群標(biāo)簽與Lake等人的標(biāo)簽進(jìn)行比較壮池,我們繪制了一個“混淆矩陣”,其中每一行對應(yīng)于Lake等人的33個集群之一杀怠,而每一列對應(yīng)于我們的集群(圖11)椰憋。 對矩陣進(jìn)行行歸一化,以描述Lake等人的每個集群如何赔退。 從單細(xì)胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)中識別細(xì)胞類型63
-
令人鼓舞的是橙依,我們發(fā)現(xiàn),盡管我們的分析工作流程與原始論文中報告的結(jié)果無關(guān)硕旗,但我們的許多集群與集群ofLake等人呈現(xiàn)出1:1的對應(yīng)關(guān)系窗骑。例如,Cluster 21 (n 624)對應(yīng)于
小膠質(zhì)細(xì)胞(Mic)漆枚,而簇25(n?4058細(xì)胞)對應(yīng)于少突膠質(zhì)細(xì)胞(Oli)创译。 在多個Lake等人的情況下。 集群映射到我們的集群墙基,這些是相關(guān)的软族。 例如,浦肯野細(xì)胞簇Purk1和Purk2映射到Clus-ter 1(n977)残制,而抑制性神經(jīng)元In6a和In6b映射到簇6(n1462)立砸。 可能有必要進(jìn)行第二輪迭代聚類,以解決緊密相關(guān)的類型(例如In6a和In6b)之間的差異初茶。盡管這令人鼓舞颗祝,但我們也注意到一些差異-第2類(n 390),24(n 139)和26(n?30)確實存在差異恼布。 這些簇通常不對應(yīng)于Lake等的任何一個簇螺戳,而集群18(n2061)和19(n?2877)似乎沒有特別地映射到許多Lake等。 集群3折汞。 我們可以可視化每個三腦區(qū)域的簇組成(圖12)
從圖中可以看出温峭,包括Purkinjeneurons和小腦顆粒細(xì)胞在內(nèi)的1 4和26個簇是CB樣本所獨有的,而其余的簇主要來源于theFC和VC樣本字支。
2.9 Identify Cluster-Specific DifferentiallyExpressed Genes
-
接下來,我們使用Seurat sFindMarkersfunction在每個集群和其他集群之間執(zhí)行不同的表達(dá)式(DE)分析奸忽,從而找到特定于集群的標(biāo)記堕伪。findmarkers支持使用多種統(tǒng)計方法進(jìn)行DE(在測試中指定)。useparameter seeSeurat文檔)栗菜。在這里欠雌,我們用學(xué)生的t-test,因為它計算效率高疙筹。然而富俄,我們注意到對于單細(xì)胞RNA-seq數(shù)據(jù)的t檢驗有許多限制禁炒,特別是its無法計算零通脹。 讀者必須探索其他方法霍比,例如由Seurat支持的MAST和tweeDEseq(有關(guān)DE方法的全面綜述幕袱,請參見Sonson和Robinson [51])。
-
輸出是總結(jié)特定于集群的標(biāo)記的ada .frameobject悠瞬。在這里们豌,每一行是一個基因,豐富的acluster顯示在列集群浅妆。pct望迎。1是簇中表達(dá)這一標(biāo)記的前部分細(xì)胞,而epct凌外。2是背景中表達(dá)該標(biāo)記的細(xì)胞比例辩尊。我們可以按如下方式檢查給定集群的標(biāo)記
3.如預(yù)期的那樣,前兩個基因是少突膠質(zhì)細(xì)胞的經(jīng)典標(biāo)記物PLP1(蛋白脂質(zhì)蛋白1)和MOBP(髓磷脂相關(guān)少突膠質(zhì)細(xì)胞堿性蛋白)康辑。 接下來摄欲,我們檢查集群12(一個興奮性神經(jīng)元簇),它對應(yīng)于Ex6a晾捏,并由包括HTR2C和NPSR1-AS1在內(nèi)的多個基因標(biāo)記(圖13)
詳細(xì)檢查這些集群的標(biāo)識超出了這個工作流的范圍蒿涎。我們鼓勵讀者深入挖掘,并嘗試測試上述方法的變化惦辛。最后劳秋,我們演示了兩種常見的解釋結(jié)果的方法:(a)檢測基因集豐富度,(b)調(diào)整備選數(shù)據(jù)集的簇胖齐。
2.10 ExamineClustersfor Enrichmentof BiologicalProcesses
1.識別標(biāo)記后玻淑,我們可以評估簇特異性基因是否豐富了任何基因本體論(GO),疾病本體論(DO)或疾病基因網(wǎng)絡(luò)(DGN)基因列表或類別呀伙。 這些調(diào)用中的每一個都有多個參數(shù)补履,反映出統(tǒng)計重疊的嚴(yán)格性,但是它們對于評估功能或疾病相關(guān)性的群集是有用的工具剿另。
-
例如箫锤,查看GO、DO和DGN類別豐富的基因區(qū)分簇1(浦肯野神經(jīng)元)雨女。請注意谚攒,這些類別是根據(jù)調(diào)整后的p值排列的,而且許多類別并沒有顯著地豐富氛堕。從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中識別細(xì)胞類型
2.11 Comparewith Mouse CorticalCell Types
-
細(xì)胞類型分類研究中面臨的眾多挑戰(zhàn)之一是如何在不同的數(shù)據(jù)集上調(diào)整聚類馏臭,這些數(shù)據(jù)集可能包括不同的批次、不同的條件(例如讼稚,正常與疾病)括儒,甚至不同的物種绕沈。在這里,我們嘗試使用智能seqmethod[15]將從成年小鼠中分離和分析的視覺皮層(VC)神經(jīng)元的數(shù)據(jù)集中的集群映射到使用管理學(xué)習(xí)算法的人類CB帮寻、VC和FC集群乍狐。我們使用前面描述的[13]的多類分類方法。
首先规婆,我們讀取由1679個單元格組成的鼠標(biāo)VC數(shù)據(jù)澜躺,并創(chuàng)建一個SeuratS4對象。 為了使基因ID與Humandata匹配抒蚜,我們將所有基因名稱都大寫-請注意掘鄙,更精確,更冗長的方法是基于適當(dāng)?shù)恼粩?shù)據(jù)庫匹配基因嗡髓。 我們還讀取了每個單元的群集分配操漠。 Tasic等。 確定了49種轉(zhuǎn)錄組類型饿这,包括23種抑制型浊伙,19種興奮性和7種非神經(jīng)元類型[15]。 Wenext選擇功能來訓(xùn)練我們的分類器长捧。 我們使用Seurat的FindVariableGenes函數(shù)(圖14)來識別可變基因嚣鄙,它更適合于Smart-seq數(shù)據(jù)[40]。 使用NB.var.genes擴展snRNA-seq數(shù)據(jù)中的可變基因集后串结,我們計算出通用可變基因以訓(xùn)練多類分類器哑子。
2.接下來,我們在snRNA-seq數(shù)據(jù)上訓(xùn)練一個隨機森林(RF)模型[52]肌割,并使用該模型將簇標(biāo)簽分配給mouseVC數(shù)據(jù)卧蜓。 給定一個單元格,分類器將其映射到26個集群之一中把敞,以解決snRNA-seq(3-0偏置弥奸,基于UMI的)和Smart-seq(全長,基于非UMI的)之間的尺度差異 奋早,我們將兩個數(shù)據(jù)集標(biāo)準(zhǔn)化(每個基因的z得分值)盛霎。 在snRNA-seq數(shù)據(jù)上對其進(jìn)行訓(xùn)練后,我們將該分類器從鼠標(biāo)VC數(shù)據(jù)應(yīng)用于每個細(xì)胞耽装,并將其分配給26個snRNA-seq群集之一摩渺。
3.群集分配與從Tasic等人獲得的群集標(biāo)簽相比如何? [15]剂邮? 請注意,后一種標(biāo)簽未以任何方式用于構(gòu)建分類器或影響細(xì)胞的簇分配横侦。 因此挥萌,有趣的是绰姻,根據(jù)無偏分類器,在小鼠皮層細(xì)胞類型及其分配的“人類”類型之間是否存在任何對應(yīng)關(guān)系引瀑。 我們像以前一樣檢查混淆矩陣(圖15)狂芋,
這些行對應(yīng)于Tasic等。 簇憨栽,而每個列對應(yīng)一個snRNA-seq簇帜矾。 矩陣進(jìn)行行歸一化,因此每一行總計為100%屑柔。 首先屡萤,我們發(fā)現(xiàn)小腦起源的聚類1-4和26從鼠標(biāo)VC數(shù)據(jù)獲得的匹配很少,這些數(shù)據(jù)在很大程度上映射到源自VC和FC樣本的人類聚類掸宛。 在非神經(jīng)元細(xì)胞中死陆,我們看到小鼠星形膠質(zhì)細(xì)胞和少突膠質(zhì)細(xì)胞映射到群集23和25,分別是人類星形膠質(zhì)細(xì)胞和少突膠質(zhì)細(xì)胞唧瘾。 抑制性神經(jīng)元組分別表達(dá)小白蛋白(Pvalb)措译,生長抑素(Sst)和血管活性間肽(Vip)映射到簇6、5和8饰序,檢查snRNA-seq數(shù)據(jù)中這些標(biāo)志物的表達(dá)可驗證RF 集群分配(圖16)领虹。 因此,盡管事實上這兩個數(shù)據(jù)集在物種(人與小鼠)上有所不同求豫,但對細(xì)胞餾分進(jìn)行了分析(僅胞質(zhì)與僅細(xì)胞核)塌衰,分析方法(智能測序與基于液滴的測序)和聚類方法(基因聚類 與基于PCA的方法與基于PCA-Louvain聚類的方法相比,總體結(jié)果具有可比性和可解釋性注祖,這表明這些細(xì)胞所占據(jù)的轉(zhuǎn)錄組空間已被適當(dāng)?shù)亟馕鰹閬喰汀?br>