文獻(xiàn)名稱(chēng):教程:?jiǎn)渭?xì)胞 RNA 測(cè)序數(shù)據(jù)的計(jì)算分析指南
文獻(xiàn)期刊:nature protocols
發(fā)表時(shí)間:2021-1-9
摘要
單細(xì)胞 RNA 測(cè)序技術(shù) (scRNA-seq) 是一種流行且功能強(qiáng)大的技術(shù),可以分析大量單個(gè)細(xì)胞的整個(gè)轉(zhuǎn)錄表達(dá)譜撰洗。然而灭袁,這些針對(duì)這些單細(xì)胞實(shí)驗(yàn)產(chǎn)生的大量數(shù)據(jù)的分析牛哺,需要專(zhuān)門(mén)的統(tǒng)計(jì)和計(jì)算方法坷衍。本篇文章瞧哟,我們概述涉及處理 scRNA-seq 數(shù)據(jù)的計(jì)算工作流程。我們討論了一些最常見(jiàn)的分析任務(wù)和可用于解決核心生物學(xué)問(wèn)題的工具。在本文和我們的配套網(wǎng)站 (https://scrnaseq course.cog.sanger.ac.uk/website/index.html) 中盐类,我們提供了執(zhí)行單細(xì)胞相關(guān)計(jì)算分析的最佳實(shí)踐的指南寞奸。本教程針對(duì)對(duì)他們自身數(shù)據(jù)感興的實(shí)驗(yàn)科研工作者以及尋求開(kāi)發(fā)新計(jì)算方法的生物信息學(xué)家。
簡(jiǎn)介
scRNA-seq 已成為一種革命性的技術(shù)在跳,用于表征復(fù)雜組織并回答bulk RNA-seq無(wú)法解決的問(wèn)題枪萄。自 2009年發(fā)布第一個(gè) scRNA-seq實(shí)驗(yàn)以來(lái),已經(jīng)發(fā)布了許多單細(xì)胞實(shí)驗(yàn)技術(shù)和商業(yè)平臺(tái)猫妙。當(dāng)前兩大主要的 scRNA-seq技術(shù)平臺(tái)是:
1.最常見(jiàn)的方法是使用微滴(microscopic droplets)或孔板(wells)來(lái)分離大量細(xì)胞瓷翻,然后對(duì)文庫(kù)進(jìn)行測(cè)序深度相對(duì)較淺地測(cè)序。為了識(shí)別給定轉(zhuǎn)錄本來(lái)自哪個(gè)細(xì)胞割坠,這些方法使用細(xì)胞條形碼(cellular barcodes齐帚,連接到每個(gè)read的短核苷酸標(biāo)簽,對(duì)于液滴或孔板是唯一的)彼哼。當(dāng)前主流的 10× Chromium 實(shí)驗(yàn)平臺(tái)是典型的高通量对妄、低測(cè)序深度的范例。該技術(shù)的一個(gè)重要優(yōu)勢(shì)是它支持唯一分子標(biāo)識(shí)符 (UMI)敢朱。UMI 是在PCR擴(kuò)增前附加到轉(zhuǎn)錄本上的短條形碼剪菱,從而可以去除PCR聚合酶鏈反應(yīng)重復(fù)拷貝,消除PCR擴(kuò)增偏好性拴签,獲得更準(zhǔn)確的基因表達(dá)水平估計(jì)孝常。 該技術(shù)一個(gè)主要缺點(diǎn)是該平臺(tái)僅允許對(duì)每個(gè)信使 RNA (mRNA) 的 5' 或 3' 端進(jìn)行測(cè)序。
2.但是篓吁,許多研究采取了相反的策略茫因,即分離相對(duì)較少的細(xì)胞蚪拦,但對(duì)它們進(jìn)行更深的測(cè)序杖剪。這些低通量、高測(cè)序深度的實(shí)驗(yàn)通常將細(xì)胞分離到單個(gè)孔中并應(yīng)用 Smart-seq2技術(shù)驰贷。除了最近引入的 Smart-seq3 實(shí)驗(yàn)技術(shù)外盛嘿,這些方法不支持 UMI,但它們通常表現(xiàn)出比基于液滴的技術(shù)更高的靈敏度括袒,并且它們還允許對(duì)整個(gè)轉(zhuǎn)錄本進(jìn)行分析次兆。有關(guān)不同平臺(tái)的詳細(xì)概述,請(qǐng)參閱最新的綜述和基準(zhǔn)測(cè)試锹锰。
除了優(yōu)化實(shí)驗(yàn)工作流程之外芥炭,最近的創(chuàng)新還大大減少了scRNA-seq中每個(gè)細(xì)胞的成本。因此恃慧,用于分析的細(xì)胞數(shù)量呈指數(shù)增長(zhǎng)园蝠。鑒于生成的大量數(shù)據(jù),單細(xì)胞數(shù)據(jù)分析需要有效的計(jì)算和統(tǒng)計(jì)方法痢士。隨著實(shí)驗(yàn)技術(shù)的迅速改進(jìn)彪薛,用于處理數(shù)據(jù)的計(jì)算工作流程也得到了改進(jìn)。本教程的目的是概述最常見(jiàn)的 scRNA-seq 數(shù)據(jù)分析類(lèi)型。本文旨在作為我們?yōu)橹v授 scRNA-seq 數(shù)據(jù)的計(jì)算分析而開(kāi)發(fā)的課程材料 (https://scrnaseq-course.cog.sanger.ac.uk/website/index.html) 的配套材料善延。該網(wǎng)站于 2016 年首次推出少态,并不斷更新以包含新方法并提供有關(guān)最佳實(shí)踐的最新建議。
scRNA-seq分析的一個(gè)核心組成部分是基因表達(dá)矩陣易遣,它表示每個(gè)基因種每個(gè)細(xì)胞觀(guān)察到的轉(zhuǎn)錄本數(shù)量彼妻。工作流程可分為兩個(gè)主要部分:1)生成基因表達(dá)矩陣;2)基因表達(dá)矩陣的分析(圖1和表1)训挡。雖然我們的在線(xiàn)教程包含這兩個(gè)方面澳骤,但在這里,我們將重點(diǎn)介紹在獲得基因表達(dá)矩陣后執(zhí)行的分析類(lèi)型澜薄。大多數(shù)基因僅在一部分細(xì)胞類(lèi)型表達(dá)为肮,但是,由于起始材料的含量較低肤京,以及scRNA-seq實(shí)驗(yàn)中常用的測(cè)序深度較低颊艳,一些基因即使表達(dá)也無(wú)法檢測(cè)到。導(dǎo)致基因表達(dá)矩陣中存在大量零值忘分,這是有問(wèn)題的棋枕,因?yàn)橐恍┝阒悼赡艽砑?xì)胞中的實(shí)際低表達(dá)或零表達(dá)以及測(cè)量過(guò)程的變化。區(qū)分和適當(dāng)建模這些觀(guān)察到的零值來(lái)源的困難是計(jì)算分析的主要挑戰(zhàn)之一妒峦。即使深度測(cè)序的數(shù)據(jù)集也可能有約50%的零值重斑,而低測(cè)序深度的數(shù)據(jù)集可能有99%的零值。相比之下肯骇,在bulk RNA-seq數(shù)據(jù)集中窥浪,小于20%的數(shù)據(jù)條目為零值。
數(shù)據(jù)質(zhì)控
分析 scRNA-seq 的第一步是剔除不太可能代表完整單個(gè)細(xì)胞的細(xì)胞條形碼笛丙。對(duì)于高通量方法漾脂,關(guān)鍵步驟是過(guò)濾掉不代表細(xì)胞的細(xì)胞條形碼。最直接的方法是計(jì)算特定于數(shù)據(jù)集的細(xì)胞所需的最小 UMI 數(shù)量(閾值)胚鸯,高于閾值的將此類(lèi)條形碼視為細(xì)胞骨稿。最近開(kāi)發(fā)的一些工具,例如 EmptyDrops姜钳,首先估計(jì)存在于空孔或液滴中RNA的背景水平坦冠,然后識(shí)別與背景顯著偏離的細(xì)胞條形碼,將此視為細(xì)胞哥桥。這種策略的優(yōu)勢(shì)在于辙浑,它能夠檢測(cè)相對(duì)于樣本中其他細(xì)胞而言,RNA含量較低的細(xì)胞類(lèi)型泰讽。
不幸的是例衍,這些方法都不能將完整的活細(xì)胞與受損或垂死的細(xì)胞區(qū)分開(kāi)來(lái)昔期。必須進(jìn)行第二輪數(shù)據(jù)質(zhì)控,考慮檢測(cè)到的基因數(shù)量佛玄、來(lái)自線(xiàn)粒體基因組的RNA比例以及每個(gè)細(xì)胞比對(duì)不上或多重比對(duì)read的比例硼一。線(xiàn)粒體來(lái)源的基因比例高、檢測(cè)到的基因少或未比對(duì)或多重比對(duì)read比例高的細(xì)胞通常會(huì)受損或死亡梦抢。具體閾值通常通過(guò)手動(dòng)檢查數(shù)據(jù)質(zhì)控指標(biāo)圖來(lái)確定般贼,因?yàn)樽罴验撝等Q于組織、細(xì)胞解離方案和其他技術(shù)因素奥吩。為關(guān)鍵指標(biāo)定義異常值細(xì)胞(根據(jù)中值絕對(duì)偏差)能夠直接構(gòu)建數(shù)據(jù)集特定的閾值哼蛆,但應(yīng)謹(jǐn)慎應(yīng)用,特別是對(duì)于包含高異質(zhì)細(xì)胞類(lèi)型的樣本 霞赫。
除了一些表示背景噪聲的細(xì)胞條形碼外腮介,細(xì)胞條形碼也可能對(duì)應(yīng)于多個(gè)細(xì)胞。通常端衰,約5%的細(xì)胞條形碼標(biāo)記多個(gè)細(xì)胞叠洗,稱(chēng)為doublets。此外旅东,最近的研究結(jié)果表明灭抑,多達(dá)20%的情況下,多個(gè)細(xì)胞條形碼可能標(biāo)記同一個(gè)單細(xì)胞抵代,稱(chēng)為多重條形碼(barcode multiplets)腾节。scrublet和DoubletFinder 等工具從數(shù)據(jù)集本身模擬可能的雙細(xì)胞,然后計(jì)算真實(shí)液滴條形碼與模擬雙細(xì)胞的相似性荤牍,并定義閾值以區(qū)分推斷的雙細(xì)胞和假設(shè)的單細(xì)胞案腺。其他方法也可以成功應(yīng)用(例如scds),但雙細(xì)胞檢測(cè)是一個(gè)復(fù)雜的問(wèn)題参淫,并且不能期望計(jì)算雙細(xì)胞檢測(cè)方法能夠在所有實(shí)驗(yàn)設(shè)計(jì)中完美執(zhí)行救湖。
問(wèn)題:多個(gè)cell barcode對(duì)應(yīng)單個(gè)細(xì)胞愧杯;這種的處理方法是什么涎才?
查看《Inference and effects of barcode multiplets in droplet-based single-cell assays》文獻(xiàn):
基于液滴的分流系統(tǒng)已成為單細(xì)胞基因組學(xué)研究必不可少的工具。與基于板的單細(xì)胞測(cè)定相比力九,基于液滴的方法耍铜,包括scRNA-seq和 scATAC-seq技術(shù),可以在單個(gè)實(shí)驗(yàn)分析數(shù)千個(gè)細(xì)胞跌前。檢測(cè)細(xì)胞通量的顯著增加是通過(guò)使用bead對(duì)細(xì)胞cDNA進(jìn)行平行條形碼來(lái)實(shí)現(xiàn)高度多樣性的DNA條形碼棕兼。至關(guān)重要的是,下游的計(jì)算分析假設(shè)一個(gè)條形碼序列等同于一個(gè)細(xì)胞抵乓。
在這項(xiàng)工作中伴挚,我們提供了多條證據(jù)表明細(xì)胞通常通過(guò)(i)多個(gè)beads出現(xiàn)在同一個(gè)液滴內(nèi)靶衍;(ii)單個(gè)bead內(nèi)存在異質(zhì)性的寡核苷酸序列(圖1a)。這里茎芋,我們指的是在同一液滴中出現(xiàn)多個(gè)DNA條形碼的情況颅眶,即“barcode multiplets”。我們發(fā)現(xiàn)多重條形碼會(huì)顯著影響單細(xì)胞分析和證明罕見(jiàn)的細(xì)胞事件(例如田弥,細(xì)胞克隆型分析)涛酗。此外,我們提供了針對(duì)現(xiàn)有的單細(xì)胞數(shù)據(jù)集偷厦,特別是scATAC-seq平臺(tái)商叹,識(shí)別這些多重條形碼的計(jì)算解決方案。最后只泼,我們提供了緩解現(xiàn)有分析中這類(lèi)多重barcode偏差的建議剖笙。
歸一化
從測(cè)序?qū)嶒?yàn)中獲得的有用read數(shù)將因細(xì)胞而異,必須糾正這種差異请唱。對(duì)于scRNA-seq數(shù)據(jù)枯途,這種影響是顯著的,因?yàn)槊總€(gè)細(xì)胞的RNA的數(shù)量可能會(huì)因細(xì)胞周期階段和其他生物因素而顯著變化籍滴,即使在相同的細(xì)胞類(lèi)型內(nèi)也是如此酪夷。技術(shù)因素(例如,不同的液滴大心醵琛)可能會(huì)進(jìn)一步增加測(cè)序深度的可變性晚岭。由測(cè)序深度不均一而產(chǎn)生的差異可以通過(guò)歸一化來(lái)改善。
針對(duì)bulk RNA-seq數(shù)據(jù)勋功,歸一化相當(dāng)于計(jì)算與樣本測(cè)序深度相關(guān)的數(shù)量坦报,通常稱(chēng)為“size factor”,并將所有基因的表達(dá)計(jì)數(shù)除以該值狂鞋。原則上片择,類(lèi)似的方法可以用于scRNA-seq,但大量的零意味著需要修改策略骚揍。scran包通過(guò)使用細(xì)胞池來(lái)估計(jì)size factor實(shí)現(xiàn)穩(wěn)健的結(jié)果字管。或者信不,可以使用外部來(lái)源的RNA對(duì)照組或看家基因的RNA表達(dá)計(jì)數(shù)來(lái)估計(jì)size factor嘲叔。
由于大量的零值,低表達(dá)基因的轉(zhuǎn)錄行為可能與高表達(dá)基因不同抽活,以響應(yīng)不同的測(cè)序深度硫戈。為了補(bǔ)償這種行為,可以使用特定于每個(gè)基因表達(dá)水平的歸一化策略下硕。例如丁逝,SCnorm可用于低通量汁胆、高測(cè)序深度數(shù)據(jù),sctransform可用于高通量霜幼、低測(cè)序深度的數(shù)據(jù)沦泌。2019年,開(kāi)發(fā)了一種新的用于scRNA-seq基因表達(dá)計(jì)數(shù)縮放和推斷的貝葉斯方法辛掠,稱(chēng)為bayNorm谢谦,其目的是在考慮mRNA捕獲的影響后估計(jì)潛在的基因表達(dá)矩陣。
批次校正
與測(cè)序深度的差異類(lèi)似萝衩,批次效應(yīng)是必須考慮的技術(shù)混雜因素回挽,這樣才能出現(xiàn)真正的生物信號(hào)。批次效應(yīng)是生物學(xué)中的一個(gè)常見(jiàn)問(wèn)題猩谊,它們?cè)从诜巧飳W(xué)因素的差異千劈,例如實(shí)驗(yàn)時(shí)間、進(jìn)行實(shí)驗(yàn)的人或試劑的差異牌捷。如果沒(méi)有適當(dāng)考慮墙牌,批次效應(yīng)可能會(huì)被誤認(rèn)為是真正的生物信號(hào),但是暗甥,通過(guò)仔細(xì)的實(shí)驗(yàn)設(shè)計(jì)喜滨,它們可以完全避免。要將批次效應(yīng)校正應(yīng)用于數(shù)據(jù)集撤防,不能混淆實(shí)驗(yàn)(即每個(gè)批次必須包含至少兩個(gè)生物條件)虽风。當(dāng)在所有批次中處理所有生物條件時(shí),批次效應(yīng)校正最有效寄月,稱(chēng)為“平衡設(shè)計(jì)”辜膝。不幸的是,當(dāng)樣本不能同時(shí)處理時(shí)(例如漾肮,如果細(xì)胞在收集后需要立即處理)厂抖,通常不可能實(shí)現(xiàn)平衡設(shè)計(jì)。
傳統(tǒng)的校正批次的方法克懊,如ComBat忱辅,假設(shè)每個(gè)細(xì)胞的生物學(xué)狀況是先驗(yàn)的,并利用此信息使用線(xiàn)性模型將生物效應(yīng)與批量效應(yīng)分離。然而,這種假設(shè)通常不適用于scRNA序列數(shù)據(jù)歧杏,因?yàn)閱蝹€(gè)細(xì)胞的細(xì)胞類(lèi)型身份可能未知逻澳。為了應(yīng)對(duì)這一挑戰(zhàn),mnnCorrect使用不同批次中細(xì)胞之間的相互最近鄰來(lái)識(shí)別批次后的常見(jiàn)生物狀況蒜魄。這種相互最近鄰方法也適用于為Seurat的典型相關(guān)分析(CCA)方法找到“錨”扔亥。這兩種工具之間的主要區(qū)別是场躯,mnnCorrect使用PCA從基因表達(dá)矩陣中刪除批量效應(yīng),而CCA將細(xì)胞投影到一個(gè)共同的基因相關(guān)空間旅挤,并在該空間上執(zhí)行校正踢关。然而,即使是這些單細(xì)胞特定工具也假設(shè)跨批次共享生物條件粘茄,如果應(yīng)用于一個(gè)有爭(zhēng)議的實(shí)驗(yàn)签舞,也會(huì)錯(cuò)誤地去除真實(shí)的生物信號(hào)。
缺值填補(bǔ)和平滑
許多歸一化策略不會(huì)更改零值柒瓣,因此很容易假設(shè)它們代表缺失值儒搭,并從檢測(cè)到的轉(zhuǎn)錄本通過(guò)數(shù)學(xué)推導(dǎo)獲得的估計(jì)值進(jìn)行填充。原則上芙贫,刪除零值可以減少噪音搂鲫,并使其更容易識(shí)別數(shù)據(jù)的潛在結(jié)構(gòu)(例如,基因-基因相關(guān)性磺平、細(xì)胞cluster魂仍、標(biāo)記基因或發(fā)育軌跡)。
已經(jīng)開(kāi)發(fā)了幾種工具來(lái)“填補(bǔ)”在scRNA-seq數(shù)據(jù)中發(fā)現(xiàn)的零值拣挪,包括scImpute, DrImpute和SAVER擦酌。DrImpute和scImpute的性能類(lèi)似,而SAVER對(duì)數(shù)據(jù)的影響較小菠劝,產(chǎn)生的虛假信號(hào)更少仑氛。這些工具都依賴(lài)于在數(shù)據(jù)中找到可用于預(yù)測(cè)缺失值表達(dá)水平的數(shù)據(jù)結(jié)構(gòu)。然而闸英,這些方法假設(shè)數(shù)據(jù)集中的所有基因都由已識(shí)別的結(jié)構(gòu)(已有的基因表達(dá)矩陣)確定锯岖,經(jīng)常導(dǎo)致引入大量假陽(yáng)性信號(hào)。
其他工具甫何,如使用擴(kuò)散模型的MAGIC和使用自動(dòng)編碼器的scVI出吹,應(yīng)用平滑算法來(lái)減少噪聲。因此辙喂,這些方法采用數(shù)據(jù)驅(qū)動(dòng)的方法捶牢,假設(shè)缺失值可以從具有類(lèi)似基因表達(dá)譜的其他細(xì)胞中推斷出來(lái)。與基于模型的零值填補(bǔ)方法類(lèi)似巍耗,它們可以更容易地檢測(cè)下游分析中的結(jié)構(gòu)秋麸。這種算法的一個(gè)缺點(diǎn)是,基礎(chǔ)模型可能會(huì)扭曲真實(shí)結(jié)構(gòu)(例如炬太,通過(guò)放大隨機(jī)噪聲)灸蟆,這可能會(huì)被誤認(rèn)為是生物模式。隨著公開(kāi)可用的單細(xì)胞圖譜數(shù)量的增加亲族,使用外部引用來(lái)插補(bǔ)缺失值變得可行炒考。這種方法的示例是SAVER-X和netNMF-sc可缚,它們可能沒(méi)有相同的缺點(diǎn),因?yàn)樗鼈兡軌蚝喜?lái)自其他來(lái)源的相關(guān)信息斋枢。零值填補(bǔ)有助于改善scRNA-seq數(shù)據(jù)的可視化帘靡,但填補(bǔ)的數(shù)據(jù)確定的任何結(jié)構(gòu)或模式(例如差異表達(dá)基因或軌跡)必須通過(guò)對(duì)預(yù)進(jìn)行填補(bǔ)的數(shù)據(jù)應(yīng)用適當(dāng)?shù)慕y(tǒng)計(jì)檢測(cè)進(jìn)行驗(yàn)證。
細(xì)胞周期分配
如果樣本中含有活性細(xì)胞周期的細(xì)胞瓤帚,這可能會(huì)導(dǎo)致生物學(xué)混雜因素描姚,可能需要在下游分析中去除該類(lèi)細(xì)胞「甏危或者轰胁,細(xì)胞周期的階段可能與正在研究的生物學(xué)問(wèn)題有關(guān)。在任何一種情況下朝扼,都有必要將細(xì)胞分配到其適當(dāng)?shù)募?xì)胞周期階段赃阀。有兩種廣泛使用的工具可用于識(shí)別細(xì)胞周期階段:cyclone和Seurat。Cyclone分析在不同相對(duì)水平表達(dá)值的成對(duì)基因擎颖,以將細(xì)胞分配到G1榛斯、S或G2/M。無(wú)論是否歸一化搂捧,cyclone都很精確驮俗,但它很難區(qū)分非細(xì)胞周期細(xì)胞。Seurat采用Tirosh等人提出的方法允跑,根據(jù)已知標(biāo)記基因G1/S和G2/M的平均歸一化表達(dá)值對(duì)細(xì)胞進(jìn)行評(píng)分王凑。
一旦細(xì)胞被分配了一種細(xì)胞周期階段,兩種工具都使用一般線(xiàn)性模型來(lái)回歸差異聋丝。此外索烹,Seurat提供了一個(gè)選項(xiàng),僅回歸掉G1/S和G2/M細(xì)胞之間的差異弱睦,同時(shí)保留細(xì)胞周期的細(xì)胞和非細(xì)胞周期的細(xì)胞之間的差異百姓。如果有人對(duì)細(xì)胞周期和非細(xì)胞周期的細(xì)胞亞群之間的差異感興趣,后一種情況很重要况木。
高可變基因選擇
在 scRNA-seq 實(shí)驗(yàn)中垒拢,每個(gè)基因代表一個(gè)維度,因此火惊,對(duì)于小鼠或人類(lèi)數(shù)據(jù)集求类,將有大約 20,000 個(gè)維度。然而屹耐,許多基因不會(huì)在給定的細(xì)胞或細(xì)胞類(lèi)型中表達(dá)尸疆,并且在實(shí)驗(yàn)中檢測(cè)到的數(shù)量取決于不同的實(shí)驗(yàn)技術(shù)。高通量、基于液滴的方法可以識(shí)別細(xì)胞中多達(dá) 5,000個(gè)基因仓技,而更靈敏的方法可以檢測(cè)較前面兩倍的基因鸵贬。然而俗他,許多研究依賴(lài)于低深度測(cè)序脖捻,因此檢測(cè)到的基因較少,有時(shí)每個(gè)細(xì)胞少于 1,000 個(gè)基因兆衅〉鼐冢基因數(shù)目過(guò)多會(huì)使分析變得困難,因?yàn)楦呔S度的距離估計(jì)是不可靠的羡亩,即使在噪聲水平較低的情況下也是如此摩疑。
高可變基因識(shí)別是相對(duì)于技術(shù)噪聲具有很強(qiáng)的生物學(xué)信號(hào)。因此畏铆,在下游分析只限制在信息量最大的基因集上雷袋,可以減少維度的影響,減少噪音并簡(jiǎn)化分析辞居。一些工具可能會(huì)識(shí)別固定數(shù)目的高可變基因楷怒,或嘗試確定哪些特征基因包含大量的生物學(xué)信息。scRNA-seq 數(shù)據(jù)中的特征基因選擇有兩個(gè)復(fù)雜的因素:(i) 影響每個(gè)基因的技術(shù)噪聲取決于該基因的平均表達(dá)瓦灶;(ii) 小樣本量難以估計(jì)方差鸠删。最廣泛使用的特征基因選擇策略是考慮高度可變的基因(即具有高于預(yù)期方差的基因)。對(duì)于使用 UMI 量化的數(shù)千個(gè)細(xì)胞的數(shù)據(jù)集贼陶,已表明噪聲遵循負(fù)二項(xiàng)分布刃泡,可用于識(shí)別重要特征基因。 Seurat等工具使用非參數(shù)方法通過(guò)經(jīng)驗(yàn)擬合方差和基因平均表達(dá)之間的關(guān)系來(lái)識(shí)別高可變的基因碉怔。相反烘贴,另一種特征選擇策略是考慮具有高于預(yù)期數(shù)量的觀(guān)察到的零值的基因。
許多特征選擇方法的一個(gè)局限性是撮胧,它們考慮了整個(gè)數(shù)據(jù)集的整體可變性庙楚。因此,在罕見(jiàn)細(xì)胞類(lèi)型中差異表達(dá)的基因可能無(wú)法檢測(cè)到趴樱,因?yàn)檫@些細(xì)胞對(duì)總變異性的貢獻(xiàn)很小馒闷。在這種情況下,其他指標(biāo)叁征,如量化轉(zhuǎn)錄本不均勻分布的基尼指數(shù)纳账,可能更合適,如基尼聚類(lèi)方法所示捺疼,該方法旨在識(shí)別小聚類(lèi)疏虫。
降維和可視化
另一種降低基因表達(dá)矩陣高維負(fù)面效應(yīng)的策略是對(duì)縮減的特征空間進(jìn)行降維。有許多可用的方法 ,但最常用的策略涉及主成分分析 (PCA)卧秘,這是一種線(xiàn)性變換呢袱,可保留完整 PCA 空間中細(xì)胞之間的歐幾里德距離,即使對(duì)于非常大的數(shù)據(jù)集也可以有效計(jì)算翅敌。為下游分析保留的組分?jǐn)?shù)量將取決于數(shù)據(jù)集的復(fù)雜性羞福,并且存在各種算法來(lái)識(shí)別適當(dāng)?shù)腜C個(gè)數(shù)。由于這些通常在計(jì)算上運(yùn)行起來(lái)很耗時(shí)蚯涮,因此最常見(jiàn)的方法是繪制每個(gè)分量可解釋的方差分?jǐn)?shù)治专,然后直觀(guān)地識(shí)別曲線(xiàn)急劇彎曲的點(diǎn),通常稱(chēng)為“拐點(diǎn)”遭顶,并且只保留拐點(diǎn)以上的那些PC組分张峰。
大多數(shù) scRNA-seq 數(shù)據(jù)集都很復(fù)雜,它們的結(jié)構(gòu)不能被兩個(gè)或三個(gè)主成分捕獲棒旗。因此喘批,可視化算法用于創(chuàng)建一個(gè)二維圖,匯總scRNA-seq數(shù)據(jù)集的大量的重要組成部分铣揉。當(dāng)前的最佳實(shí)踐方法是統(tǒng)一流形逼近與投影UMAP的降維方式饶深。該算法使用細(xì)胞-細(xì)胞最近鄰網(wǎng)絡(luò)近似數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu),然后估計(jì)數(shù)據(jù)的低維嵌入老速,以最好地保留結(jié)構(gòu)粥喜。UMAP 在很大程度上取代了 t 分布隨機(jī)指標(biāo)鄰居嵌入降維方法(t-SNE), 因?yàn)樗軌蚋玫乇4嫒纸Y(jié)構(gòu)橘券。最近的一項(xiàng)研究表明额湘,這可以歸因于UMAP實(shí)現(xiàn)中默認(rèn)使用的初始化策略。然而旁舰,UMAP傾向于支持?jǐn)?shù)據(jù)的完全性連接表示锋华,而不是t-SNE支持的離散聚類(lèi)。t-SNE和UMAP的一個(gè)缺點(diǎn)是它們都需要用戶(hù)定義的超參數(shù)箭窜,結(jié)果可能對(duì)選擇的參數(shù)數(shù)值敏感毯焕。此外,這些方法是隨機(jī)的磺樱,提供良好的初始化可以顯著改善這兩種算法的結(jié)果纳猫。需要注意的是,無(wú)論是可視化算法保留了細(xì)胞之間的距離竹捉,因此芜辕,投影坐標(biāo)的信息不能直接用于聚類(lèi)或擬時(shí)序分析等下游分析。
無(wú)監(jiān)督聚類(lèi)
scRNA-seq 數(shù)據(jù)的無(wú)監(jiān)督聚類(lèi)是大多數(shù)分析的核心块差,因?yàn)樗梢宰R(shí)別具有相似表達(dá)譜的細(xì)胞組侵续。其中一些組可以代表不同的細(xì)胞類(lèi)型倔丈,而其他組可以被認(rèn)為是中間細(xì)胞狀態(tài)(例如,細(xì)胞周期階段)状蜗,這取決于樣本的生物學(xué)系統(tǒng)需五。早在 scRNA-seq 出現(xiàn)之前就已經(jīng)開(kāi)發(fā)了各種聚類(lèi)方法,現(xiàn)有的工具都是經(jīng)典方法的應(yīng)用轧坎。一個(gè)例子是廣泛使用的 k-means 算法 宏邮,它構(gòu)成了單細(xì)胞共識(shí)聚類(lèi) (SC3) 算法的基礎(chǔ)。除了基本的 k-means 算法之外眶根,SC3 還使用一種共識(shí)方法來(lái)平均多個(gè)聚類(lèi)結(jié)果蜀铲。另一個(gè)例子是用于網(wǎng)絡(luò)聚類(lèi)的 Louvain 算法 rithm边琉,它成功地適應(yīng)了Phenograph中的單細(xì)胞數(shù)據(jù)集属百,隨后被 Seurat和 scanpy采用”湟蹋基于Louvain算法的方法為細(xì)胞構(gòu)建最近鄰網(wǎng)絡(luò)族扰,然后識(shí)別網(wǎng)絡(luò)中的不同社區(qū)。這些方法的優(yōu)勢(shì)在于它們的速度定欧,即使對(duì)于非常大的數(shù)據(jù)集也是如此渔呵。獨(dú)立的基準(zhǔn)比較表明 SC3 和 Seurat 總體上表現(xiàn)相似,盡管對(duì)于單個(gè)數(shù)據(jù)集砍鸠,其中一個(gè)或另一個(gè)可能表現(xiàn)更好扩氢,并且優(yōu)于所有其他當(dāng)前可用的方法。這些基準(zhǔn)基于數(shù)據(jù)集爷辱,其中細(xì)胞類(lèi)型身份可以通過(guò)轉(zhuǎn)錄組分析以外的其他方式(例如录豺,已知表面標(biāo)記的熒光激活細(xì)胞分選分析)建立。
每個(gè)聚類(lèi)算法都有自己的一組參數(shù)饭弓,這些參數(shù)可以顯著影響結(jié)果和生物學(xué)解釋双饥。例如,Louvain 算法有一個(gè)resolution參數(shù)會(huì)影響cluster的大小——較小的分辨率會(huì)生成較少數(shù)目的cluster弟断。同樣咏花,對(duì)于k-means的方法,k 的值直接決定了聚類(lèi)的數(shù)量阀趴。不幸的是昏翰,沒(méi)有確定最佳參數(shù)的固定規(guī)則,用戶(hù)通常必須根據(jù)手頭的數(shù)據(jù)集做出明智的決定刘急。重要的是要同時(shí)考慮數(shù)學(xué)和生物學(xué)方面棚菊,因?yàn)閮H依靠一個(gè)標(biāo)準(zhǔn)的分析流程可能會(huì)導(dǎo)致不能提供最適合該數(shù)據(jù)集的結(jié)果,或者cluster的分群不合理排霉。例如窍株,可以計(jì)算cluster對(duì)輸入?yún)?shù)的穩(wěn)健性民轴,并檢查生成的cluster中已知存在于特定組織中的細(xì)胞類(lèi)型。
擬時(shí)序分析
聚類(lèi)分析將每個(gè)細(xì)胞分配給一個(gè)組(cluster)球订,這在某些情況下是不合適的后裸。例如,如果數(shù)據(jù)集代表一個(gè)發(fā)育過(guò)程或源自一個(gè)時(shí)間過(guò)程實(shí)驗(yàn)冒滩,那么將細(xì)胞視為從一個(gè)發(fā)育/時(shí)序連續(xù)體中繪制出來(lái)的更合適微驶。這種可以表示空間位置、化學(xué)濃度或時(shí)間進(jìn)程的連續(xù)軌跡通常被稱(chēng)為“偽時(shí)間”开睡,每個(gè)細(xì)胞都可以被分配一個(gè)特定的位置因苹。大多數(shù)工具無(wú)法確定細(xì)胞沿軌跡移動(dòng)的方向或速度。相反篇恒,必須使用外部信息扶檐,例如時(shí)間過(guò)程實(shí)驗(yàn)的采樣時(shí)間或發(fā)育軌跡的標(biāo)記基因來(lái)推斷這些數(shù)量。大量的偽時(shí)間推理方法已經(jīng)發(fā)表胁艰,最近也有研究已經(jīng)進(jìn)行了基準(zhǔn)測(cè)試款筑。作者強(qiáng)調(diào)這些方法是互補(bǔ)的,它們?yōu)椴煌?lèi)型的數(shù)據(jù)選擇哪種方法提供了指導(dǎo)腾么。
大多數(shù)工具采用兩種方法中的一種奈梳。第一種方法是基于流形方法的擬時(shí)序方法。使用降維技術(shù)來(lái)識(shí)別細(xì)胞所在的低維“流形”解虱,并使用細(xì)胞-細(xì)胞圖來(lái)描述流形的拓?fù)淙列搿J褂眠@種策略的主流方法包括 Monocle和 DPT。第二種方法是基于cluster的聚類(lèi)方法殴泰。在連接cluster并將單個(gè)細(xì)胞投影到cluster分支上之前于宙,使用無(wú)監(jiān)督聚類(lèi)對(duì)細(xì)胞進(jìn)行分組。此類(lèi)方法的示例包括 TSCAN 和 Mpath艰匙。當(dāng)進(jìn)行軌跡分析的細(xì)胞密度不相等時(shí)限煞,基于cluster的擬時(shí)序方法往往更準(zhǔn)確——例如,來(lái)自一種狀態(tài)的細(xì)胞可能比來(lái)自其他狀態(tài)和大規(guī)模發(fā)育層次結(jié)構(gòu)的細(xì)胞更頻繁或更可靠地捕獲员凝。另一方面署驻,當(dāng)在過(guò)渡過(guò)程中對(duì)細(xì)胞進(jìn)行均勻采樣以及檢查奇異過(guò)渡的細(xì)節(jié)時(shí),流形方法表現(xiàn)最佳健霹。
表示剪接和未剪接轉(zhuǎn)錄本的外顯子和內(nèi)含子read的相對(duì)豐度可用于推斷 scRNA-seq 實(shí)驗(yàn)中的時(shí)間動(dòng)態(tài)旺上。 RNAvelocity 和 scVelo6等工具可以推斷在對(duì)細(xì)胞進(jìn)行采樣時(shí)每個(gè)基因的表達(dá)是增加還是減少。盡管 RNAvelocity 使用簡(jiǎn)單的動(dòng)態(tài)模型糖埋,但 scVelo 采用概率方法來(lái)解釋單細(xì)胞數(shù)據(jù)中的不確定性宣吱。盡管這種方法受到測(cè)序深度和比對(duì)到內(nèi)含子的讀取數(shù)量的限制,但它可以推斷每個(gè)細(xì)胞在表達(dá)空間中移動(dòng)的方向以及對(duì)變化率的估計(jì)瞳别。結(jié)果可以在低維投影中可視化為指示每個(gè)細(xì)胞如何移動(dòng)的箭頭征候,類(lèi)似于相平面杭攻。
差異基因表達(dá)
差異基因表達(dá)(DE)已成為bulk RNA-seq中最重要的應(yīng)用之一,因?yàn)樗峁┝艘幌盗性趦蓚€(gè)或多個(gè)生物條件之間受干擾的基因疤坝。scRNA-seq的DE分析更具挑戰(zhàn)性兆解,因?yàn)槲覀儾粌H僅是比較每個(gè)基因的單個(gè)值,而是需要比較基因表達(dá)水平的分布跑揉。單細(xì)胞數(shù)據(jù)特有的另一個(gè)挑戰(zhàn)是锅睛,我們想要比較的細(xì)胞組不是先驗(yàn)定義的。相反历谍,這些組通常是基于我們想要比較的基因表達(dá)水平來(lái)定義的现拒,這違反了統(tǒng)計(jì)標(biāo)準(zhǔn)假設(shè)檢驗(yàn)中的中心假設(shè)。事實(shí)上望侈,已經(jīng)證明印蔬,無(wú)監(jiān)督聚類(lèi)和差異表達(dá)分析可以導(dǎo)致人為的低P值。因?yàn)樵诙x細(xì)胞組別時(shí)使用了基因表達(dá)值甜无,這可能會(huì)引入偏差扛点,因?yàn)榫垲?lèi)和DE分析不再獨(dú)立哥遮。
最近的一項(xiàng)比較得出結(jié)論岂丘,與目的構(gòu)建方法相比,非參數(shù)Wilcoxon檢驗(yàn)表現(xiàn)出色眠饮。作者還得出結(jié)論奥帘,為bulk RNA-seq開(kāi)發(fā)的方法表現(xiàn)良好,尤其是當(dāng)與基因表達(dá)矩陣的每個(gè)元素分配權(quán)重的策略相結(jié)合時(shí)仪召。另一項(xiàng)基準(zhǔn)研究得出了類(lèi)似的結(jié)論寨蹋,補(bǔ)充說(shuō)基因表達(dá)量的標(biāo)準(zhǔn)化可以對(duì)結(jié)果產(chǎn)生重要影響。在專(zhuān)門(mén)為scRNA-seq量身定制的方法中扔茅,MAST已旧,它使用高斯障礙模型將檢測(cè)率差異和平均表達(dá)差異結(jié)合到一個(gè)測(cè)試中,已被報(bào)告具有最佳性能召娜。
當(dāng)單細(xì)胞實(shí)驗(yàn)包含多個(gè)生物學(xué)重復(fù)時(shí)运褪,就會(huì)出現(xiàn)一個(gè)有趣的情況(例如,比較3個(gè)健康個(gè)體的細(xì)胞與3個(gè)患有糖尿病的個(gè)體的細(xì)胞)玖瘸。當(dāng)前的單細(xì)胞差異表達(dá)檢驗(yàn)將每個(gè)單獨(dú)的細(xì)胞視為生物學(xué)重復(fù)秸讹,不能解釋共享的遺傳背景或疾病狀態(tài)。對(duì)于此類(lèi)比較雅倒,當(dāng)前的可能的操作是: (i) 計(jì)算每個(gè)細(xì)胞類(lèi)型的每個(gè)個(gè)體的細(xì)胞間基因平均表達(dá)量璃诀,并將結(jié)果視為bulk RNA-seq樣本;或 (ii) 執(zhí)行所有個(gè)體 × 個(gè)體雙重比較和過(guò)濾出單個(gè)個(gè)體所獨(dú)有的差異基因結(jié)果蔑匣。前一種方法類(lèi)似于最近提出的 MetaCell 想法劣欢。 MetaCell 背后的想法是使用引導(dǎo)方法來(lái)識(shí)別原始數(shù)據(jù)集最穩(wěn)定和可重現(xiàn)的特征棕诵。然而,隨著 scRNA-seq 應(yīng)用于更大的隊(duì)列和比較研究凿将,我們預(yù)計(jì)進(jìn)一步的發(fā)展將導(dǎo)致更準(zhǔn)確的統(tǒng)計(jì)模型用于更復(fù)雜的實(shí)驗(yàn)設(shè)計(jì)年鸳。
比較與整合數(shù)據(jù)集
隨著 scRNA-seq 數(shù)據(jù)量的不斷增長(zhǎng),重要的挑戰(zhàn)是如何最好地整合單細(xì)胞數(shù)據(jù)集丸相。批次效應(yīng)是整合數(shù)據(jù)的主要挑戰(zhàn)是數(shù)據(jù)來(lái)自不同實(shí)驗(yàn)室的實(shí)驗(yàn)搔确,即使這些問(wèn)題可以克服,整合這些數(shù)據(jù)集的重分析可能需要耗費(fèi)大量的時(shí)間灭忠、精力和數(shù)據(jù)儲(chǔ)存膳算。相反,整合數(shù)據(jù)的一種替代策略是比較它們弛作。當(dāng)其中一個(gè)數(shù)據(jù)集非常大(例如細(xì)胞圖譜)時(shí)涕蜂,該策略特別有用。當(dāng)給定一個(gè)或多個(gè)具有已知細(xì)胞類(lèi)型的數(shù)據(jù)集時(shí)映琳,scmap構(gòu)建一個(gè)小索引机隙。當(dāng)給定一個(gè)新的查詢(xún)數(shù)據(jù)集時(shí),scmap根據(jù)轉(zhuǎn)錄譜快速確定識(shí)別心數(shù)據(jù)集的每個(gè)細(xì)胞與參考數(shù)據(jù)集的哪個(gè)細(xì)胞類(lèi)型最接近萨西。此外有鹿,scmap可以預(yù)測(cè)參考數(shù)據(jù)集中最緊鄰細(xì)胞,這意味著當(dāng)為細(xì)胞分配偽時(shí)間數(shù)值而不是離散cluster標(biāo)簽時(shí)谎脯,可以使用它葱跋。也就是說(shuō)scmap可以做擬時(shí)序分析。最近有文獻(xiàn)研究源梭,對(duì)將細(xì)胞映射到參考數(shù)據(jù)集的不同方法進(jìn)行了基準(zhǔn)測(cè)試娱俺。另一種方法MetaNeighbor,旨在測(cè)試細(xì)胞類(lèi)型在多個(gè)scRNA-seq數(shù)據(jù)集中是否一致废麻。它通過(guò)計(jì)算跨數(shù)據(jù)集的細(xì)胞-細(xì)胞Spearman相關(guān)性來(lái)實(shí)現(xiàn)荠卷,允許MetaNeighbor驗(yàn)證細(xì)胞標(biāo)簽在多個(gè)實(shí)驗(yàn)數(shù)據(jù)中的重復(fù)性。
總結(jié)
scRNA-seq的計(jì)算分析是一個(gè)快速發(fā)展的領(lǐng)域烛愧。在很大程度上油宜,這是由新平臺(tái)和實(shí)驗(yàn)技術(shù)的開(kāi)發(fā)推動(dòng)的。然而屑彻,研究人員也提出了從數(shù)據(jù)中提取信息的新方法验庙。未來(lái)幾年可能會(huì)出現(xiàn)新的分析工具,進(jìn)一步擴(kuò)大scRNA-seq的使用社牲。此外粪薛,我們還希望整合分析工作流的軟件工具(如Seurat、scanpy和Bioconductor)會(huì)有所改進(jìn)搏恤,使生物信息知識(shí)有限的用戶(hù)更容易訪(fǎng)問(wèn)分析违寿。
新型單細(xì)胞技術(shù)的快速發(fā)展湃交,尤其是可以分析細(xì)胞的多組學(xué)方法和提供空間信息的方法,將需要新的計(jì)算方法來(lái)充分利用數(shù)據(jù)藤巢。此外搞莺,各種圖譜項(xiàng)目產(chǎn)生的數(shù)據(jù)量不斷增加,這將需要更適合于分析大細(xì)胞量的方法掂咒。