scRNA-seq數(shù)據(jù)的一般分析流程是怎樣的?
scRNA-seq數(shù)據(jù)分析會用到哪些工具十性?
scRNA-seq數(shù)據(jù)集通常包含由于不完全RNA捕獲、PCR擴增偏差和/或特定于患者或樣本的批次效應而產生的技術噪聲,如何降低技術噪聲對數(shù)據(jù)分析的影響灌危?
...
這些問題的答案都在今天分享的這篇綜述里
來自美國的科研人員在《Nature Reviews Nephrology》發(fā)表綜述文章制肮,針對scRNA-seq分析所需的不同步驟進行廣泛概述冒窍,包括數(shù)據(jù)的預處理和下游分析;討論了在scRNA-seq數(shù)據(jù)分析的每個步驟中通常會遇到的挑戰(zhàn)豺鼻,并研究了為解決這些問題而開發(fā)的不同計算工具和方法综液,包括它們的優(yōu)勢和局限性;還探討了實驗設計的選擇如何影響下游的數(shù)據(jù)分析儒飒。
數(shù)據(jù)預處理
scRNA-seq原始數(shù)據(jù)需要經過預處理才能用于評估基因表達的生物學相關變化谬莹。預處理將原始數(shù)據(jù)轉換成更有用的格式,并解決與樣本質量桩了、廣泛的基因表達水平和變異相關的問題附帽。此外,如果同時分析多個數(shù)據(jù)集井誉,這些步驟可以減少技術批次效應的影響蕉扮。??
生成基因表達矩陣
scRNA-seq分析的第一步是將原始數(shù)據(jù)處理成計數(shù)矩陣颗圣。該矩陣總結了數(shù)據(jù)集中每個細胞中檢測到的每個基因的分子數(shù)喳钟。計數(shù)矩陣作為其余分析步驟的輸入屁使,也是存儲和共享基因表達信息的有效方法。
對于10X genomics scRNA-seq平臺的用戶奔则,CellRanger為這一處理提供了一種便捷的方法蛮寂,盡管其速度慢且需要大量內存 。CellRanger還運行基本的聚類和標記基因分析应狱,可以用Loupe?Cell Browser可視化共郭。DropEst、Kallisto-BUStools疾呻、UMI-Tools除嘹、STARSolo和Alevin都是可選的reads處理方法,它們對運行時長和內存進行了改進岸蜗,使用戶能夠處理其scRNA-seq運行時不必在計算基礎設施上投入太多尉咕。此外,與CellRanger相比璃岳,DropEst年缎、UMI-Tools和Kallisto-BUS Tools提供的對UMI和cell barcode錯誤的增強校正可改善基因表達估計。
質控和雙重檢驗
數(shù)據(jù)集之間的QC閾值可能不同铃慷,一些探索性的數(shù)據(jù)分析(如每個細胞或基因UMIs分布的直方圖)有助于每個數(shù)據(jù)集的閾值設置单芜。在某些情況下,例如當下游分析中出現(xiàn)一組假的死亡或正在死亡的細胞時犁柜,在運行整個分析流程后修改這些閾值并重復分析后也會有所幫助(如下圖)洲鸠。
Seurat和SCANPY是scRNA-seq分析流程包馋缅,包括用于計算QC指標的函數(shù)扒腕,例如每個細胞表達的基因的比例、線粒體比例和總計數(shù)萤悴;用戶決定用來過濾數(shù)據(jù)集中的基因和細胞的閾值瘾腰。Scater還提供了一套用于計算關鍵QC指標的工具。
數(shù)據(jù)歸一化
由于反轉錄效率覆履、引物捕獲效率和與折疊UMIs相關的錯誤等因素蹋盆,每個細胞中捕獲的RNA的比例會有所不同。因此硝全,每個細胞中UMI或reads總量的差異可能是由技術因素而不是生物變化引起的怪嫌。如果不歸一化,UMI或reads總量的技術差異可能會主導下游分析??
在估計大小因子之前,scran包將具有相似表達模式的細胞匯集在一起赂鲤,因此解決了由于細胞類型特異性基因表達或UMI計數(shù)而導致的標準化問題噪径。然而柱恤,使用相同大小因子對高表達和低表達的基因進行標準化會導致低表達基因(如轉錄因子)的過校正,高表達基因如管家基因的低校正找爱。SCnorm通過將依賴于總UMI或reads數(shù)的基因匯集起來梗顺,并計算每個集合中的大小因子來解決這個問題。sctransform(在Seurat包中實現(xiàn))使用一個概率模型來計算總UMI或reads計數(shù)的影響车摄,這也使它能夠穩(wěn)定基因方差寺谤,并識別過分散的基因。
方差穩(wěn)定性
基因表達水平變化很大吮播,基因的平均表達(或大斜淦ā)與其方差密切相關,這種效應稱為均值-方差關系意狠。
可以用來消除基因平均表達對基因方差影響的流程包括Seurat闷板、Pagoda2和SCANPY。
批次效應和數(shù)據(jù)集成
基于MNN方法的出現(xiàn)使scRNA-seq用戶能夠分析和比較不同平臺院塞、患者或樣本遮晚,甚至跨物種的樣本,從而提高了scRNA-seq分析細胞類型和軌跡的能力拦止。
下游分析
預處理步驟完成后县遣,包括降維、聚類和軌跡推斷等下游分析將重點從數(shù)據(jù)中識別生物問題创泄。降維涉及到將數(shù)據(jù)集轉換為更緊湊、可能更易于解釋的表示括蝠,以捕獲變化的主要生物變異軸并提高聚類和軌跡推斷的性能鞠抑。聚類是指根據(jù)相似的基因表達模式將細胞分成若干組;這些組(也稱為簇)通常對應于不同的生物細胞類型或狀態(tài)忌警。軌跡推斷通常應用于在連續(xù)細胞狀態(tài)中動態(tài)過渡的細胞搁拙。
降維和插補
線性方法。當兩個變量的變化率相同(成正比)時法绵,兩個變量之間存在線性關系箕速。scRNA-seq最常用的降維方法是主成分分析(PCA),它創(chuàng)建一個基因的線性組合朋譬,最好地捕捉數(shù)據(jù)中的方差盐茎。PCA在尋找方差最大維數(shù)的同時能夠降低數(shù)據(jù)的維數(shù),這使得它成為聚類前非常有用的降維工具徙赢。
ZIFA是PCA的一種變體字柠,旨在明確地對scRNA-seq計數(shù)數(shù)據(jù)中預期的大量零值進行建模探越。
PCA的一個缺點是主成分本身很難從生物學角度解釋。f-scLVM通過顯式地將帶注釋的基因集建模為縮減的維度來解決這個可解釋性問題 窑业。因此钦幔,在運行f-scLVM后,每個降維對應一個注釋基因集常柄。Pagoda 和 Pagoda2通過在預先注釋的基因集中運行PCA創(chuàng)建高度可解釋的維度并選擇數(shù)據(jù)集中顯示顯著差異的維度鲤氢。NMF是另一種線性矩陣因式分解方法,主要通過嘗試尋找構成系統(tǒng)基礎的離散元件(如集合管或小管)來生成更多可解釋維度的數(shù)據(jù)集西潘。
非線性方法卷玉。基因之間的關系可能是高度非線性的,這會影響線性模型(如PCA)分析scRNA-seq數(shù)據(jù)的能力秸架。因此揍庄,在某些情況下,能夠生成數(shù)據(jù)集非線性轉換的方法可以優(yōu)于線性方法东抹。具體而言蚂子,當數(shù)據(jù)集遵循一個連續(xù)的軌跡時,局部線性嵌入(LLE)和擴散圖(Dmaps)被證明是有效的缭黔。
另一種降低非線性維度的方法是使用深度神經網(wǎng)絡食茎,它是一種應用迭代的非線性轉換應用到數(shù)據(jù)集的模型。通過分層這些迭代變換馏谨,深層神經網(wǎng)絡可以學習數(shù)據(jù)集的復雜特征别渔,這使得它們能夠用較少的維數(shù)來表示數(shù)據(jù)。scScope和DCA使用的神經網(wǎng)絡可以比PCA等線性降維方法性能更好惧互。scVI還利用神經網(wǎng)絡建立了一個基因表達建陌ッ模框架,使每個基因表達估計的不確定性得以量化喊儡,同時考慮批量效應和零通脹等技術效應拨与。
對于那些想簡單地降低數(shù)據(jù)的維度并繼續(xù)進行聚類和可視化的用戶,PCA是一個很好的默認方法艾猜。但更專門的方法买喧,如f- scLVM或scVI,可以生成更易于解釋或更忠實地捕獲數(shù)據(jù)的非線性結構的低維嵌入匆赃。?
零膨脹是高通量scRNA-seq方法的一個技術限制淤毛,受到不完全逆轉錄或RNA捕獲的驅動。已經開發(fā)了幾種方法來插補這些缺失的值算柳。一類方法低淡,包括MAGIC和knn - smooth,使用來自相鄰單元格的信息來填充任何給定細胞的缺失值。另一類方法如通過表達恢復的單細胞分析查牌,通過插補和降維聚類(CIDR)和scImpute利用概率模型和基因之間的關系來區(qū)分技術上的和生物上的dropout事期。然而,這些插補方法應該謹慎使用纸颜,因為它們在分析差異基因表達時可能會引入假陽性結果兽泣。因此,用戶在分析低表達水平和高dropout水平的差異基因時應謹慎胁孙。
聚類
一般來說唠倦,大多數(shù)scRNA-seq數(shù)據(jù)集要么由離散的細胞類型組成,要么反映出連續(xù)的發(fā)育或分化軌跡涮较。對于單個細胞可以被歸入離散細胞類型的數(shù)據(jù)集稠鼻,需要應用聚類來解決這些細胞類型。
k-means是一種簡單和流行的聚類方法狂票,它可以迭代地將細胞分配到簇中候齿。然而,k-means聚類要求用戶預先指定數(shù)據(jù)集中存在的細胞簇的數(shù)量闺属,而在scRNA-seq數(shù)據(jù)集中確定生物相關的簇的數(shù)量仍然是一個挑戰(zhàn)慌盯。處理這個問題的一個策略是產生比預計在數(shù)據(jù)集中發(fā)現(xiàn)的更多的類,然后迭代合并相鄰的聚類或根據(jù)相似性閾值劃分更大的類掂器。CIDR, BackSPIN 和pcaReduce 使用了這種分層聚類方法亚皂。然后,用戶可以選擇最適合所需的類国瓮。對于具有許多不同細胞類型的極大型數(shù)據(jù)集(>100,000個細胞)來說灭必,可能有必要進行多級聚類的層次分析。
對于大型數(shù)據(jù)集乃摹,k-means和分層聚類方法的運行速度都很慢禁漓,而且它們能夠檢測到的聚類類型有限。Seurat 孵睬,Pagoda2播歼,SCANPY和CellRanger使用基于圖的聚類算法,這種算法運行速度快肪康,可以為較大的數(shù)據(jù)集生成生物學上相關的聚類荚恶。
其他方法包括SC3一致性聚類撩穿,它使用多種聚類方法的一致性來提高聚類精度磷支。參考成分分析將單個細胞投射到由現(xiàn)有的bulk RNA-seq數(shù)據(jù)集定義的低維空間中,這對于高度異質性和難以解釋的細胞群非常有用食寡,如癌癥中發(fā)現(xiàn)的細胞群雾狈。總的來說抵皱,像Leiden或Louvain這樣的圖形聚類方法具有很強的聚類性能和相當快的運行時間善榛。
軌跡推斷
盡管聚類對于將細胞分組為離散的細胞類型很有用辩蛋,但在許多情況下,細胞的基因表達模式在細胞狀態(tài)之間轉換時形成一個連續(xù)體移盆。
軌跡推斷的一個常見問題是悼院,由于技術或生物噪聲,生物上不同的細胞可能在這個連續(xù)體上彼此靠近咒循,這種現(xiàn)象稱為“短路”(short circuiting)据途。處理這個問題的一個有趣的方法是PAGA,在上述比較研究的大多數(shù)數(shù)據(jù)集上這是為數(shù)不多的表現(xiàn)良好的方法之一叙甸,同時保持了合理的計算運行時間颖医。在一種類似于圖聚類的方法中,PAGA生成數(shù)據(jù)的最近鄰圖裆蒸,然后生成細胞分組熔萧,將細胞之間的連接比隨機期望的多的組連接起來,以構建數(shù)據(jù)摘要圖僚祷。Monocle3通過構建一個細胞之間的連接來構建細胞級圖佛致,其中在摘要圖中未連接的細胞分組之間的任何連接都將被刪除。
已經發(fā)展了許多方法來確定細胞在發(fā)育軌跡上的位置久妆,但它們不能提供關于軌跡方向的信息晌杰。預測細胞轉錄方向的一種方法是估計RNA的速度(RNA velocity)。這種方法是基于對RNA分子是剪接的還是未剪接(即仍包含內含子序列的新生RNA)的評估。RNA velocity能夠預測給定細胞未來的基因表達狀態(tài)煮剧,并有助于確定域醇。
可視化
在聚類和/或軌跡推斷之后,下一步是生成細胞的二維或三維散點圖爹殊,以可視化數(shù)據(jù)中的主要趨勢和軌跡。
t-SNE是最流行的可視化方法之一奸绷,其能從視覺上分離出具有密切相關的細胞類型的復雜數(shù)據(jù)集梗夸。t-SNE目前可在Seurat、Pagoda2号醉、SCANPY和CellRanger–Loupe ?Cell Browser 中實現(xiàn)反症。
在過去的幾年里,UMAP已經超越了t-SNE畔派,成為scRNA-seq數(shù)據(jù)的默認可視化方法铅碍。與圖聚類相似,UMAP生成一個細胞的最近鄰圖线椰,通過相似度的強弱對每個細胞-細胞連接進行加權胞谈;然后將該圖嵌入兩個維度。
SWNE使用NMF來降低數(shù)據(jù)的維度,然后將維度作為一個框架烦绳,將細胞投射到兩個維度上卿捎,使用加權近鄰圖調整細胞的相對位置。這個框架還能使基因與細胞一起被可視化径密,為可視化增加生物背景和可解釋性午阵。SWNE比t-SNE表現(xiàn)得更好,在捕捉全局結構方面與UMAP相似享扔,盡管它對局部結構的表示不如t-SNE和UMAP趟庄。
PHATE使用了一種基于擴散的距離度量,對局部和全局結構都很準確伪很。PHATE似乎對具有發(fā)育軌跡的數(shù)據(jù)集表現(xiàn)得非常好戚啥,在捕捉全局和局部結構方面優(yōu)于t-SNE和UMAP。
深度學習方法由于能夠捕捉到數(shù)據(jù)中的非線性锉试,也可以在二維嵌入中捕捉到高維數(shù)據(jù)的結構猫十。scvis使用深度神經網(wǎng)絡將高維數(shù)據(jù)濃縮到低維嵌入中,這比t-SNE(以分類精度衡量)能獲得更好的細胞類型分離(捕捉局部結構的能力)呆盖,以及更快的運行時間拖云。其他基于深度學習的方法,如scScope应又、DCA和scVI也可以用來對高維數(shù)據(jù)進行二維編碼宙项。
對于軌跡推斷,用于可視化的方法株扛,例如UMAP尤筐、Dmaps和LLE,通扯淳停可以作為構建軌跡圖的基礎盆繁。UMAP是一個非常有用的默認方法,它忠實地可視化大多數(shù)數(shù)據(jù)集旬蟋,并且比t-SNE或SWNE更少的參數(shù)調整就可以很好地工作油昂。
細胞類型注釋
通常,scRNA-seq分析中最耗時的步驟是識別數(shù)據(jù)集中的生物細胞類型倾贰。這種細胞類型注釋的標準流程是找到每個簇中唯一表達的基因冕碟,并將這些基因與典型細胞類型標記列表進行匹配。Seurat匆浙、Pagoda2安寺、SCANPY和Loupe Cell Browser中都有標記基因發(fā)現(xiàn)和可視化的工具。對標記基因發(fā)現(xiàn)方法的評估發(fā)現(xiàn)吞彤,大多數(shù)bluk RNA-seq開發(fā)的方法我衬,如edgeR和limma,與scRNA-seq特定的方法表現(xiàn)一樣好饰恕。盡管如此挠羔,相對于默認方法Seurat和Pagoda2,Wilcoxon的性能相對較好埋嵌。
目前細胞類型注釋通常使用自動分類和手動分類兩種方式破加。其中手動檢查標記基因列表可能非常耗時,并且需要對所研究的生物系統(tǒng)有一定的了解雹嗦。因此范舀,需要生物學家和生物信息學家之間的密切合作。而自動分類的方法即將單個細胞或類匹配到單個細胞或bulk 參考RNA-seq數(shù)據(jù)集了罪,用于細胞類型的自動分類锭环。對這些自動分類方法的基準分析發(fā)現(xiàn),表現(xiàn)最好的方法是支持向量機(一種常見的機器學習分類器)泊藕。該分析還發(fā)現(xiàn)辅辩,使用先前已知的典型標記基因集的方法(如Garnett)并不優(yōu)于無偏的方法。其他自動細胞類型注釋方法包括scmap以及scPred娃圆。scmap使用與參考數(shù)據(jù)集的相關性和基于機器學習的特征選擇方法對scRNA-seq集群進行分類玫锋,scPred使用降維和分類的組合。
數(shù)據(jù)集成方法(如Seurat讼呢、CONOS和Scanorama等)也可提供細胞類型的自動分類撩鹿。這些方法跨數(shù)據(jù)集查找MNN,這使它們能夠無需預先設置細胞類型標簽悦屏,根據(jù)參考數(shù)據(jù)集的標簽對數(shù)據(jù)集中的細胞類型進行分類节沦。
雖然自動細胞類型注釋方法很方便,但它們需要現(xiàn)有的參考scRNA-seq數(shù)據(jù)集础爬。如果一個數(shù)據(jù)集包含新的細胞類型或細胞狀態(tài)散劫,仍然需要用標記基因進行手工注釋。值得注意的是幕帆,即使有了參考數(shù)據(jù)集获搏,人工檢查標記基因對于驗證所確定的細胞類型也是至關重要的。
實驗設計注意事項
實驗設計會對分析產生重大影響失乾。如果要收集和分析多個生物樣本常熙,最好對每個樣本的細胞進行標記以允許多路復用,使用細胞散列等方法碱茁,然后在相同的 scRNA-seq 運行中進行分析裸卫。例如,在分析來自五個不同病人的腎臟樣本時纽竣,在三次scRNA-seq運行中墓贿,每次運行最好包含來自每個病人的標記細胞茧泪。這種方法能夠區(qū)分樣本的特定效應和實驗批次效應,如果樣本來自病例對照研究聋袋,這一點尤其關鍵队伟。例如,當比較基因敲除小鼠和野生型對照組時幽勒,來自兩種類型小鼠的細胞最好在同一實驗中運行嗜侮。組合索引方法為這種方法提供了便利,因為在第一輪條形碼過程中啥容,不同樣本的細胞可以被放置在不同的孔中锈颗。對于基于液滴的方法,某種形式的樣品特異性細胞標簽是必要的咪惠,以確定細胞的樣品來源击吱。然而,在同一實驗批次中收集所有樣品進行處理并不總是可能的遥昧,特別是對于跨越不同條件和/或時間點的動物實驗姨拥,或在臨床過程中收集的病人樣品。
scRNA-seq方法的選擇也對每個細胞捕獲的分子數(shù)量和分析的細胞總數(shù)有影響渠鸽。一般來說叫乌,組合索引方法比基于液滴的方法在每個細胞中捕獲的UMI更少,這可能會影響它們解決一些密切相關的細胞亞型的能力徽缚。然而憨奸,組合索引方法可以在每個實驗中捕獲更多的細胞,有可能使稀有細胞群的識別成為可能凿试。對于所有這些方法排宰,用戶通常可以控制加載到scRNA-seq平臺的細胞數(shù)量那婉。加載更多的細胞可以提高通量板甘,但代價是可能會增加cell doublets。
組織解離方法的選擇也會對可用于分析的細胞類型產生重大影響详炬。一個關鍵的選擇是是否將樣品解離成單細胞或單細胞核盐类。單個細胞的解離已被廣泛地應用于新鮮組織樣品。對于冷凍組織呛谜,單核分離和測序是一個更可行的選擇在跳。這兩種類型的方案似乎都有其特定的偏向,盡管對于某些樣本類型隐岛,如人類神經元猫妙,只有單核分離被證明效果良好。單核方法的一個局限性是聚凹,它們通常導致每個細胞捕獲的分子較少割坠,因為大多數(shù)RNA都在細胞質中齐帚。然而,僅從細胞核中捕獲的信息往往足以對細胞類型和亞型進行準確分類彼哼。
scRNA-seq技術的進步導致了數(shù)據(jù)集規(guī)模和復雜性的增加对妄。作為回應,一個計算方法的生態(tài)系統(tǒng)已經被開發(fā)出來沪羔,以應對分析這些數(shù)據(jù)集的挑戰(zhàn)∠蠡耄基于MNNs識別的方法成功地整合了不同患者蔫饰、條件和技術的數(shù)據(jù)集,解決了scRNA-seq數(shù)據(jù)中批次效應的關鍵問題愉豺。此外篓吁,已經開發(fā)了一些方法來模擬細胞軌跡和識別細胞集群。然而蚪拦,剩下的一個限制是杖剪,大多數(shù)聚類方法需要用戶指定聚類的數(shù)量,而為一個特定的數(shù)據(jù)集找到最佳的聚類數(shù)量是具有挑戰(zhàn)性的驰贷。第二個限制是盛嘿,使用標記基因手動注釋細胞類型是非常耗時的。幸運的是括袒,新的自動和半自動的細胞類型分類方法正在被開發(fā)出來以解決這個問題次兆,盡管新的細胞類型和狀態(tài)仍然需要手工注釋。
整合樣本中數(shù)據(jù)集的能力以及最新的scRNA-seq方法增加的通量锹锰,將提高我們解析細胞亞型和發(fā)現(xiàn)稀有細胞類型的能力芥炭。此外,許多新方法恃慧,尤其是用于低級數(shù)據(jù)預處理的方法园蝠,考慮到內存和中央處理單元的使用情況,這是至關重要的痢士,因為單細胞數(shù)據(jù)集的大小持續(xù)增加彪薛。這些計算方法的進一步發(fā)展將有助于研究人員挖掘更多的生物學見解。盡管計算方法取得了這些進步怠蹂,但仍需要通過測試多個生物學重復或進行其他實驗(例如免疫染色或RNA-FISH)來驗證任何計算結果陪汽。
多組學方法的出現(xiàn)將需要一套新的工具,可以將不同細胞參數(shù)的數(shù)據(jù)聯(lián)系起來褥蚯,如蛋白質表達或表觀遺傳數(shù)據(jù)挚冤,以提供額外的生物學洞察力。例如赞庶,分析基因表達與增強子和/或啟動子可及性之間的關系训挡,可能會勾勒出細胞類型特定的基因調控圖澳骤,最大限度地發(fā)揮scRNA-seq數(shù)據(jù)集的效用。
首發(fā)公號:國家基因庫大數(shù)據(jù)平臺??
參考文獻
Wu Y, Zhang K. Tools for the analysis of high-dimensional single-cell RNA sequencing data[J]. Nature Reviews Nephrology, 2020, 16(7): 408-421.
圖片均來源于參考文獻澜薄,如有侵權請聯(lián)系刪除为肮。