作者,Evil Genius
時光飛逝塘幅,且行且珍惜。
單細胞RNA測序(scRNA-seq)在生物醫(yī)學研究中的應用尿贫,提高了對疾病發(fā)病機制的認識电媳,并為新的診斷和治療策略提供了有價值的見解。隨著包括臨床樣本在內(nèi)的高通量scRNA-seq數(shù)據(jù)的擴大庆亡,對這些大量數(shù)據(jù)的分析已經(jīng)成為進入這一領域的研究人員的一個必須面對的前景匾乓。在這里,回顧了典型scRNA-seq數(shù)據(jù)分析的工作流程又谋,包括原始數(shù)據(jù)處理和質(zhì)量控制拼缝,適用于幾乎所有scRNA-seq數(shù)據(jù)集的基本數(shù)據(jù)分析,以及應針對特定科學問題量身定制的高級數(shù)據(jù)分析彰亥。在總結(jié)每個分析步驟的當前方法的同時咧七,還提供了軟件和腳本的在線數(shù)據(jù)。對一些具體的分析任務和方法提出了建議和注意事項任斋。
Background
復雜組織由各種各樣的細胞類型組成继阻,這些細胞類型以各種各樣的混合狀態(tài)出現(xiàn)。每個細胞所包含的功能基因組信息往往與鄰近的細胞群甚至同一類型的細胞有很大的不同仁卷。這意味著對塊狀組織中細胞群的分子分析本質(zhì)上是不可靠和不敏感的穴翩。在單細胞分辨率下量化分子變化所能達到的敏感性和特異性,為揭示疾病發(fā)病機制和進展背后的分子機制帶來了前所未有的機遇锦积。自成立以來,單細胞rna測序(scRNA-seq)已被證明是一個強大的工具歉嗓,用于分析單個細胞的基因表達丰介,在生理和發(fā)病機制。例如,通過在癌癥生物學中使用scRNA-seq哮幢,研究人員已經(jīng)能夠確定各種腫瘤類型中癌細胞的起源带膀。此外,從治療和預后方面橙垢,發(fā)現(xiàn)了具有臨床顯著特征的惡性細胞亞群垛叨,如具有上皮-免疫雙重特征的鼻咽癌預后較差休弃。同樣银伟,在轉(zhuǎn)移性乳腺癌細胞中觀察到強烈的上皮-間充質(zhì)轉(zhuǎn)化(EMT)和干性特征。在scRNA-seq的輔助下掠兄,還可以對類器官系統(tǒng)的質(zhì)量和有效性進行準確評估和系統(tǒng)評估喂击〖涟患者來源的類器官模型目前正被應用于疾病病理解剖和促進個性化治療的藥物篩選。此外翰绊,通過聯(lián)合應用患者來源的類器官和scRNA-seq佩谷,發(fā)現(xiàn)了腫瘤進展過程中不同的細胞狀態(tài),并鑒定了耐藥細胞亞群监嗜。在當前的2019冠狀病毒病(COVID-19)大流行中谐檀,scRNA-seq加速了表征分子基礎的研究,從而理解了嚴重急性呼吸綜合征冠狀病毒 (SARS-CoV-2)的病理裁奇。多種基于scrna -seq的研究揭示了新型冠狀病毒的靶向細胞亞型桐猬,分析了感染后免疫細胞的基因表達變化,量化了不同類型細胞間相互作用的改變框喳,為開發(fā)新型冠狀病毒的潛在治療方法提供了重要資源课幕。
自從商業(yè)單細胞平臺(包括10 × genomics和Singleron提供的平臺)出現(xiàn)以來,由研究機構或第三方公司的核心設施提供的scRNA-seq服務正在使該技術更容易獲得五垮,價格也更易接受乍惊,并在某些情況下成為生物醫(yī)學研究人員和臨床醫(yī)生的常規(guī)技術。雖然這些服務提供商通常執(zhí)行數(shù)據(jù)質(zhì)量控制并執(zhí)行數(shù)據(jù)處理的基本pipeline放仗,但通常無法提供特定研究目標和科學問題所需的高級數(shù)據(jù)分析润绎。因此,大多數(shù)生物醫(yī)學研究人員需要通過確定最合適的計算工具來解剖他們的數(shù)據(jù)诞挨,來掌握scRNA-seq數(shù)據(jù)分析的全部范圍莉撇。
為了克服scRNA-seq數(shù)據(jù)分析的障礙,特別是在生物醫(yī)學研究中惶傻,本文旨在:1)總結(jié)生物醫(yī)學scRNA-seq數(shù)據(jù)分析中每個分析任務的算法開發(fā)和基準測試結(jié)果的最新進展;2)介紹由更適合生物醫(yī)學應用的推薦軟件工具組成的工作流程棍郎。工作流程包括基本的scRNA-seq數(shù)據(jù)處理、質(zhì)量控制(QC)银室、特征選擇涂佃、降維励翼、細胞聚類和注釋、軌跡推斷辜荠、細胞-細胞通訊(CCC)汽抚、轉(zhuǎn)錄因子(TF)活性預測和代謝分析。
R版本
quality control: DoubletFinder, Seurat
integration: Seurat CCA, Seurat RPCA, Liger and Harmony
reduction and clustering: Seurat
cell annotation: singleR伯病,scCATCH, CellMarker
trajectory prediction: Monocle3
cell communication: CellChat
metabolic flux: scMetabolism
python版本
rawdata analysis: cellranger
quality control, reduction and cluster: scanpy
regulon analysis: pySCENIC
trajectory prediction: scVelo
metabolic analysis: scFEA
General tasks of single?cell RNA?seq data analysis
scRNA-seq的典型數(shù)據(jù)分析步驟一般可以分為三個階段:原始數(shù)據(jù)處理和QC造烁,適用于幾乎所有scRNAseq數(shù)據(jù)集的基礎數(shù)據(jù)分析,以及針對特定研究場景量身定制的高級數(shù)據(jù)分析午笛。而基本的數(shù)據(jù)分析步驟包括數(shù)據(jù)歸一化與整合惭蟋、特征選擇、降維季研、細胞聚類敞葛、細胞類型標注和標記基因鑒定。高級數(shù)據(jù)分析任務包括軌跡推斷与涡、CCC分析惹谐、軌跡推斷和TF活性預測、代謝通量估計驼卖。
Experimental design
ScRNA-seq實驗需要精心設計氨肌,以優(yōu)化解決科學問題的能力。在開始數(shù)據(jù)分析之前酌畜,需要收集以下與實驗設計相關的信息怎囚。(1)物種:對于生物醫(yī)學研究和臨床應用,通常收集來自患者的人體樣本進行測序桥胞。在某些情況下恳守,為了研究潛在的分子機制,也使用了小鼠和其他模式生物贩虾。由于人類與其他物種的基因名稱和相關數(shù)據(jù)資源是不同的催烘,因此在進行數(shù)據(jù)分析時,確定物種是很重要的缎罢。為簡單起見伊群,將重點介紹來自人類樣本的數(shù)據(jù)。(2)樣品來源:根據(jù)科學問題和樣本可及性的不同策精,不同的研究可以選擇不同的樣本類型舰始。例如,為了研究肝細胞癌等實體腫瘤咽袜,從患者身上收集腫瘤活檢和腫瘤周圍樣本進行病例對照設計丸卷。盡管上述設計在一定程度上是可行的,但外周血單個核細胞(pmcs)更容易獲得并廣泛用于scRNA-seq询刹。此外及老,來自患者來源的類器官的細胞通常用于研究個人遺傳變異對特定器官發(fā)育的影響抽莱,這也可能是特定疾病的起源范抓。了解樣本來源有助于特定的分析骄恶,例如細胞聚類和細胞類型注釋。(3)實驗設計:為了研究疾病的發(fā)病機制和特定治療的有效性匕垫,通常采用病例對照設計僧鲁,如腫瘤與腫瘤周圍設計。對于COVID-19等疾病象泵,無法從同一患者身上獲得正常樣本寞秃,因此以年齡和性別匹配的健康人群作為對照組。為了控制患者和對照組之間可能的協(xié)變量偶惠,需要仔細考慮每組的個體數(shù)量春寿。在(前瞻性)隊列研究中,樣本量通常相當大忽孽,因此scRNA-seq不能應用于來自個體捐贈者的每個樣本;在這種情況下绑改,通常采用嵌套病例-對照研究和樣本復用。一般情況下兄一,數(shù)據(jù)分析策略需要根據(jù)實驗設計的類型進行調(diào)整厘线。
Raw data processing
原始數(shù)據(jù)處理步驟包括:sequencing read QC, read mapping, cell demultiplexing and cell-wise unique molecular identifier (UMI)-count table generation。而標準化的數(shù)據(jù)處理pipeline提供了scRNA-seq平臺的發(fā)布出革,如Cell Ranger for 10 × Genomics Chromium和CeleScope (https://github.com/singleron-RD/CeleScope)造壮。對于Singleron的系統(tǒng),替代工具包括umi -tools, scPipe, zUMIs, celseq2, kallisto bustools和scruff也可以用于此過程骂束。根據(jù)最近一項對scRNA-seq分析進行基準測試的研究耳璧,這些pipeline之間的選擇似乎沒有下游步驟重要。在任何情況下展箱,都不建議在個人電腦上處理原始數(shù)據(jù)旨枯,因為這些pipeline需要大量的計算資源,并且針對高性能計算架構進行了優(yōu)化析藕。第三方公司通常提供處理過的數(shù)據(jù)召廷,包括UMI計數(shù)矩陣和QC指標,使研究人員能夠?qū)W⒂诮鉀Q科學問題的下游數(shù)據(jù)分析账胧。
QC and doublet removal
細胞QC的目的是確保所有被分析的“細胞”都是單個且完整的細胞竞慢。損壞的細胞,死亡的細胞治泥,受壓的細胞和雙細胞需要丟棄筹煮。細胞QC最常用的三個指標是:UMI總計數(shù)(即計數(shù)深度),檢測到的基因數(shù)量居夹,以及每個細胞條形碼中線粒體計數(shù)的比例败潦。Cell Ranger和CeleScope通常執(zhí)行第一輪細胞QC本冲,通過檢查scRNA-seq文庫中計數(shù)深度的分布,將潛在的真實細胞與背景細胞條形碼區(qū)分開來劫扒。需要注意的是檬洞,當損壞的細胞或細胞碎片在文庫中占相當大的比例時,有效細胞的最小計數(shù)深度的閾值很難確定沟饥√碚可能的解決方案包括同時考慮多個QC指標,以及應用更復雜的方法來排除背景和低質(zhì)量細胞贤旷。通常情況下广料,低數(shù)量的檢測基因和低計數(shù)深度表明細胞受損,而高比例的線粒體來源計數(shù)表明細胞死亡幼驶。相比之下艾杏,檢測到太多的基因和高計數(shù)深度可以表明雙基因。雖然像Seurat和Scater這樣的R包實現(xiàn)了促進細胞QC的功能盅藻,但QC指標的閾值在很大程度上取決于所研究的組織购桑、細胞解離協(xié)議、庫制備方案等萧求。參考具有相似實驗設計的文獻將有助于確定閾值其兴,高級研究人員也可以檢查QC指標的聯(lián)合分布。值得注意的是夸政,編碼核糖體蛋白的基因的累積表達并不是一個典型的QC指標元旬,因為核糖體蛋白表達的變化在生物學上是有意義的。
此外守问,在QC步驟中需要考慮和控制各種污染源匀归。例如,來自pbmc和固體組織的文庫可能被紅細胞污染耗帕,因此表達高水平血紅蛋白基因的細胞(如HBB)通常被丟棄穆端。另一種污染來源是無細胞或環(huán)境RNA,這可以從高通量scRNA-seq中無細胞液滴或孔中的特定基因的讀取中得到證明仿便。估計和清除這種污染的方法和工具最近已經(jīng)開發(fā)出來体啰,包括SoupX, DecontX,環(huán)境RNA的快速校正(FastCAR)和CellBender嗽仪。去除單細胞基因表達中環(huán)境RNA引起的背景信號可以改善下游分析和生物學解釋荒勇。
在高通量scRNA-seq實驗中,觀察到高比率的雙細胞并不罕見闻坚,其可達細胞條形碼的40%沽翔。因此,僅考慮計數(shù)深度和檢測基因數(shù)量的過濾步驟是不夠的,特別是當細胞類型組成復雜時仅偎,單細胞的計數(shù)深度分布與雙細胞的計數(shù)深度分布沒有區(qū)別跨蟹。由不同細胞類型組成的雙細胞可能會混淆下游分析,特別是在細胞聚類橘沥、差異表達分析和軌跡推斷中窗轩。幸運的是,已經(jīng)開發(fā)了許多復雜的方法來解開這些混雜的信號威恼。這些方法考慮單個細胞條形碼的基因表達譜品姓,并報告雙細胞分數(shù)作為指標。雙細胞評分的計算基于人工雙細胞[如單細胞去除雙細胞(Scrublet)箫措, doubletCells,基于二元分類的雙細胞評分(bcds)衬潦, DoubletDetection, DoubletFinder, Solo, DoubletDecon]或基因共表達[如基于共表達的雙細胞評分(cxds)斤蔓。在最近的一項研究中,使用一組綜合的合成和真實數(shù)據(jù)對現(xiàn)有的計算雙檢測方法進行了基準測試镀岛,推薦使用Doubletfinder工具弦牡,因為它在下游分析中實現(xiàn)了最高的檢測精度和最佳的性能。
Expression normalization
每個細胞總UMI計數(shù)的可變性取決于技術和生物學參數(shù)的范圍漂羊。技術因素與RNA捕獲效率驾锰、逆轉(zhuǎn)錄、cDNA擴增和測序深度有關走越,而生物學因素主要與細胞大小和細胞周期階段有關椭豫。由于這種變異,除非在測序文庫中添加外部的spike-in RNA對照旨指,否則幾乎不可能獲得RNA分子的絕對數(shù)量赏酥。與bulk RNA-seq一樣,相對RNA豐度通常用于比較單個細胞之間的基因表達譜;因此谆构,scRNA-seq數(shù)據(jù)通常采用global-scaling方法進行歸一化裸扶,其中scaling factors是為bulk RNA-seq開發(fā)的,這部分抑制了技術效應搬素。Popular global-scaling methods for bulk RNA-seq include transcript per million (TPM), upper quartile (UQ) normalization, trimmed mean of M values (TMM) normalization, and the DESeq normalization method呵晨,然而,由于通過零膨脹的扭曲趨勢熬尺,不適用于scRNA-seq摸屠。為scRNA-seq量身定制的歸一化方法,包括單細胞差異表達(SCDE)和基于模型的單細胞轉(zhuǎn)錄組學分析(MAST)猪杭,可以具體模擬scRNA-seq數(shù)據(jù)差異表達分析中的缺失事件餐塘。另一種方法,Scran皂吮,通過匯集相似基因表達譜的細胞戒傻,克服了縮放因子估計的問題(受太多零計數(shù)的影響)税手。Scran的池化策略在縮放因子估計方面優(yōu)于比較工具,TPM-/count深度縮放方法在實踐中得到廣泛應用需纳。
在基于縮放因子的歸一化之后芦倒,通常將結(jié)果值添加到一個偽計數(shù)并進行對數(shù)轉(zhuǎn)換。這一步實際上是有用的不翩,在統(tǒng)計上是合理的兵扬,因為它減輕了scRNA-seq計數(shù)數(shù)據(jù)中的均值-方差關系,也減少了表達數(shù)據(jù)中的偏態(tài)口蝠。為了更好地穩(wěn)定方差器钟,SCTransform(由Seurat團隊開發(fā)),它應用正則化負二項式回歸進行scRNA-seq數(shù)據(jù)歸一化和方差穩(wěn)定性妙蔗。
一些已知的生物效應傲霸,如細胞周期和細胞應激(以線粒體基因的過度表達為特征),可能會阻礙對特定生物信號的表征眉反。因此昙啄,對已知生物學的表達譜進行規(guī)范化或校正可能有助于解釋數(shù)據(jù)。例如寸五,糾正細胞周期的影響可以改善發(fā)育軌跡的重建梳凛。計算生物效應的程序可以通過對相關生物學特征(例如,細胞周期分數(shù))進行評分來實現(xiàn)梳杏,然后對Seurat中實現(xiàn)的計算分數(shù)進行簡單的線性回歸韧拒。此外,單細胞潛在變量模型(scLVM)/階乘單細胞潛在變量模型(f-scLVM)和細胞生長校正(cgCorrect)等專用工具也可用于此目的秘狞。值得注意的是叭莫,糾正一種特定分析的生物效應(例如,細胞分化)可能會無意中阻礙另一種分析的信號(例如烁试,細胞增殖);在為特定的分析任務選擇數(shù)據(jù)規(guī)范化策略時應該謹慎雇初。
Data integration
正如在“實驗設計”中提到的,生物醫(yī)學研究通常會進行病例與對照組的比較减响。通常靖诗,從不同醫(yī)療中心或醫(yī)院獲得的批次樣品應該在下游分析之前進行整合。對于使用患者來源的類器官的研究支示,數(shù)據(jù)集成也適用于在不同時間點收獲的細胞刊橘,以描述類器官的發(fā)育。在這些情況下颂鸿,另一個不必要的技術因素促绵,批次效應,是無法避免的,因為細胞和文庫制備是由不同的人败晴,在不同的時間點浓冒,或用不同批次的試劑處理的。在scRNA-seq中尖坤,批效應可能是非線性的稳懒,這可能不容易被最先進的批校正工具(如ComBat)解開。因此慢味,最近在scRNA-seq數(shù)據(jù)集成中開發(fā)了許多批效應校正方法场梆,試圖在保留生物變異的同時減輕或消除批特定偏差造成的影響。批量效應校正方法可分為以下幾類:1)用于bulk表達分析的工具纯路,包括ComBat和limma;2)基于高維基因表達空間及其子空間中相互近鄰(MNN)的方法或油,如mnnCorrect、fastMNN感昼、Scanorama和批量平衡k近鄰(BBKNN);3)嘗試在降維空間中以相關/共享特征對齊細胞的方法装哆,包括典型相關分析(CCA)、Harmony和基因組實驗關系的關聯(lián)推斷(LIGER);4)基于深度生成模型的方法定嗓,如scGen。此外萍桌,根據(jù)整合錨點的選擇宵溅,算法還可以分為不同的類型,例如以基因組特征為錨點上炎,以細胞為錨點恃逻。
文章A benchmark of batch-effect correction methods for single-cell RNA sequencing data比較了當時在5種不同集成場景下的10個數(shù)據(jù)集上可用的14種批量效應校正方法。其中藕施,根據(jù)Seurat 3中實現(xiàn)的Harmony寇损、LIGER和CCA的整體性能,推薦使用裳食。結(jié)合項目經(jīng)驗矛市,建議依次使用Harmony、Seurat3/4-CCA诲祸、LIGER進行數(shù)據(jù)集成浊吏。這是因為在處理不同的數(shù)據(jù)集時,這三種策略中沒有明顯的優(yōu)劣之分救氯。Harmony比其他工具運行得更快找田,適合初始探索;Seurat3/4-CCA在不同批次的細胞混合中是適度的,而LIGER在批量混合中做出了最大的努力着憨,有時以細胞類型純度為代價墩衙。值得注意的是,如果有人想評估批效應校正的有效性或評估數(shù)據(jù)中的批效應的程度,可以通過比較基于批效應校正分析的聚類或可視化結(jié)果漆改,以及通過直接合并來自多個樣本的細胞(例如Seurat中的合并函數(shù))心铃,并通過計算測試指標,如k-最近鄰批效應檢驗(kBET)來實現(xiàn)籽懦。
Feature selection
當細胞QC去除背景細胞和有問題的細胞時于个,特征部分是關于基因的。在人類基因組中暮顺,有超過20,000個基因被注釋厅篓,并對單個基因位點的mapping讀數(shù)進行計數(shù),以產(chǎn)生UMI計數(shù)矩陣捶码。然而羽氮,并不是所有的> 20,000個基因都能在表征細胞間異質(zhì)性或區(qū)分細胞類型/狀態(tài)方面提供信息。因此惫恼,“特征選擇”一詞是從統(tǒng)計學和機器學習領域借來的档押,用來描述為下游分析選擇具有生物學信息的基因的過程。這一過程通常是無監(jiān)督的祈纯,這意味著不需要與細胞類型或其他感興趣的生物過程相關的信息令宿。
考慮到scRNAseq數(shù)據(jù)中相對較高的噪聲水平,特征選擇通常識別出生物變異性比技術噪聲更強的基因腕窥。由于技術噪聲很大程度上依賴于基因的平均表達粒没,高變基因(hvg)最初是通過檢查變異系數(shù)和表達均值之間的關系來識別的。由于其在降低技術噪聲和緩解下游分析中的計算需求方面的有用性簇爆,例如細胞聚類和可視化的降維癞松,許多其他用于HVG識別的工具被開發(fā)出來并進行了比較評估。替代的特征選擇方法不是識別hvg入蛆,而是考慮退出并優(yōu)先考慮觀察到的零數(shù)量高于預期的基因响蓉。
從理論上講,選擇用于下游分析的基因數(shù)量取決于所研究樣本中細胞組成的復雜性哨毁。雖然用于HVG識別的方法可以確定給定顯著性水平上的HVG數(shù)量枫甲,但識別固定數(shù)量的HVG正變得流行,通常HVG數(shù)量在1000到5000之間挑庶。研究表明言秸,下游分析對hvg的確切數(shù)量不敏感。值得注意的是迎捺,一些不利的協(xié)變量举畸,如批效應,可能會扭曲HVG識別凳枝。因此抄沮,應在校正協(xié)變量后進行HVG選擇跋核。在存在批效應的情況下,特征選擇也可以在數(shù)據(jù)整合之前對單個樣本進行叛买。
Dimensionality reduction and visualization
在選擇1000-5000個hvg的情況下砂代,表達式數(shù)據(jù)的維數(shù)仍然很高,從而阻礙了對數(shù)據(jù)集的人工檢查率挣,如可視化刻伊、聚類和細胞類型注釋。為此椒功,可以通過降維技術進一步降低表達矩陣的維度捶箱,將細胞從高維空間投射到低維嵌入空間,并保留細胞間變異的生物學信息动漾。常用的降維方法有主成分分析(PCA)丁屎、非負矩陣分解(NMF)、多維標度(MDS)旱眯、t分布隨機鄰居嵌入(t-SNE)和均勻流形近似投影(UMAP)等晨川。
PCA是一種通用的降維降噪技術,在scRNAseq數(shù)據(jù)分析中得到了廣泛應用删豺。通過將原始表達式矩陣線性投影到其子空間共虑,主成分分析按照重要程度的順序給出主成分(PCs)。雖然前兩到三維pc可以用于可視化呀页,但通常保留更多的pc用于下游分析看蚜,如細胞聚類和軌跡推斷。保留的pc數(shù)量很大程度上取決于數(shù)據(jù)集的復雜性赔桌,可以通過“elbow”方法或基于jackstraw排列測試的方法確定。然而渴逻,PCA在分析中不能考慮dropout事件疾党,這導致了一些新的方法的發(fā)展。零膨脹因子分析(zero - inflation factor analysis, ZIFA)是其中一種基于因子分析的方法惨奕,該方法能清晰地模擬失學率特征雪位,并優(yōu)于比較方法。與PCA相似梨撞,NMF是一種線性投影降維方法雹洗,在基于scRNA-seq的細胞聚類中表現(xiàn)出了穩(wěn)健的性能。
對于可視化卧波,非線性降維方法更適合时肿,它允許在二維/三維空間中進行全局非線性嵌入。MDS是一種非線性降維方法港粱,它保留了原始空間中細胞間的距離螃成。然而旦签,MDS不能擴展到大規(guī)模的scRNA-seq數(shù)據(jù),因為當細胞數(shù)很大時寸宏,計算成對距離變得困難宁炫。越來越多的證據(jù)表明t-SNE和UMAP更適合用于scRNA-seq數(shù)據(jù),scRNA-seq數(shù)據(jù)已廣泛應用于單細胞分析氮凝,用于數(shù)據(jù)可視化和細胞群識別羔巢。然而,t-SNE通常存在一些局限性罩阵,例如對于大規(guī)模scRNA-seq數(shù)據(jù)集的計算時間較慢竿秆,并且沒有保留全局數(shù)據(jù)結(jié)構。UMAP具有上述兩方面的優(yōu)勢永脓,成為目前最受歡迎的降維選擇袍辞。UMAP不僅有助于可視化細胞類群,還有助于注釋細胞類群常摧。然而搅吁,值得注意的是,雖然UMAP在保存全局數(shù)據(jù)結(jié)構和捕獲局部相似性之間取得了平衡落午,但結(jié)果空間中的細胞之間的距離并沒有被保留谎懦。因此,像聚類和偽時間推斷這樣的下游分析通常是基于幾個到幾十個pc的PCA結(jié)果執(zhí)行的溃斋。
Identification of cell subpopulations
單細胞轉(zhuǎn)錄組學的關鍵應用之一是基于細胞聚類或分類來確定細胞亞群捺氢。由于scRNA-seq數(shù)據(jù)中存在高水平的噪聲泥彤,對scRNA-seq矩陣數(shù)據(jù)應用降維方法可能有助于細胞聚類。雖然PCA通常用于bulk RNA-seq,但細胞亞群之間基因表達的真正生物學變異性可能不容易通過少量的pc來區(qū)分茵臭。為了更好地解釋這種變化,NMF被用于在單細胞轉(zhuǎn)錄組數(shù)據(jù)中分離亞群趣些,并已被證明優(yōu)于PCA材蛛,具有更高的準確性和穩(wěn)健性。同樣走哺,SinNLRR被開發(fā)用于通過非負和低秩表示提供基因表達子空間的穩(wěn)健聚類蚯嫌。
最先進的聚類方法,如k-means算法丙躏,也已應用于scRNAseq數(shù)據(jù)集择示,并基于此應用開發(fā)了單細胞共識聚類(SC3)方法。scRNA-seq中另一類常用的細胞聚類方法是基于細胞最近鄰網(wǎng)絡的社區(qū)檢測方法晒旅,該方法在Seurat R包中被采用和實現(xiàn)栅盲。此外,還開發(fā)了多種細胞聚類方法敢朱。例如剪菱,BackSPIN利用了雙聚類技術來避免層次聚類中不利的成對比較摩瞎,通過多核學習的單細胞解釋(SIMLR)基于多核學習,通過imputation和降維聚類(CIDR)利用imputation來減輕scRNA-seq中退出的影響孝常,通過混合模型的單細胞聚合聚類集成聚類(SAME-clustering)集成聚類由多種方法產(chǎn)生旗们。然而,兩項獨立的基準測試研究表明构灸,SC3和Seurat中的聚類方法表現(xiàn)相似上渴,并且優(yōu)于所有其他比較方法。
相似度或距離度量對于scRNA-seq中的聚類細胞至關重要喜颁,這可以特定于實驗平臺或特定樣本稠氮。研究表明,與無監(jiān)督聚類方法相比半开,用于細胞類型識別的監(jiān)督方法較少受到批效應隔披、細胞類型數(shù)量和細胞群體組成不平衡的影響。在機制上寂拆,監(jiān)督方法依賴于一個全面的參考數(shù)據(jù)庫奢米,已知的細胞類型注釋,在此基礎上訓練分類模型來預測未注釋數(shù)據(jù)集中的細胞類型纠永。CellAssign鬓长、scmap、單細胞識別(SingleR)尝江、分級分類輔助的細胞類型表征(CHETAH)和SingleCellNet是該類方法涉波。盡管監(jiān)督方法具有明顯的優(yōu)勢,但非監(jiān)督方法通常更擅長識別未知細胞類型炭序,具有更高的計算效率啤覆。因此,在Seurat中實現(xiàn)的聚類方法綜合性能最好惭聂,建議作為細胞類型識別的首選方法城侧。
單細胞聚類分析的另一個重要問題是罕見細胞類型的檢測,這些細胞類型在復雜疾病中發(fā)揮重要作用彼妻,但豐度較低。RaceID, GiniClust, sincerely和dendrisplit是專為在scRNA-seq數(shù)據(jù)分析中識別罕見細胞類型而設計的聚類算法豆茫。
Cell type annotation
為細胞亞群分配細胞身份(稱為細胞類型注釋)是scRNA-seq數(shù)據(jù)分析的關鍵步驟侨歉。手動注釋細胞類型非常耗時,而且可能是主觀的揩魂。因此幽邓,新興的計算工具已經(jīng)開發(fā)用于自動細胞類型注釋。這些計算方法通郴鹇觯可以分為三大類牵舵。
第一種類型是基于標記基因的柒啤,它依賴于公共數(shù)據(jù)庫或文獻中細胞類型特異性標記的可用性。CellMarker和PanglaoDB是常用的在線資源畸颅,存儲了人類和小鼠組織中各種細胞類型的標記担巩。CellMarker通過手動管理超過10萬篇發(fā)表的論文,保存了大約500種人類細胞類型的13000多個細胞標記没炒,PanglaoDB是一個細胞標記概要涛癌,包含來自1000多個scRNA-seq實驗的6000個不同細胞類型的標記。此外送火,開發(fā)了TF-Marker數(shù)據(jù)庫拳话,為人類提供細胞或組織特異性tf和相關標記。這些數(shù)據(jù)庫是細胞類型注釋的寶貴資源种吸。與此同時弃衍,已經(jīng)開發(fā)了許多使用標記基因進行細胞類型注釋的工具,如ScType坚俗、scSorter镜盯、半監(jiān)督類別識別和分配(SCINA)、基于單細胞集群的細胞異質(zhì)性自動注釋工具包(scCATCH)和CellAssign坦冠。其中一些方法應用復雜的統(tǒng)計模型來利用標記基因的先驗知識形耗。例如,SCINA建立了一個半監(jiān)督模型辙浑,利用期望最大化(EM)算法利用先前識別的標記基因激涤,CellAssign利用概率圖形模型,根據(jù)細胞類型標記基因的先驗知識將細胞注釋為預定義的或新的細胞類型判呕,同時考慮批次和樣本效應倦踢。
第二種方法是基于參考轉(zhuǎn)錄組的,它使用細胞類型標記的scRNA-seq數(shù)據(jù)集作為細胞類型注釋的輸入侠草,通過搜索查詢數(shù)據(jù)與參考數(shù)據(jù)之間的最佳相關性辱挥。這組常用的工具包括CHETAH, scmap, scMatch和SingleR。CHETAH算法基于由已知細胞類型的引用概要文件構建的分層樹边涕,并通過從根節(jié)點到葉節(jié)點逐步遍歷樹來搜索細胞的最佳注釋晤碘。基于200個最具辨識性的基因功蜓,計算輸入細胞與所考慮的兩個樹枝的相關系數(shù)园爷,計算出選擇樹枝繼續(xù)樹遍歷的剖面分數(shù)和置信度分數(shù)。SingleR方法將每個未注釋的單細胞轉(zhuǎn)錄組與參考數(shù)據(jù)中基于hvg的已知細胞類型的參考轉(zhuǎn)錄組相關聯(lián)式撼。SingleR以迭代的方式分配細胞標識童社,并且在每次迭代中縮減參考集以細化分配。值得注意的是著隆,參考轉(zhuǎn)錄組數(shù)據(jù)的全面性對這組方法至關重要扰楼。常用的參考數(shù)據(jù)有Blueprint呀癣、Encode和Human Primary Cell Atlas。
最后弦赖,第三種利用基于監(jiān)督機器學習的方法项栏,其中由標記參考訓練的分類器然后應用于預測未注釋細胞的細胞類型。例如腾节,SingleCellNet使用多類隨機森林分類器忘嫉,使用神經(jīng)網(wǎng)絡的自動細胞類型識別(ACTINN)使用人工神經(jīng)網(wǎng)絡,scPred使用支持向量機(SVM)案腺, scclassification使用集成學習進行細胞類型注釋庆冕。此外,ontology-based的單細胞分類(OnClass)還可以通過識別由細胞本體和未注釋的細胞產(chǎn)生的低維嵌入中最近的細胞類型劈榨,準確地注釋訓練數(shù)據(jù)集中沒有的細胞類型访递。
細胞類型注釋的自動化方法已應用于廣泛的生物醫(yī)學研究,包括癌癥研究同辣。然而拷姿,最近的一項基準研究表明,每種計算方法在不同的場景下都具有特定的優(yōu)勢旱函,這使得臨床用戶很難選擇合適的工具响巢。集成來自多個工具的注釋結(jié)果可能是上述問題的解決方案,并可能實現(xiàn)更準確的細胞類型注釋棒妨。因此踪古,最近開發(fā)了用于免疫細胞聚類和注釋的ImmCluster,集成了7種基于參考和4種基于標記基因的計算方法券腔,并由手動策劃的標記基因集支持伏穆。比較研究表明,與單個方法相比纷纫,ImmCluster提供了更準確和穩(wěn)定的細胞類型注釋枕扫。
Marker gene identification
特定細胞群或細胞類型的標記基因是表征其功能的重要資源。反過來辱魁,如上所示烟瞧,標記基因也可以用于細胞類型注釋。識別細胞簇/類型特異性基因的典型方法是基于統(tǒng)計檢驗在簇中識別差異表達基因(DEGs)染簇。例如燕刻,scRNA-seq分析pipeline Seurat和sincerely使用非參數(shù)Wilcoxon 's秩和檢驗來識別特定細胞類型的高表達基因。研究表明剖笙,Wilcoxon秩和檢驗的假陽性率低于基于測序的DEG分析的專用方法[例如,DESeq2和R (edgeR)中數(shù)字基因表達(DGE)的實證分析]请唱。此外弥咪,SC3采用非參數(shù)Kruskal-Wallis檢驗對兩組以上細胞進行比較过蹂。考慮到scRNA-seq中的缺失以及細胞類型或狀態(tài)之間基因表達分布的差異聚至,許多其他方法被開發(fā)用于標記基因鑒定酷勺,如MAST, SCDE和DEsingle。
還有一類方法是在細胞聚類過程中同時識別細胞特異性基因扳躬,而不是在此之后再進行一步脆诉。如前所述,BackSPIN是基于一種聚類方法贷币,即在聚類細胞時將高表達基因聚在一起击胜。同樣,迭代聚類和導向基因選擇(ICGS)首先通過表達基因的成對相關性來識別導向基因役纹,然后對導向基因進行迭代聚類偶摔。此外,DendroSplit在識別subcluster時考慮標記基因的顯著性水平促脉。最后辰斋,對單個細胞中基因表達的分布進行統(tǒng)計建模,開發(fā)了scRNA-seq數(shù)據(jù)的方差驅(qū)動多任務聚類(scVDMC)瘸味、BPSC和偏差校正測序分析(BCseq)等方法宫仗,以改進細胞亞型鑒定和差異表達分析。
關于scRNA-seq中DEG工具的最佳選擇旁仿,最近的一項研究比較了36種方法藕夫,發(fā)現(xiàn)了所比較的方法之間的根本差異。有人指出丁逝,低表達基因的預過濾可能有助于DEG分析汁胆,用于bulk RNA-seq分析的方法通常與專門為scRNA-seq開發(fā)的方法具有相當?shù)男阅堋霜幼?傮w而言嫩码,除復雜的實驗設計外,非參數(shù)Wilcoxon’s秩和檢驗在大多數(shù)應用場景中排名較高罪既。
Functional enrichment analysis
為了促進在每種細胞類型中鑒定的標記基因的解釋和組織铸题,通常進行功能富集分析。為bulk 轉(zhuǎn)錄組學開發(fā)的計算方法可以很容易地應用于這種分析琢感,例如用于注釋的數(shù)據(jù)庫丢间、可視化和集成發(fā)現(xiàn)(DAVID)。這種分析需要一個統(tǒng)計顯著性的硬界限來定義標記基因;相比之下驹针,廣泛使用的基因集富集分析(GSEA)是一種無截斷的方法烘挫。GSEA首先根據(jù)感興趣的細胞群之間的差異表達統(tǒng)計數(shù)據(jù)對基因進行排序,然后統(tǒng)計評估一個功能有意義的基因集或途徑是否在排名列表的頂部或底部顯著過度代表。為了便于GSEA分析饮六,分子特征數(shù)據(jù)庫(MSigDB)提供了一系列標注的基因集其垄,包括通路和標記基因特征。
除了上述基于標記基因或兩組細胞差異表達進行功能標注的情況外卤橄,富集分析還可以在單細胞水平上進行绿满。單樣本GSEA (ssGSEA)和基因集變異分析(GSVA)是GSEA的類似物,用于單個散裝樣品的富集分析窟扑,目前已廣泛用于scRNA-seq計算特征評分喇颁。此外,考慮到其在scRNA-seq中的特點嚎货,還提出了更具體的工具橘霎,包括Vision、Pagoda2厂抖、AUCell茎毁、單細胞簽名瀏覽器(SCSE)和聯(lián)合評估簽名均值和推斷富集(JASMINE),總體上更適合用于scRNA-seq中的簽名評分忱辅。此外七蜘,這些特征評分方法也可用于通路活性推斷。
Trajectory inference and RNA velocity
除了scRNA-seq可以捕捉到的細胞間異質(zhì)性外墙懂,轉(zhuǎn)錄組的動態(tài)也可能反映了發(fā)育軌跡或細胞狀態(tài)的轉(zhuǎn)變橡卤。軌跡推斷、偽時間估計和RNA速率建模都有助于揭示細胞分化或激活過程中的分子特征和調(diào)控機制损搬。
軌跡推斷是過去幾年的一個熱門研究領域碧库,開發(fā)了大約100個計算工具,促進了發(fā)育生物學以及癌癥發(fā)展和免疫反應狀態(tài)改變的研究巧勤。此外嵌灰,應用這類方法還可以促進新細胞類型的客觀識別,以及在發(fā)育或狀態(tài)轉(zhuǎn)換過程中調(diào)節(jié)網(wǎng)絡的推斷颅悉。根據(jù)軌跡的類型沽瞭,軌跡推斷方法也可以分為不同的類別,包括線性方法[如SCORPIUS剩瓶,單細胞分析工具(TSCAN)驹溃, Wanderlust,分叉方法[如擴散偽時間(DPT) 延曙, Wishbone]豌鹤,多分叉方法[如FateID, STEMNET,混合因子分析器(MFA)]枝缔,樹方法(如Slingshot, scTite, Monocle)布疙,圖形方法[如基于分區(qū)的圖形抽象(PAGA),稀有細胞類型鑒定(RaceID),細胞表達關系的選擇性局部線性推斷(SLICER)]灵临。目前拣挪,軌跡推斷方法日趨成熟,特別是線性和分叉方法俱诸。基于最近的基準研究赊舶,給出了實際應用的指導方針睁搭,以便生物醫(yī)學研究人員可以根據(jù)數(shù)據(jù)中預期拓撲的先驗知識選擇適當?shù)姆椒?否則,建議使用PAGA笼平、Monocle园骆、RaceID和Slingshot進行初步研究。
根據(jù)現(xiàn)有的生物學知識寓调,在推斷發(fā)育或轉(zhuǎn)變軌跡的起點上锌唾,沿著軌跡的細胞可以以偽時間順序排列。如果軌跡中存在分叉夺英、多分叉或樹形結(jié)構晌涕,則應采用多條路徑分別經(jīng)過樹枝。這樣痛悯,就很容易研究沿偽時間的基因表達動態(tài)余黎。建立了基于軌跡/偽時間的差異表達分析方法,揭示了譜系/狀態(tài)規(guī)范的動態(tài)調(diào)控载萌。
捕捉轉(zhuǎn)錄組動態(tài)的另一種方法是使用RNA速率惧财,這是基于同一細胞中成熟和未成熟轉(zhuǎn)錄本(即未剪接的內(nèi)含子)之間的關系。如果細胞中有相對較多的未剪接轉(zhuǎn)錄本扭仁,則該基因處于上調(diào)狀態(tài)垮衷,反之亦然。聯(lián)合量化成熟與未成熟轉(zhuǎn)錄物的比值乖坠,以及狀態(tài)變化過程中基因表達的變化搀突,從而確定細胞轉(zhuǎn)化的方向。這一基本原理已在第一個RNA速率方法Velocyto中實現(xiàn)瓤帚,并在后續(xù)方法scVelo中進行了改進描姚,其中采用了likelihood-based的動力學模型。此外戈次,最近開發(fā)的方法將RNA速率與軌跡推斷相結(jié)合轩勘,從而實現(xiàn)獨立于先驗知識的定向軌跡推斷。例如怯邪,CellRank利用了軌跡推斷的魯棒性和來自RNA速度的方向信息绊寻,能夠檢測以前未知的軌跡和細胞狀態(tài)。CellPath是另一種整合單細胞基因表達動態(tài)和RNA速度信息進行軌跡推斷的方法。
Cell–cell communications
CCC事件在機體的發(fā)育和穩(wěn)態(tài)澄步、疾病的發(fā)生和發(fā)展中起著重要作用冰蘑。例如,腫瘤微環(huán)境是由腫瘤細胞村缸、基質(zhì)細胞和多種免疫細胞組成的復雜生態(tài)系統(tǒng)祠肥,這些細胞之間的通信異常或中斷可能促進腫瘤生長梯皿。為此仇箱,開發(fā)了各種計算工具來使用scRNA-seq數(shù)據(jù)推斷CCC。細胞間的通訊通常依賴于配體-受體(LR)的相互作用东羹,這通常是量化LR共表達剂桥。
為了便于上述研究,已知的配體受體相互作用(LRIs)已被手動整理并存入數(shù)據(jù)庫属提。到目前為止权逗,LRI數(shù)據(jù)庫有相當多,包括CellPhoneDB, ICELLNET, CellTalkDB, SingleCell - signaLR和Omnipath冤议。最近更新的CellPhoneDB(版本4)包括近2000個配體和受體蛋白之間的高置信相互作用斟薇,以及異構體蛋白復合物。CellTalkDB是另一個綜合性的人類和小鼠LRI數(shù)據(jù)庫求类,包括3398對人類LR對和2033對小鼠LR對奔垦。同時,scRNA-seq數(shù)據(jù)使用前面提到的方法進行細胞聚類和注釋尸疆。將注釋的scRNA-seq數(shù)據(jù)與已知的LRIs集成椿猎,通常計算樣本特定的LR分數(shù),量化相互作用的潛力寿弱》该撸基于LR共表達,LR評分函數(shù)可分為表達閾值症革、表達相關筐咧、表達乘積和微分表達組合等幾類。例如噪矛,Camp等人僅在配體和受體的表達值都高于某一閾值[log2(FPKM)≥5]時才考慮LR配對量蕊。相比之下,SingleCellSignalR方法是基于LR基因表達水平的乘積艇挨。
近年來残炮,基于scRNA-seq數(shù)據(jù)預測CCC的計算方法不斷發(fā)展。CCC推理工具根據(jù)其特點可分為三類:基于網(wǎng)絡的推理工具缩滨、基于機器學習的推理工具和基于空間信息的推理工具势就∪埃基于網(wǎng)絡的方法,包括NicheNet苞冯、細胞-細胞通信資源管理器(CCCExplorer)袖牙、scConnect和多細胞相互作用網(wǎng)絡分析工具包(NATMI),利用基因之間的連接網(wǎng)絡來預測CCC舅锄。例如鞭达,NicheNet將單細胞表達數(shù)據(jù)與信號通路和基因調(diào)控網(wǎng)絡的先驗知識整合在一起,其特點是應用個性化PageRank算法皇忿,用于計算配體-靶標調(diào)控潛在分數(shù)碉怔。在基于機器學習的方法中采用了各種類型的機器學習算法,如SingleCellSignalR禁添、基于相似矩陣優(yōu)化的單細胞數(shù)據(jù)分析(SoptSC)和Python最大信息網(wǎng)絡探索資源(PyMINEr)。此外桨踪,參考成分分析(RCA -CCA)老翘、線性回歸和決策樹分類器也用于CCC預測。細胞在空間上的定位或細胞間的空間接近是細胞定位的前提;因此锻离,考慮空間信息將提高CCC推斷的準確性铺峭。隨著空間轉(zhuǎn)錄組學的快速發(fā)展,許多CCC推斷方法將scRNA-seq數(shù)據(jù)與空間轉(zhuǎn)錄組學和/或圖像數(shù)據(jù)相結(jié)合汽纠,用于識別CCC卫键。CellTalker通過計算LRIs的數(shù)量來評分細胞類型之間的通信,然后使用圖像數(shù)據(jù)通過細胞之間的空間接近性來評估虱朵。此外莉炉,在Python (Squidpy)和組織學地形細胞術分析工具箱(histoCAT)中對分子數(shù)據(jù)的空間量化提供了空間組學數(shù)據(jù)的分析框架,其中可以通過細胞接近或鄰域分析來研究細胞間的通信碴犬。此外絮宁,CellChat的作者將空間信息作為評估不同CCC推斷方法的金標準,并表明CellChat在預測更強的相互作用方面表現(xiàn)得更好服协。最后绍昂,通常采用熱圖、馬戲圖偿荷、删接危基圖和氣泡圖對推理結(jié)果進行可視化。
新興的用于識別CCC的計算方法提高了我們對疾病發(fā)展微環(huán)境的理解跳纳。然而忍饰,所有的方法都依賴于LRIs的先驗知識和統(tǒng)計或機器學習模型來預測潛在的CCC事件“羝欤或者選擇LRI資源和預測方法可能會導致不同的結(jié)果喘批,但選擇對結(jié)果的影響在很大程度上是未知的撩荣。為了解決這一問題,最近的一項研究系統(tǒng)地比較了16種資源和7種CCC推斷方法饶深,以及比較方法的一致性餐曹。對比表明,不同的LRI資源覆蓋了不同比例的集體先驗知識敌厘,預測的CCC在很大程度上相互不一致台猴,這表明需要繼續(xù)努力改進CCC推斷資源和工具。
Regulon inference and TF activity prediction
轉(zhuǎn)錄因子在基因表達調(diào)控中起著至關重要的作用俱两,參與了人類的各種生理病理過程饱狂。在scRNA-seq中已經(jīng)實現(xiàn)了識別被感興趣的tf直接調(diào)控的共表達模塊,并將這些模塊定義為調(diào)控子宪彩。因此休讳,繪制細胞類型特異性調(diào)控圖和重建單個細胞中基于調(diào)控的調(diào)控網(wǎng)絡成為可能。
識別規(guī)則的一個重要資源是TF-target數(shù)據(jù)庫尿孔。動物轉(zhuǎn)錄因子數(shù)據(jù)庫(Animal Transcription Factor DataBase, AnimalTFDB)俊柔、JASPAR、基于語句的文本挖掘(trust)揭示的轉(zhuǎn)錄調(diào)控關系活合、KnockTF和Cistrome Data Browser (Cistrome DB)是應用廣泛的TF注釋數(shù)據(jù)庫雏婶,涵蓋了大多數(shù)人和小鼠的TF“字福基于這些數(shù)據(jù)庫留晚,建立細胞類型特異性轉(zhuǎn)錄調(diào)控網(wǎng)絡的一種簡單方法是識別上調(diào)的tf和/或差異表達的tf靶基因。例如告嘲,最近的一項scRNAseq研究基于AnimalTFDB TF注釋確定了差異表達的TF错维,并揭示了在胎兒上皮中表達的TF的再激活可能是克羅恩病的原因。
結(jié)合單細胞基因表達和全面的TF-靶標信息橄唬,已經(jīng)有許多方法用于推斷規(guī)則和TF活性需五。共表達分析,如加權基因共表達網(wǎng)絡分析(WGCNA)轧坎,已廣泛應用于bulk樣本宏邮,以檢測可能由相同TF調(diào)節(jié)的基因模塊。最近缸血,這種方法也被應用于scRNA-seq數(shù)據(jù)蜜氨,例如,發(fā)現(xiàn)在HIV感染過程中表達發(fā)生顯著變化的基因模塊捎泻。單細胞調(diào)控網(wǎng)絡信息和聚類(single cell regulatory network information and clustering, SCENIC)方法是最早基于scRNA-seq數(shù)據(jù)進行調(diào)控推理的方法飒炎,目前已被用于癌癥、COVID-19等多種疾病的調(diào)控網(wǎng)絡研究笆豁。在SCENIC中郎汪,首先通過隨機森林回歸等機器學習方法推斷TF與其目標基因之間的共表達模塊赤赊,然后通過TF的binding motif分析進行規(guī)則識別,只保留其在共表達模塊中的直接目標煞赢,形成規(guī)則抛计。最后,計算二值化分數(shù)照筑,以表明TF在每個細胞中的活性吹截。其他方法,包括SCODE和SINCERITIES凝危,利用scRNA-seq中重構的偽時間信息波俄,基于常微分方程或隨機微分方程模型推斷tf -靶標調(diào)控網(wǎng)絡。此外蛾默,機器學習技術也被應用于轉(zhuǎn)錄調(diào)控分析懦铺。例如,SIGNET采用多層感知器袋裝來識別規(guī)則支鸡,DeepDRIM采用監(jiān)督深度神經(jīng)網(wǎng)絡來重建基因調(diào)控網(wǎng)絡阀趴。特別是,DeepDRIM被證明能夠耐受scRNA-seq中的缺失事件苍匆,并在COVID-19輕、重度癥狀患者中識別出不同的B細胞調(diào)節(jié)網(wǎng)絡棚菊。
盡管基于scRNA-seq的基因調(diào)控分析方法很多浸踩,但由于轉(zhuǎn)錄調(diào)控的復雜性和scRNA-seq數(shù)據(jù)提供的信息不足,還需要對推斷結(jié)果進行嚴格的判斷统求。進行驗證實驗可以使推斷的結(jié)果更加可靠检碗。
Metabolic analysis
代謝是所有生物過程的核心,代謝失調(diào)是許多疾病的標志码邻,包括癌癥折剃、糖尿病和心血管疾病。雖然單細胞代謝組學技術正在迅速發(fā)展像屋,但現(xiàn)在要大規(guī)模應用還為時過早怕犁。相反,基于單細胞轉(zhuǎn)錄組學的代謝分析是一種有前途的替代方法己莺。例如奏甫,研究人員可以使用scRNA-seq來監(jiān)測關鍵代謝基因在不同處理下或重要生理/病理過程中的基因表達變化
基于scrna序列的代謝分析的計算工具可分為兩大類:基于通路的分析和基于通量平衡分析(FBA)的方法。對于第一類凌受,通常使用標準功能富集分析方法(請參閱題為功能富集分析的小節(jié))阵子。特別是,R包scMetabolism為scRNA-seq中代謝途徑活性的定量分析提供了一個集成的框架胜蛉,具有解釋退出的能力挠进,并與用于單細胞功能富集分析的多種工具兼容色乾,包括ssGSEA, Vision和AUCell。
另一類是基于fba的方法领突,其中利用基于約束的數(shù)學模型系統(tǒng)地模擬重建代謝網(wǎng)絡中的代謝暖璧。代謝網(wǎng)絡的重建通常基于策劃數(shù)據(jù)庫攘须,如京都基因和基因組百科全書(KEGG)和Reactome;然后漆撞,F(xiàn)BA在滿足輸入和輸出通量約束的情況下計算系統(tǒng)的靜態(tài)代謝通量。單細胞中單個酶的表達水平可能不會直接影響網(wǎng)絡中的代謝通量于宙,因為它們主要依賴于網(wǎng)絡拓撲結(jié)構和約束條件浮驳。據(jù)我們所知,單細胞通量平衡分析(scFBA)是第一個結(jié)合scRNA-seq數(shù)據(jù)和FBA來估計單細胞通量體的計算工具。后來帽撑,提出了羅盤和單細胞通量估計分析(scFEA)羊始。Compass基于Recon2對人體代謝的重建,并通過線性規(guī)劃解決基于約束的優(yōu)化問題奉件,對單個細胞中每個代謝反應的潛在活性進行評分。相比之下昆著,scFEA引入了概率模型來考慮通量平衡約束县貌,引入了多層神經(jīng)網(wǎng)絡來模擬通量變化和酶基因表達變化的非線性,并引入了圖神經(jīng)網(wǎng)絡來解決優(yōu)化問題凑懂。scFEA的分析結(jié)果可以進行各種生物學上有意義的下游分析煤痕,如細胞-細胞代謝通信。
discussion
最近接谨,Live-seq已經(jīng)開發(fā)出來摆碉,通過保持細胞存活,同時從單個細胞中提取RNA脓豪,將scRNA-seq從端點型分析轉(zhuǎn)換為時間分析工作流巷帝。預計Live-seq將解決scRNA-seq之外的許多其他生物學問題。此外扫夜,其他基于測序的單細胞分析技術也在快速發(fā)展中楞泼。為了更好地了解疾病條件下改變基因表達的異常調(diào)節(jié),使用測序(ATAC-seq)的單細胞轉(zhuǎn)座子可達染色質(zhì)檢測(ATAC-seq)笤闯、單細胞DNA甲基化分析和單細胞Hi-C都有助于從不同角度在單細胞分辨率上解剖潛在的調(diào)控機制现拒。算法也被開發(fā)來集成這些多模態(tài)單細胞數(shù)據(jù),能夠更好地解決細胞狀態(tài)和定義新的細胞亞型望侈。此外印蔬,單細胞多組學方法可以同時分析相同細胞中的兩個組學,為單個細胞提供調(diào)控元件和相應基因表達水平的信息脱衙。這些技術生成的數(shù)據(jù)集可以幫助生物醫(yī)學研究人員發(fā)現(xiàn)特定疾病的調(diào)節(jié)程序侥猬,可能是在某些細胞類型的子集中例驹。此外,雖然仍處于發(fā)育階段退唠,但空間轉(zhuǎn)錄組學是一種很有前途的技術鹃锈,可以考慮細胞環(huán)境來表征特定細胞的分子特征。隨著空間轉(zhuǎn)錄組學分辨率的不斷提高瞧预,期望在分析細胞微環(huán)境和細胞與健康和疾病的相互作用方面獲得更深入的知識屎债。總的來說垢油,隨著技術的不斷進步盆驹,特別是那些以單細胞分辨率解析分子特性和相互作用的技術,我們將能夠更好地了解各種疾病的發(fā)病機制滩愁,并在不久的將來實現(xiàn)個性化治療躯喇。
參考文獻
Su, M., Pan, T., Chen, QZ. et al. Data analysis guidelines for single-cell RNA-seq in biomedical studies and clinical applications. Military Med Res 9, 68 (2022). https://doi.org/10.1186/s40779-022-00434-8
原文詳見:
https://mmrjournal.biomedcentral.com/articles/10.1186/s40779-022-00434-8