單細胞轉錄組和空間轉錄組技術的火爆档叔,推動了數(shù)據(jù)集的指數(shù)級增長蒸绩,大型細胞圖譜的構建衙四,也正準備促進向精準醫(yī)學的轉變患亿。在精準醫(yī)學中,特定細胞和轉錄本的存在和比例將指導疾病分類步藕、治療和預后。最近沾歪,《Nature Reviews》雜志剛發(fā)表了一篇最新的單細胞轉錄和空間轉錄組技術的綜述雾消,全面討論了樣本處理立润、數(shù)據(jù)處理、分析算法和技術應用前景的最新進展泉哈,就像結尾說的那樣旨巷,我們才剛剛開始揭開細胞的奧秘添忘。文章值得深入學習搁骑,全文如下,詳細分析算法和工具整理表格見結尾。
摘要
在這篇綜述中,討論了識別和表征細胞狀態(tài)和多細胞鄰域的最新進展识虚、挑戰(zhàn)和前景。包括樣本處理、數(shù)據(jù)整合银择、識別微妙的細胞狀態(tài)浩考、推斷細胞軌跡怀挠、預測發(fā)育潛力析蝴、反卷積和空間生態(tài)型分析方面的最新進展。此外,還討論了深度學習佩捞,包括基礎模型莲蜘,在分析單細胞和空間轉錄組數(shù)據(jù)中的應用。最后禀梳,討論了這些工具在干細胞生物學郊艘、免疫學和腫瘤生物學領域的最新應用,以及單細胞和空間轉錄組學在生物研究中的未來及其向臨床的轉化瞎嬉。
單細胞轉錄組
在樣本處理和解離中識別技術和生物學協(xié)變量
樣本制備、細胞解離和RNA捕獲是生成scRNA-seq數(shù)據(jù)的第一步烧董,也許是最不標準化的步驟(圖2a)。生物體死亡后不久逊移,組織組成就會發(fā)生變化预吆,免疫細胞的滲出機制惡化,脆弱的細胞會經歷凋亡胳泉。RNA合成停止拐叉,降低了每個細胞可檢測到的轉錄本數(shù)量觅够,并且會發(fā)生非隨機的轉錄變化,包括線粒體RNA含量的組織特異性變化巷嚣、剪接失調喘先、替代異構體的增加產生,以及與碳水化合物代謝廷粒、免疫反應窘拯、細胞周期、應激反應和細胞壞死相關的基因失活坝茎。使用不同的解離方案時涤姊,也會觀察到類似的時間依賴性變化,這些變化因消化酶的類型和解離的孵化溫度而異嗤放。
幾種組織固有和細胞固有的特征也會影響解離過程中的細胞組成思喊。組織中的化學物質,如胃酸次酌、膽汁酸以及腸道和胰腺酶恨课,可以直接溶解細胞并在分離過程中降解RNA。難以分離的粘附細胞岳服,如成纖維細胞剂公、帶有偽足的大細胞,如巨噬細胞和脂肪細胞吊宋,以及短命細胞纲辽,如中性粒細胞,在解離過程中容易被遺漏或過濾掉璃搜。酶消化還會降解細胞表面抗原拖吼,從而降低流式細胞術和其他相關方法(如CITE-seq和REAP-seq)在檢測時的抗體介導的可檢測性。
為了減少這些解離偏差这吻,已經開發(fā)了實驗策略吊档,但它們也引入了新的混雜因素。單核RNA測序(snRNA-seq)從冷凍和難以解離的組織(如神經元和神經膠質細胞)中分離核RNA橘原。然而籍铁,從不同的生物體涡上、組織和感興趣的細胞中分離核仍然需要定制化的方案趾断,以最小化解離偏差。核分離用于轉錄分析容易受到環(huán)境RNA的污染吩愧,并且排除了關鍵的細胞質轉錄本芋酌,包括參與小膠質細胞激活的轉錄本、在處理體中存儲的調節(jié)性RNA雁佳,以及在有絲分裂期間的核RNA(當細胞缺乏核膜時)脐帝⊥疲化學固定可以立即保存感興趣的組織的細胞和轉錄內容,但它也會破壞細胞及其內容的超微結構堵腹,使得進行全轉錄組測序變得具有挑戰(zhàn)性炸站。10x Genomics Flex Kit(https://go.nature.com/4crkIB3)使用預定的探針集從固定組織中提取RNA,用于小鼠和人類疚顷。盡管這種協(xié)議最大限度地減少了樣本處理和技術批次對數(shù)據(jù)質量的影響旱易,但RNA定量僅限于策劃的基因組區(qū)域,并且單細胞核的解離仍然容易受到細胞組成的扭曲腿堤。ST將在下面詳細討論阀坏,它可以在不解離的情況下保留細胞的組織環(huán)境,可能提供更具生理代表性的結果笆檀。
減少樣本準備時間忌堂,優(yōu)化消化緩沖液,并為這些預處理步驟制定標準酗洒,對于最小化實驗變異至關重要士修。使用計算工具對技術協(xié)變量進行事后校正,如下所述樱衷,可以提高scRNA-seq數(shù)據(jù)的生物學相關性李命,但它并不能取代認真注釋預處理變量和設計對照組以準確消除混雜因素而不減少生物學信號的需要。
樣本整合和批次校正
在涉及多個樣本的單細胞實驗中箫老,樣本之間的技術協(xié)變量可能會掩蓋感興趣的生物學差異封字。如上所述的樣本準備和處理的變化,以及與測序相關的因素耍鬓,如庫大小阔籽、PCR周期和測序儀器,可能會在數(shù)據(jù)中引入人為因素牲蜀,導致單個細胞更多地根據(jù)技術批次而不是生物學相似性進行聚類笆制。與樣本相關的其他因素,如被采樣個體的年齡涣达、性別和祖先在辆,或者特征的異質性,如細胞周期階段或線粒體RNA含量度苔,可能會掩蓋感興趣的生物學變量匆篓。已經開發(fā)了許多計算方法來校正批次特異性變化,同時旨在保留真實的生物學信號(表1)寇窑。
ComBat和limma是用于微陣列和批量RNA-seq數(shù)據(jù)的流行的線性調整模型鸦概,但它們在應用于scRNA-seq數(shù)據(jù)時面臨挑戰(zhàn),因為數(shù)據(jù)稀疏性和批次間細胞組成的變異性甩骏。這種限制促進了諸如相互最近鄰(MNN)方法的發(fā)展窗市,該方法識別跨批次的相似細胞鄰域先慷,并利用這些對齊來整合批次和校正基因表達數(shù)據(jù)。為了加快跨批次的搜索和提高對噪聲的魯棒性咨察,可以將基因表達輪廓降低到低維嵌入中论熙,使用如主成分分析(例如,fastMNN摄狱、BBKNN赴肚、Harmony)、奇異值分解(例如二蓝,Scanorama)誉券、集成非負矩陣因式分解(例如,LIGER)或典型相關分析(例如刊愚,Seurat)等方法踊跟,更有效地識別和對齊相似的細胞。這些方法可能需要大量的用戶輸入和參數(shù)調整鸥诽,因此鼓勵先驗知識和試驗性策略商玫,而不是過度依賴默認設置,以獲得最佳結果牡借。盡管數(shù)據(jù)整合工具改進了可視化拳昌、聚類和軌跡構建,但有效和準確地校正原始高維基因表達數(shù)據(jù)矩陣仍然是一個挑戰(zhàn)钠龙。通常不建議對批次校正計數(shù)的基因表達水平進行分析炬藤,因為存在消除真實生物學差異(稱為“II型錯誤”)的風險,同時在數(shù)據(jù)中引入虛假的差異表達基因(稱為“I型錯誤”)碴里。
替代策略已被提出沈矿,用于在多個樣本之間進行比較。Pseudobulk分析將單個細胞的基因表達匯總到組級別值咬腋,將每個樣本視為一個重復羹膳。這最小化了稀疏性、噪聲和單細胞間共線性的影響根竿,但忽略了細胞群內的異質性陵像、細胞豐度和批次間變異性。協(xié)變量和混合效應建模是估計不同因素對單細胞基因表達數(shù)據(jù)影響的替代方法寇壳。非參數(shù)方法醒颖,如Wilcoxon秩和檢驗,不假設潛在分布九巡,但通常限于簡單的實驗設計和兩組比較图贸。在批次包含病例和對照樣本或在樣本內而非跨樣本進行差異基因表達分析的情況下蹂季,跨組的基因水平統(tǒng)計的元分析是一個合理的策略冕广。無需聚類策略也已出現(xiàn)疏日,它們識別跨批次的不同細胞狀態(tài),無需預先定義細胞亞群撒汉。
基于神經網絡的技術已被證明可以提高在低維嵌入空間和原始基因表達空間中對齊大量批次的可擴展性和速度沟优。這些多任務技術可以有效地在集成和校正的空間中執(zhí)行數(shù)據(jù)標準化、聚類睬辐、降維和差異基因表達分析挠阁。正如最近的預印本報告所顯示的,批次校正方法有過度校正和消除數(shù)據(jù)集中所需生物學信號的風險溯饵。保留生物學信號的一個策略是使用半監(jiān)督方法侵俗,這些方法可以由細胞注釋信息。半監(jiān)督深度學習方法丰刊,包括scANVI和scGEN隘谣,被證明在批次校正和保留生物學變異方面優(yōu)于無監(jiān)督方法。
計算工具本身可能不足以完全區(qū)分生物學信號和混雜變量啄巧。標準化scRNA-seq實驗設計和積極納入技術對照組寻歧,從中可以學習批次效應并應用于案例(例如,“pool-of-controls”)秩仆,以準確模擬跨樣本變異码泛。
構建大型單細胞圖譜
近年來,由于幾個大型細胞圖譜項目涵蓋了許多組織和生物體澄耍,我們已經見證了轉錄分析的單細胞數(shù)量和多樣性的指數(shù)級增長噪珊。值得注意的是,這些1.28億或更多的單細胞轉錄組中有大約80%是在過去的3年中測序的齐莲,涵蓋了至少190種組織和76個物種卿城。
這些圖譜創(chuàng)建項目的最終目標是構建一個經過注釋的、公開可訪問的細胞類型和狀態(tài)的字典铅搓,可以作為細胞標記瑟押、轉錄簽名、疾病關聯(lián)和假設生成的參考星掰。盡管最近取得了進展多望,但在質量控制和跨不同樣本處理和測序模式的數(shù)據(jù)整合方面仍然存在挑戰(zhàn)。為了解決這些問題氢烘,正在進行大規(guī)模的努力怀偷,以使單細胞實驗和計算工作流程標準化,特別是通過人類腫瘤圖譜網絡(Human Tumor Atlas Network)對腫瘤樣本進行標準化播玖。
存在多種策略使用參考數(shù)據(jù)注釋單細胞數(shù)據(jù)椎工,包括marker基因檢測、基因集富集分析、基于相關性的方法维蒙、通用分類器和最大似然估計器等(表1)掰吕。大型語言模型,如GPT4颅痊,可以輕松地基于用戶提供的marker基因提示鏈對細胞進行注釋殖熟。使用深度學習模型的遷移學習策略也在開發(fā)中,以將注釋從單細胞參考映射到小規(guī)模scRNA-seq數(shù)據(jù)集斑响,并發(fā)現(xiàn)疾病特異性細胞狀態(tài)菱属,例如在COVID-19和特發(fā)性肺纖維化患者中。單細胞參考策劃的挑戰(zhàn)包括需要更詳細的細胞級和樣本級注釋舰罚,建立一個統(tǒng)一的細胞狀態(tài)本體纽门,涵蓋各種組織、器官和疾病條件营罢,以及精確對齊查詢數(shù)據(jù)集與條件匹配的參考圖譜膜毁。
在人類參考圖譜中,必須特別注意確保包括廣泛的人口統(tǒng)計因素愤钾,如年齡瘟滨、性別和/或性別、種族和民族能颁,以及多樣的生理狀態(tài)和病理條件杂瘸。為了促進在查詢數(shù)據(jù)集中發(fā)現(xiàn)新細胞類型,還必須注意避免不恰當?shù)貙⒓毎c現(xiàn)有細胞標簽對齊伙菊。一個可能的選擇是败玉,如果無法將細胞有信心地分配到任何已建立的參考細胞類型,則將其分配到一個“新穎”類別镜硕。
識別罕見和微妙的細胞狀態(tài)
scRNA-seq的主要目標之一是識別在批量樣本中無法檢測到的罕見和微妙的細胞群體运翼。盡管scRNA-seq已經導致了組織駐留干細胞和祖細胞、疾病免疫驅動因素和腫瘤細胞譜系狀態(tài)的發(fā)現(xiàn)兴枯,但當前的實驗和計算方法在識別罕見和微妙的細胞狀態(tài)方面仍然面臨許多挑戰(zhàn)血淌。如前一節(jié)所討論的,苛刻的解離條件可能會消除脆弱的細胞或誘導與細胞狀態(tài)相關的應激相關變化财剖,導致預處理步驟中丟失罕見和微妙的細胞群體悠夯。例如,標準解離協(xié)議會誘導獨特的應激反應并激活靜止的肌肉干細胞躺坟,導致靜止干細胞群體的表征不佳沦补,并將這種解離偽影誤分類為新的細胞狀態(tài)。
能否識別罕見和微妙細胞狀態(tài)的另一個主要因素是它們在整體研究人群中的頻率咪橙,以及測序的細胞數(shù)量是否足以檢測到它們夕膀。例如虚倒,組織駐留干細胞非常罕見,即使對未純化的組織進行大規(guī)模scRNA-seq产舞,如果沒有針對性的富集策略魂奥,也可能錯過這些細胞。例如庞瘸,Hoxb5基因的表達標記了具有高再生能力的一小群小鼠長期造血干細胞(LT-HSCs)捧弃。Hoxb5表達(Hoxb5+)LT-HSCs在骨髓中的估計頻率為0.001%赠叼,因此在沒有預先富集的情況下擦囊,從小鼠骨髓中分離出10個Hoxb5+ LT-HSCs大約需要一百萬的有核細胞。通過富集特定的細胞表面標記物嘴办,如KIT和SCA-1(也稱為淋巴細胞抗原6A-2/6E-1)瞬场,同時耗盡表達成熟細胞表面標記的細胞,Hoxb5+ LT-HSCs的頻率提高了1000倍涧郊,顯著增強了它們在scRNA-seq數(shù)據(jù)中的可檢測性贯被。其他scRNA-seq研究干細胞也類似地利用了細胞分布的已知生物學特征,如表面標記物妆艘、解剖位置和胚胎階段彤灶,來分離和功能驗證人類神經和骨骼干細胞。
識別罕見和微妙細胞狀態(tài)通常取決于檢測細胞周期批旺、分化軌跡或代謝狀態(tài)中的適度但可重復的差異幌陕。為此,基于微孔板的全長測序汽煮,盡管比基于液滴的短讀長測序成本更高搏熄、耗時更長,但它提供了來自單個細胞的更深入暇赤、更廣泛的RNA捕獲(圖2d)心例。此外,全長序列提供的較低的dropout率和準確的讀取估計保留了細胞之間微小但至關重要的轉錄差異鞋囊。最近在基于微孔板板的技術方面的進步止后,如MAS-seq和VASA-seq,已經將轉錄組覆蓋范圍擴展到非編碼和選擇性剪接的轉錄本異構體溜腐,這些異構體揭示了在腫瘤浸潤性T細胞分化和小鼠發(fā)育過程中罕見轉錄本的異質性分布坯门。
在捕獲候選細胞及其轉錄本之后,將解析單細胞轉錄組以找到指示生物學異質性的關鍵特征(表1)逗扒。適當?shù)奶卣鬟x擇對于識別罕見或微妙的細胞狀態(tài)至關重要古戴,因為在這一步中省略關鍵標記基因可能會損害細胞狀態(tài)的發(fā)現(xiàn)。許多分析流程使用分散度矩肩,或基因表達水平在數(shù)據(jù)集中單個細胞間的變異性现恼,來優(yōu)先選擇基因肃续。然而,這些措施可能會被無關的協(xié)變量所偏斜叉袍,并且對來自罕見或微妙不同細胞狀態(tài)的生物學信號不敏感始锚。在過濾高分散度基因后,各種計算工具應用層次聚類(例如喳逛,RaceID)瞧捌、密度測量(例如,F(xiàn)iRE)或簇間距離(例如润文,GapClust)來發(fā)現(xiàn)罕見或微妙的細胞狀態(tài)姐呐。
其他特征選擇策略已被使用,然后與各種下游聚類策略結合典蝌,以識別罕見或微妙的細胞狀態(tài)曙砂。例如,GiniClust基于基尼系數(shù)選擇罕見細胞基因骏掀,基尼系數(shù)衡量細胞間基因表達的不平等鸠澈。CellSIUS通過生成高度相關的基因集,具有雙峰分布和在預定義簇中的不同表達截驮,來執(zhí)行特征選擇笑陈。scPNMF使用投影非負矩陣因式分解(NMF)來揭示細胞和基因表達模式,也使用相關性篩選和多峰分布來選擇生物學相關的基因葵袭。需要注意的是涵妥,當同一數(shù)據(jù)用于聚類之前的差異表達分析時,錯誤發(fā)現(xiàn)細胞狀態(tài)標記的風險增加眶熬。因此妹笆,已經開發(fā)了統(tǒng)計方法與上述工具一起使用,以識別更具生物學相關性的標記基因娜氏。
深度生成模型拳缠,如scLDS,也在開發(fā)中贸弥,它可以靈活地學習數(shù)據(jù)集中單個細胞的分布窟坐,并使用可解釋的分類器來推斷罕見細胞。盡管如此绵疲,數(shù)據(jù)集在大小哲鸳、批次和條件的復雜性和多樣性方面提出了在跨樣本數(shù)據(jù)整合和校正后識別罕見細胞狀態(tài)的重大挑戰(zhàn)。SEAcells使用自適應高斯核來捕獲主要的變異源盔憨,然后在降維圖上應用原型分析來識別生物學上一致的細胞群或元細胞徙菠。
隨著越來越多的細胞狀態(tài)在單細胞數(shù)據(jù)集中被注釋,通過證明它們在scRNA-seq實驗中的一致性并通過實驗室環(huán)境中的功能重現(xiàn)來驗證這些細胞狀態(tài)定義變得至關重要郁岩。正如下一節(jié)詳細討論的婿奔,空間測序為在原生微環(huán)境中對新細胞狀態(tài)進行情境化提供了新的機會缺狠,并利用空間特征來改進細胞分類。
追蹤單細胞經歷生物學轉變
scRNA-seq分析使得我們能夠精確地描繪細胞在動態(tài)生物學過程中所經歷的轉錄路徑萍摊,例如發(fā)育挤茄、分化、細胞周期冰木,以及對基因組和代謝擾動的響應穷劈。使用轉錄數(shù)據(jù)預測研究中單細胞在一系列過渡細胞狀態(tài)中的相對順序是一個主要的生物學挑戰(zhàn)。已經開發(fā)了幾種計算和基因組方法來預測不同生物學過程中單細胞的順序(表1)踊沸。這些方法中有一小部分專注于從單細胞轉錄組數(shù)據(jù)中預測細胞的可塑性歇终,或者說是單細胞發(fā)展成其他細胞的潛力。
軌跡推斷工具
已經開發(fā)了許多計算方法來推斷細胞軌跡(圖3a)雕沿。這些軌跡推斷工具大多涉及生成低維嵌入练湿,并通過基于圖的方法或基于聚類的方法確定的節(jié)點來描繪路徑猴仑。軌跡推斷工具是模塊化的审轮,主要在降維、聚類和軌跡建模的方法上有所不同辽俗。有關這些方法的廣泛基準測試和全面討論疾渣,請參閱參考文獻104。
隨著數(shù)據(jù)集在規(guī)模和復雜性上的增長崖飘,出現(xiàn)了幾個挑戰(zhàn)榴捡。軌跡推斷工具容易受到降維和聚類中不希望的協(xié)變量的影響,并且它們依賴于準確的數(shù)據(jù)整合和批次校正來繪制跨多個樣本的軌跡朱浴。在大型吊圾、異質性數(shù)據(jù)集中,可能同時參與不同動態(tài)過程的多個細胞譜系(例如翰蠢,細胞周期和分化)项乒。軌跡推斷工具應該能夠將這些復雜的數(shù)據(jù)集簡化為其生物學部分,并繪制不強制連接不同譜系或靜態(tài)狀態(tài)的無關細胞的軌跡梁沧。這些方法還需要用戶大量參與和參數(shù)調整檀何,以確定最優(yōu)軌跡并確定動態(tài)過程的起始或終止狀態(tài)。
已經開發(fā)了幾種方法來無偏地確定轉錄演變的方向(圖3b)廷支。RNA速率分析通過比較新轉錄的前mRNA和成熟的mRNA來估計細胞轉換的速率和方向频鉴;protaccel另外結合了蛋白質速率,當有多組學數(shù)據(jù)可用時恋拍,可以提供更豐富的細胞狀態(tài)動態(tài)洞察垛孔。通過使用NASC-seq和scSlam-seq對新合成RNA進行代謝標記,也可以直接測量類似的分子動力學施敢。這些工具可以捕捉到短時間內發(fā)生的細胞轉換(分鐘到小時)周荐,但在捕捉長時間尺度(天到月)的發(fā)展軌跡時不太可靠辛萍。
整合表觀基因組和蛋白質組數(shù)據(jù)也可以改善軌跡特征,并根據(jù)染色質可及性和蛋白質表達引導細胞轉換的方向羡藐。最終贩毕,通過單細胞分辨率條形碼進行的譜系追蹤提供了細胞轉換序列的真實信息(圖3c)。可以使用工程基因組標簽(例如重組事件仆嗦、病毒整合辉阶、基于CRISPR的條形碼或自然標記)來實驗性地追蹤單個細胞。
測量細胞可塑性
細胞可塑性是指細胞可以采取的潛在命運多樣性瘩扼,獨立于基因組改變谆甜。它是正常細胞對疾病反應(例如,感染中的多樣化T細胞狀態(tài))的關鍵特征集绰,也是癌細胞在腫瘤發(fā)生和治療逃避中的適應弃锐。已經開發(fā)了幾種計算方法來使用單細胞轉錄組數(shù)據(jù)量化細胞可塑性(表1)瘪菌。
可塑性可以被概念化為低維嵌入中的一個概率過程,其中任何給定細胞到達圖中定義的終點的概率可以用來估計潛力(圖3d)。Palantir目尖、VIA和MARGARET是推斷復雜拓撲結構园骆、識別終點并使用馬爾可夫鏈模型根據(jù)其到達定義終點的可能性為每個細胞分配概率的方法畏线。具有到達每個終點相等概率的細胞被認為比那些概率傾斜的細胞具有更大的潛力擎厢。FateID通過利用在預定義終點上訓練的隨機森林分類器來計算轉換概率。GpFates將細胞命運建模為重疊高斯過程的混合蔼啦,STEMNET將命運測量為廣義線性回歸模型榆纽,其中系數(shù)權重代表對預定義終點的貢獻。應用于單時間點收集的scRNA-seq數(shù)據(jù)的方法的一個主要缺點是它們依賴于對細胞轉換的起始和終點的先驗知識捏肢。CellRank通過利用RNA速率和CytoTRACE(下文討論)等無偏工具來推斷細胞狀態(tài)的起源和目的地奈籽,然后應用馬爾可夫鏈模型計算命運概率,從而改進了這一點鸵赫。在時間序列數(shù)據(jù)中衣屏,可以使用Waddington-OT計算命運概率,它將細胞轉換建模為最優(yōu)傳輸問題奉瘤。TrajectoryNet使用類似的最優(yōu)傳輸方法勾拉,推斷細胞在時間點之間的連續(xù)非線性軌跡。
細胞可塑性也可以作為主調控基因及其下游表達網絡的函數(shù)來研究盗温。CellOracle利用從單細胞多組學分析中獲得的基因調控網絡知識藕赞,執(zhí)行體外轉錄因子擾動,并展示命運變化卖局。
測量發(fā)育潛力
發(fā)育潛力是可塑性的一種類別斧蜕,它衡量細胞產生更分化細胞的能力。具有產生整個生物體能力的細胞砚偶,如合子批销,具有最高的發(fā)育潛力洒闸,而終末分化的細胞,如中性粒細胞均芽,具有最低的發(fā)育潛力(圖3e)丘逸。發(fā)育潛力是干細胞和祖細胞在組織生長、穩(wěn)態(tài)和再生期間的標志掀宋。因此深纲,這一領域計算工具的目標是預測單細胞在從最不專業(yè)化到最專業(yè)化身份和功能的連續(xù)體上的分化(表1)。
預測發(fā)育潛力的一個策略是測量早期胚胎發(fā)育期間活躍的轉錄程序(圖3e)劲妙。這些工具的例子包括ORIGINS湃鹊,一個來自基因本體“細胞分化生物學過程”的蛋白質-蛋白質網絡;mRNAsi镣奋,一個在多能干細胞的基因表達數(shù)據(jù)上訓練的邏輯回歸模型币呵;和PluriNet,一個與多能干細胞共享的蛋白質-蛋白質網絡的基因集侨颈。然而余赢,將這些模型應用于胚胎后發(fā)育過程,假設在胚胎干細胞中維持多能性相同的程序也控制著成人正常和腫瘤細胞中的可塑性肛搬。FitDevo通過訓練一個從包括胎兒和成人細胞的數(shù)據(jù)集學習到的廣義線性模型來擴展這一范圍没佑。
單細胞分析還表明毕贼,染色質可及性和轉錄多樣性是發(fā)育潛力的替代測量方法(圖3e)温赔。直觀地說,在整個基因組中廣泛表達的細胞傾向于比那些轉錄多樣性有限的細胞具有更高的潛力鬼癣,以轉變?yōu)椴煌南掠渭毎麪顟B(tài)陶贼。CytoTRACE展示了一個簡單的測量——單個細胞表達的基因總數(shù)——從受精卵到各種組織和物種的終末分化細胞重現(xiàn)了細胞發(fā)育。這種轉錄多樣性與通過測序法測定的基因組范圍染色質可及性相關待秃。鑒于其在正常組織中發(fā)現(xiàn)較少分化細胞的表現(xiàn)拜秧,CytoTRACE被應用于人類乳腺癌數(shù)據(jù),并鑒定了一個以GULP1表達為特征的腫瘤形成性腔前體細胞群章郁。轉錄多樣性也可以通過計算香農熵來量化枉氮,這是一種在數(shù)據(jù)中不確定性或隨機性的流行測量方法。這些方法在計算香農熵的數(shù)據(jù)表示上差異很大暖庄,范圍從整個轉錄組的熵聊替,到最高度表達的基因,或一個策劃的基因-基因網絡培廓,基因集-基因集網絡或蛋白質-蛋白質網絡惹悄。這些方法的幾種變體已經被開發(fā)出來,以優(yōu)化運行時間肩钠,并集成不同的網絡分布測量泣港。最近的一項預印本研究利用了具有時間點和發(fā)育注釋的公開數(shù)據(jù)集暂殖,構建了一個靈活的機器學習模型,該模型學習scRNA-seq數(shù)據(jù)中的潛在特征当纱,并進一步提高了預測發(fā)育潛力的性能呛每。
空間轉錄組學
細胞存在于由細胞外分子、結構基質和鄰近細胞組成的復雜微環(huán)境中坡氯,這些因素共同塑造了細胞的表型和組織的功能性特性莉给。盡管scRNA-seq繼續(xù)擴展跨廣泛生物體和組織的細胞狀態(tài)的字典,但它未能捕獲滋養(yǎng)特定細胞身份的微環(huán)境的上下文廉沮。ST作為同時測量細胞感興趣和其周圍鄰居的轉錄狀態(tài)的方法出現(xiàn)颓遏。通過將單細胞生物學的范圍從孤立的細胞擴展到多細胞鄰域,ST揭示了不同組織和條件下細胞的反復和功能性組織滞时。
表征細胞狀態(tài)的空間排列
已經開發(fā)了多種方法來生成ST數(shù)據(jù)叁幢,這些方法在細胞分辨率、轉錄組覆蓋范圍坪稽、組織兼容性曼玩、成本、基礎設施和商業(yè)可用性方面有所不同窒百。使用熒光原位雜交(FISH)的方法黍判,如Vizgen MERSCOPE、NanoString CosMx和seqFISH+篙梢,通過結合高分辨率成像和預先設計的探針的序列雜交顷帖,捕獲數(shù)百到數(shù)千個轉錄本的亞細胞分辨率。其他基于探針的方法渤滞,如STARmap和10x Genomics Xenium贬墩,使用原位測序作為讀出。由于這些方法目前需要創(chuàng)建定制的基因panel并驗證特定基因的探針妄呕,因此它們在有先驗知識選擇感興趣細胞狀態(tài)的標記基因時最有用陶舞。可以從特定細胞類型或狀態(tài)的已知標記中構建基因panel绪励;或者肿孵,存在幾種無聚類方法來選擇最能捕獲可比scRNA-seq數(shù)據(jù)集變化的基因(例如,SCMER和geneBasis)疏魏。
當細胞狀態(tài)的興趣未知或現(xiàn)有的基因標記未能區(qū)分罕見和微妙的細胞狀態(tài)時停做,全轉錄組覆蓋是理想的。一組我們稱之為“批量ST”的方法在定義的樣本區(qū)域執(zhí)行全轉錄組測序蠢护,空間分辨率各不相同雅宾。這些包括激光捕獲顯微鏡后跟批量RNA-seq(LCM-seq)和基于陣列的ST平臺,如10x Genomics Visium、Slide-seq V2和Stereoseq眉抬,它們分別捕獲直徑為55μm贯吓、10μm和220nm的斑點的RNA,以及10x Genomics Visium HD蜀变,具有2μm平方的分辨率悄谐。雖然較小的斑點直徑提高了單細胞分辨率,但這與轉錄捕獲效率降低相抵消库北。與批量ST相反爬舰,已經開發(fā)了幾種方法,這些方法在空間條形碼之后進行組織解離和scRNA-seq寒瓦。這些方法包括XYZeq情屹、sc-Space和Slide-Tags,它們實現(xiàn)了高轉錄捕獲效率杂腰,但以空間分辨率(分別為500μm垃你、222μm和10μm)、解離偽影和組織采樣不足為代價喂很。
不同ST技術在不同組織和條件下的性能還有待全面評估惜颇。例如,幾種ST檢測已經在大腦中廣泛測試少辣,部分原因是由于現(xiàn)有的解剖和分子數(shù)據(jù)豐富凌摄,使得大腦特別適合ST。然而漓帅,并非所有組織在參考圖譜中都有同等的代表性锨亏,研究缺乏強大細胞圖譜注釋或一致解剖結構的組織(如腫瘤組織)可能比較困難。某些組織也可能帶來更大的技術挑戰(zhàn)煎殷,例如高自發(fā)熒光屯伞、寡核苷酸擴散不均、降解RNA的化學物質濃度高豪直,或者由于其材料屬性(如骨骼)難以切片的結構。設計ST實驗時還有許多其他考慮因素珠移,我們建議讀者參考有關此主題的其他評論弓乙。
使用計算工具克服技術障礙
已經開發(fā)了幾種計算方法來解決ST技術的固有限制,包括細胞分辨率钧惧、轉錄覆蓋范圍和獨立樣本的對齊(表1)暇韧。例如,一種常見策略是使用具有匹配的生物學和實驗特征的參考scRNA-seq圖譜來提高ST分辨率或轉錄覆蓋范圍浓瞪。為了解決空間轉錄組學技術固有的局限性懈玻,包括細胞分辨率、轉錄覆蓋范圍和獨立樣本的對齊(表1)乾颁,已經開發(fā)了幾種計算方法涂乌。例如艺栈,一種常見的策略是使用具有匹配的生物學和實驗特征的參考scRNA-seq圖譜來提高ST分辨率或轉錄覆蓋范圍。盡管標準的批量RNA-seq去卷積工具可以應用于批量ST湾盒,但已經開發(fā)了專門工具湿右,利用scRNA-seq數(shù)據(jù)來剖析空間斑點,要么分解為細胞類型特異性的分數(shù)(例如罚勾,cell2location毅人、RCTD),要么分解為單個單細胞轉錄組(例如尖殃,CytoSPACE丈莺、Tangram和CellTrek),要么分解為亞斑點或像素級表達(例如送丰,BayesSpace场刑、XFuse、TESLA和iStar)蚪战,或者推斷細胞類型特異性的表達譜(ST去卷積)牵现。批量ST去卷積方法的應用場景包括發(fā)育生物學、腸道生物學和腫瘤生物學等邀桑。最近的研究表明瞎疼,使用深度學習方法將組織學與ST數(shù)據(jù)整合可以增強ST去卷積工具的空間和表型分辨率。
對于基于探針的ST壁畸,通常在單細胞分辨率下測量轉錄組的子集贼急,存在幾種方法可以估算未測量基因的表達。此外捏萍,最近的基準測試表明太抓,通過將scRNA-seq與ST數(shù)據(jù)整合,然后平均最近scRNA-seq鄰居的基因表達來估算基因表達令杈,scRNA-seq批次校正技術可以實現(xiàn)與整合scRNA-seq與ST數(shù)據(jù)然后對ST細胞進行平均一樣的競爭性能走敌。
另一個關鍵的計算挑戰(zhàn)是從多個2D ST樣本構建連貫的空間圖譜,這些樣本要么來自相鄰組織逗噩,要么跨越時間序列掉丽。可以根據(jù)正在注冊的模式异雁、組織切片變形的程度或個體之間組織結構的變化選擇合適的ST對齊方法捶障。對齊方法也可以用來將2D ST數(shù)據(jù)整合到公共坐標框架中,當它們存在時纲刀,甚至可以(大致)對齊來自相似解剖區(qū)域的不同個體的2D切片项炼。
通過比較多細胞鄰域發(fā)現(xiàn)反復出現(xiàn)的空間組織
將單細胞研究擴展到相互作用細胞的多細胞中心正在提高我們對包括細胞可塑性、命運決定和腫瘤免疫學在內的廣泛生物學機制的理解。盡管組織學結構為ST分析提供了起點锭部,但它們可能無法詳細分析細胞微環(huán)境如何決定其表型暂论。
由一個細胞及其局部微環(huán)境組成的多細胞鄰域是ST數(shù)據(jù)分析的基本單元。多細胞鄰域應以數(shù)據(jù)驅動的方式定義空免,考慮技術和研究現(xiàn)象的規(guī)模(見圖4a中的“生物信息學工作流程”)空另。在批量ST數(shù)據(jù)的背景下,多細胞鄰域可以被定義為陣列中的一個單獨斑點蹋砚、一個“元斑點”(一個斑點及其最近鄰域)扼菠,或者是一個或多個空間斑點的去卷積結果。對于單細胞分辨率的ST數(shù)據(jù)坝咐,許多定義多細胞鄰域的方法使用固定半徑(50-200μm)循榆、固定數(shù)量的鄰近細胞(10-200個最近鄰域)在2D或3D空間中,或者由Delaunay三角剖分定義的鄰域墨坚。
選擇適當?shù)奶卣骷瘉肀碚鞫嗉毎徲蚴且粋€數(shù)據(jù)依賴和應用依賴的過程(見圖4a)秧饮。對于批量ST,如果每個斑點被認為是一個多細胞鄰域泽篮,那么斑點的基因表達值是下游分析如聚類的自然特征盗尸。對于單細胞分辨率的ST數(shù)據(jù),多細胞鄰域可以通過其組成來表示帽撑,即預先定義并使用已知標記選擇的細胞類型和狀態(tài)泼各。這種方法在空間蛋白質組學中很常見,具有表達力亏拉,可以識別組織學上不同的區(qū)域扣蜻,識別組成上不同的區(qū)域,這些區(qū)域表現(xiàn)出不同的細胞間信號模式及塘,捕捉不同淋巴器官之間組織架構的相似性和差異性莽使,并識別與回顧性癌癥隊列中的治療結果相關的多細胞鄰域模式。其他策略通過對細胞進行加權平均來表示多細胞鄰域笙僚,利用諸如加權平均芳肌、基因-基因協(xié)方差矩陣或深度學習等方法(見圖4a中的“深度學習使能工作流程”)。
使用基因表達值分析多細胞鄰域可以自動化識別參考數(shù)據(jù)集中不存在的細胞類型或依賴上下文的轉錄狀態(tài)味咳。此外庇勃,基因表達適合空間數(shù)據(jù)中的細胞-細胞相互作用分析。包含基因表達狀態(tài)的表示可以編碼比細胞類型頻率更復雜的信息槽驶,使研究人員能夠區(qū)分具有相似細胞類型組成的細胞群落。例如鸳兽,通過聯(lián)合考慮結構內細胞的轉錄狀態(tài)掂铐、細胞組成和空間組織,可以準確確定三級淋巴結構的成熟狀態(tài)(圖4b、c)全陨”啵基因表達的一個潛在缺點是批次效應的存在,其中多細胞鄰域主要根據(jù)技術協(xié)變量(例如樣本)而不是生物學特征進行分離辱姨。在深度學習分析中柿菩,這種效應已經在過度擬合模型中觀察到,這些模型是針對表達特征訓練的雨涛。在這種情況下枢舶,存在各種策略來減輕批次效應,例如在多細胞鄰域分析之前預先應用數(shù)據(jù)整合工具替久,或者如最近的預印本所示凉泄,一種新興策略是使用深度學習同時嵌入多細胞鄰域并進行數(shù)據(jù)整合。
創(chuàng)建多細胞鄰域的表示后蚯根,一個重要的目標是識別跨空間域后众、樣本或個體的反復出現(xiàn)的細胞狀態(tài)社區(qū)(圖4a)。我們將反復出現(xiàn)的多細胞鄰域表型颅拦,其特征是相關細胞狀態(tài)蒂誉,稱為“空間生態(tài)型”。這一概念借鑒了生態(tài)學中“生態(tài)型”作為空間依賴的物種亞群的概念距帅,以及引入“生態(tài)型”一詞用于腫瘤微環(huán)境中相關轉錄狀態(tài)的工作右锨。轉錄生態(tài)型和空間生態(tài)型的定義也與“多細胞程序”相吻合,這是在多個樣本或空間區(qū)域中共同關聯(lián)的不同細胞類型的轉錄狀態(tài)集锥债。這些研究和其他研究共有的基本見解是陡蝇,通過確定在許多獨立樣本或空間區(qū)域中頻率相關的細胞狀態(tài),可以識別相關的細胞狀態(tài)哮肚。
空間生態(tài)型和相關的反復出現(xiàn)的多細胞鄰域的概念在癌癥研究中特別有用登夫,它們可以應用于在缺乏明確組織學特征的情況下識別反復出現(xiàn)的表型。例如允趟,在皮膚鱗狀細胞癌的個體隊列中恼策,腫瘤特異性角質形成細胞狀態(tài)定位于多個樣本中腫瘤-基質界面的多細胞鄰域。在跨多個乳腺癌樣本整合的多細胞中心的研究中潮剪,豐富的FGF2+調節(jié)性T(Treg)細胞沿著FGF2受體梯度涣楷,表明Treg細胞浸潤在這種情況下參與了腫瘤微環(huán)境的結構。
空間表征表型轉變
當細胞經歷表型轉變時抗碰,識別其多細胞鄰域的組成和基因表達的伴隨變化將為理解支持動態(tài)細胞過程的機制提供新見解狮斗。這一挑戰(zhàn)在多種生物學例子中出現(xiàn),包括干細胞向祖細胞和后代細胞的分化弧蝇、免疫細胞對刺激的激活碳褒,以及癌細胞的克隆進化折砸。
這些分析屬于空間軌跡分析的范疇(表1)∩尘可以將scRNA-seq數(shù)據(jù)的軌跡分析轉移到ST中對應的細胞睦授,通過應用ST去卷積或批次整合方法;也可以直接在ST數(shù)據(jù)上執(zhí)行軌跡分析摔寨,盡管當前ST檢測的技術限制(低轉錄捕獲或缺乏單細胞分辨率)可能會影響結果的有效性去枷。最近對ST數(shù)據(jù)的軌跡分析在非空間方法的基礎上,使用各種技術策略來鼓勵“空間一致性”(在空間上鄰近的細胞在軌跡中有相似的位置)是复。然而删顶,對多細胞鄰域的表型軌跡進行建模仍然是一個挑戰(zhàn),無論是在獨立樣本內還是跨獨立樣本佑笋。
最后翼闹,可以使用基因組標記在空間數(shù)據(jù)中追蹤克隆進化,例如線粒體DNA變體蒋纬、拷貝數(shù)變化和遺傳突變猎荠,當它們可用時。將詳細的系統(tǒng)發(fā)育與ST數(shù)據(jù)結合起來蜀备,將能夠進一步研究克隆進化在多大程度上影響表型轉變关摇。
臨床應用
迄今為止,單細胞RNA測序(scRNA-seq)已被應用于研究超過103種不同的人類疾病碾阁,并已被納入超過58項血液學输虱、腫瘤學和免疫學臨床試驗。從患者樣本中構建單細胞分辨率的大型細胞圖譜脂凶,正準備促進向精準醫(yī)學的轉變宪睹,在精準醫(yī)學中,特定細胞和轉錄本的存在和比例將指導疾病分類蚕钦、治療和預后亭病。單細胞RNA-seq已經被用來闡明疾病進展和傳播的機制,識別與不良結果相關的罕見或微妙的細胞狀態(tài)嘶居,并揭示潛在的治療弱點罪帖。例如,腫瘤微環(huán)境的單細胞分析揭示了在多種癌癥類型中具有臨床相關性的免疫和非免疫表型邮屁;它還使研究人員能夠表征靜止和治療抵抗的癌癥干細胞以及具有預后和可靶向特征的循環(huán)腫瘤細胞整袁。單細胞轉錄組學還促進了對正常人類神經和骨骼干細胞以及祖細胞的描述,并為將干細胞分化到期望的細胞命運提供了高分辨率的路線圖佑吝,以用于最終的細胞移植應用坐昙。
盡管最初是在小隊列中發(fā)現(xiàn)的,但scRNA-seq的發(fā)現(xiàn)可以通過使用“數(shù)字細胞測量”從大量臨床數(shù)據(jù)庫中的混合RNA中解卷積細胞組成來進行外部驗證和大規(guī)模測量芋忿。實際上民珍,直接在臨床中使用scRNA-seq受到成本襟士、標準化和組織解離偽影等其他因素的限制盗飒。然而嚷量,scRNA-seq可以優(yōu)先考慮用于評估已經在臨床環(huán)境中可用的更簡單檢測的轉錄本、細胞狀態(tài)和蛋白質逆趣,例如免疫組織化學蝶溶、FISH、流式細胞術和多基因面板測序宣渗。
空間轉錄組學(ST)也在發(fā)現(xiàn)臨床上相關的空間定義的細胞狀態(tài)和生態(tài)型方面發(fā)揮著類似的作用抖所,然后可以通過更簡單的檢測來總結,以指導臨床決策痕囱。空間生物標記已經顯示出與多種癌癥(包括腦田轧、乳腺、結腸和肺癌)的臨床結果和治療反應相關鞍恢。與口腔鱗狀細胞癌腫瘤邊界和非小細胞肺癌上皮-間質轉化相關的兩個空間生態(tài)型的基因表達簽名分別預測了大型保留的批量RNA-seq隊列中的生存率傻粘。PD-1+ T細胞和PD-L1+髓細胞之間的空間免疫相互作用模式為結直腸癌中的免疫逃逸提供了見解。技術進步使得scRNA-seq和ST能夠應用于石蠟包埋組織帮掉,這使得能夠回顧性分析存儲在生物庫中的臨床樣本弦悉。像人類蛋白質圖譜這樣的大型努力正在創(chuàng)建平臺,通過整合蛋白質蟆炊、轉錄組和地理空間特征以及生物學和臨床注釋來發(fā)現(xiàn)生物標記稽莉。
人工智能與單細胞轉錄組學的未來
隨著單細胞和空間組學數(shù)據(jù)的深度、規(guī)模涩搓、分辨率和復雜性不斷增長(例如污秆,通過引入多組學能力),人工智能(AI)的并行飛躍預示著機器輔助單細胞生物學的新時代(圖6a)昧甘。在這篇綜述中良拼,我們包含了深度學習方法在單細胞轉錄組學中實現(xiàn)最新性能或使以前無法進行的分析成為可能的分析場景。深度學習在單細胞轉錄組學中的興起得益于數(shù)據(jù)可用性的增加疾层、新模型架構的開發(fā)(例如将饺,變換器和視覺變換器),以及使非專家能夠訓練痛黎、應用和解釋深度學習模型的軟件予弧。深度學習可以根據(jù)不同模型架構(例如,卷積神經網絡和圖神經網絡)或訓練框架(監(jiān)督或無監(jiān)督)應用于多種問題湖饱。例如掖蛤,監(jiān)督方法可以預測微妙的分子或空間模式對治療結果的差異,而無監(jiān)督方法可以在不需要手動批次校正的情況下發(fā)現(xiàn)不同數(shù)據(jù)集之間的共享生物學特征井厌。深度學習模型的性能對“超參數(shù)”的選擇非常敏感(包括模型的深度和維度以及訓練過程的確切細節(jié))蚓庭。因此致讥,由訓練有素的模型組成的方法是有利的,因為它們消除或減少了進一步超參數(shù)調整的需要器赞。
基礎模型最近在單細胞轉錄組學研究社區(qū)和更廣泛的領域引起了相當大的興趣垢袱。基礎模型是在大量未標記數(shù)據(jù)上訓練的深度學習模型港柜,旨在為下游應用形成“基礎”请契,要么在沒有任何額外訓練的情況下應用,要么使用少量標記數(shù)據(jù)進行“微調”夏醉,以使模型適應特定任務爽锥。單細胞轉錄組學的基礎模型通常在許多數(shù)據(jù)集上進行訓練。
在單細胞轉錄組學分析中使用基礎模型的一個假設是畔柔,這些模型自動學習將來自不同平臺氯夷、組織和條件的scRNA-seq數(shù)據(jù)組織成一致的嵌入(圖6b和表1)。在基礎模型嵌入中靶擦,研究人員可以搜索其他數(shù)據(jù)集中與輸入細胞相似的細胞腮考,進行數(shù)據(jù)整合,將標簽(如細胞類型或狀態(tài))從標記數(shù)據(jù)集轉移到未標記的數(shù)據(jù)集奢啥,或者預測擾動對細胞轉錄狀態(tài)的影響(圖6c和表1)秸仙。另一個假設是,在大量未標記數(shù)據(jù)上預訓練模型可以提高其從少量標記數(shù)據(jù)中學習的能力桩盲,盡管并非所有模型都實現(xiàn)了這一點寂纪。正如最近的預印本所建議的,這些嵌入空間在多大程度上捕捉到生物學信號仍然是一個開放的問題赌结,這些嵌入空間對訓練數(shù)據(jù)中某些組織或疾病狀態(tài)的過度表示的敏感性還沒有得到系統(tǒng)的解決捞蛋。嵌入模型可能無法捕捉細微的生物學信息,特別是對于在訓練數(shù)據(jù)或用于微調的數(shù)據(jù)中代表性不足的細胞柬姚,而對于生成模型拟杉,另一個擔憂是它們傾向于“幻想”出沒有現(xiàn)實世界對應物的結果。正在進行的努力復制已發(fā)表(或預印本)的基礎模型量承,將它們與黃金標準進行基準測試搬设,并實施防護措施以防止或至少識別潛在的幻覺,對于評估它們的能力以及建立它們對各種下游應用新數(shù)據(jù)集的泛化至關重要撕捍。
隨著ST數(shù)據(jù)的相對缺乏組織良好的大規(guī)模圖譜拿穴,ST基礎模型的開發(fā)變得復雜。最近的預印本報告了在scRNA-seq和ST數(shù)據(jù)上訓練單細胞基礎模型的工作忧风。這項工作表明默色,基礎模型嵌入編碼了單細胞的微環(huán)境上下文信息;類似的模型可以被訓練來明確地結合ST數(shù)據(jù)和scRNA-seq的轉錄數(shù)據(jù)中的微環(huán)境上下文(例如狮腿,通過使用多種技術特定的解碼器)腿宰,這可能使得空間感知的基礎模型能夠為scRNA-seq數(shù)據(jù)插補多細胞鄰域呕诉。與scRNA-seq一樣,ST基礎模型可能會受到不平衡訓練數(shù)據(jù)的影響吃度;ST數(shù)據(jù)的另一個挑戰(zhàn)是探針基礎ST的普遍性甩挫,其中面板偏向于當前ST面板中過度表示的特定基因。這可能會掩蓋通過關注ST面板中過度表示的基因所涉及的途徑來調節(jié)的廣泛空間轉錄狀態(tài)的規(guī)則规肴。
我們還預見到空間分辨的擾動模型作為現(xiàn)有單細胞擾動模型的擴展將得到發(fā)展捶闸。這些模型將使研究人員能夠在模擬環(huán)境中測試微環(huán)境擾動的影響,包括組合擾動拖刃。能夠為依賴于上下文的細胞狀態(tài)的微環(huán)境決定因素制定因果假設,可能會徹底改變我們對干細胞生態(tài)位到免疫系統(tǒng)功能和功能障礙背后的細胞間相互作用的理解贪绘。
盡管深度學習模型通常能夠實現(xiàn)無與倫比的性能兑牡,但理解驅動模型預測的因素(包括細胞狀態(tài)、基因集税灌、空間生態(tài)型均函、原始文獻、數(shù)據(jù)庫或規(guī)則(例如菱涤,組合和互斥性))可能具有挑戰(zhàn)性苞也。這些問題屬于機器學習社區(qū)中日益活躍的研究領域——模型可解釋性≌掣眩可解釋性不僅對于發(fā)現(xiàn)新生物學至關重要如迟,而且對于建立信心和信任,特別是在臨床環(huán)境中至關重要攻走。
結論
單細胞轉錄組學和空間轉錄組學技術正在徹底改變我們對復雜組織中細胞狀態(tài)起源殷勘、調節(jié)和維持的理解。通過精心的實驗設計和策略性地利用計算方法昔搂,研究人員可以充分發(fā)揮scRNA-seq和ST數(shù)據(jù)的潛力玲销,以揭示各種情境下的關鍵細胞狀態(tài)和多細胞群落。盡管數(shù)據(jù)分析存在固有挑戰(zhàn)摘符,但迅速出現(xiàn)的實驗和計算工具贤斜,以及像人類細胞圖譜、人類蛋白質圖譜和人類腫瘤圖譜網絡這樣的大型合作努力逛裤,正在促進這些細胞狀態(tài)在更廣泛的人類健康和疾病譜系中的情境化瘩绒。隨著大量的基因組、空間和時間數(shù)據(jù)正在被整合到來自不同組織别凹、物種和條件的單細胞中草讶,我們才剛剛開始揭開細胞的奧秘。